# 论文阅读
-
FinLex: An effective use of word embeddings for financial lexicon generation 论文阅读
本文介绍了一种名为FinLex的新方法,该方法在处理法律和金融文本的语言模型(LM)词汇表构建方面展示出了与现有最佳技术相媲美的性能。FinLex主要解决了传统上依赖专家手动创建词汇表所带来的主观性和非标准化问题。随着概念随时间和语境的变化,人工创建的方法难以保持词汇表的更新与一致。FinLex的创新之处在于使用算法自动构建词汇表,减少了人为因素的影响,提高了过程的可重复性和透明度。此外,这种方法不仅没有排除领域专家的参与,反而为他们提供了一个优化的基础。
-
USING MD&A TO IMPROVE EARNINGS FORECASTS 论文阅读
在本文中,我们开发了将文本与财务变量相结合的技术,以生成明确的公司层面预测。我们发现,增强文本的模型比仅使用定量财务变量的模型更准确,提供了关于MD&A部分预测价值的证据。具有本期业绩变化较小、未来业绩变化较大、未来业绩变化为负、应计项目较高、市值更大、Z评分较低、审计质量更高、MD&A文本较短且更易读、以及激励性薪酬较高的公司的MD&A更具信息量。MD&A在监管改革之后的时期内更具信息量,但在最近的金融危机期间则信息量较少。最后,我们表明,在小型企业和分析师关注度较低的企业中,分析师相对于增强文本的统计模型而言失去了其预测优势。
-
文献综述 Forecasting earnings and return: A review of recent advancements
本文选择性地回顾了在收益和回报预测模型研究方面的最新进展。我们讨论了为什么将统计学、计量经济学和机器学习的进展应用于收益和回报的预测会带来诸多挑战。
-
Predicting Future Earnings Changes Using Machine Learning and Detailed Financial Data 论文阅读
使用机器学习方法和高维详细财务数据来预测一年后的收益变化方向。我们的模型显示出显著的样本外预测能力:受试者操作特征曲线(ROC)下的面积(AUC)在67.52%到68.66%之间,这明显高于随机猜测的50%。根据我们模型预测形成的对冲组合的年度规模调整后收益在5.02%到9.74%之间。我们的模型优于两种传统模型,这两种传统模型使用逻辑回归和少量的会计变量,并且也优于专业分析师的预测。分析表明,相对于传统模型的优越性既来自于回归所忽略的非线性预测变量相互作用,也来自于机器学习利用了更详细的财务数据。
-
When is a Liability not a Liability? Textual Analysis, Dictionaries, and 10-Ks(2011) 论文阅读
先前的研究使用负面词汇的数量来衡量文本的基调。我们表明,为其他学科开发的词汇表会误分类金融文本中常见的词汇。在1994年至2008年间大量10-K报告的样本中,几乎四分之三被广泛使用的哈佛词典标记为负面的词汇,在金融语境中通常并不被认为是负面的。我们开发了一个替代的负面词汇表,以及另外五个词汇表,这些词汇表更好地反映了金融文本中的基调。我们将这些词汇表关联到10-K申报回报、交易量、回报波动性、欺诈、重大缺陷以及意外收益上。
-
From Man vs Machine to Man + Machine: The Art and AI of Stock Analyses 论文阅读
人工智能分析师,在股票收益预测方面超越了大多数分析师。涉及无形资产和财务困境时,“人机对抗”中人类仍然胜出。当信息透明但量大时,人工智能则更胜一筹。在“人机协作”模式下,人类提供了显著的增量价值,并且大幅减少了极端错误的发生。如果分析师的雇主构建了人工智能能力,在“另类数据”变得可用之后,分析师能够赶上机器的表现。
-
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models 论文阅读
我们探讨了生成连锁思维——一系列中间推理步骤——如何显著提高大型语言模型执行复杂推理的能力。特别地,我们展示了通过一种简单的方法,称为连锁思维提示,在提供一些连锁思维示例作为提示的情况下,大型语言模型自然地表现出这种推理能力。在三个大型语言模型上的实验表明,连锁思维提示在一系列算术、常识和符号推理任务上提高了性能。这种实证收益是显著的。例如,仅使用八个连锁思维示例提示PaLM 540B,就在GSM8K数学题解基准上达到了最先进的准确性,甚至超过了微调过的带验证器的GPT-3。
-
Interleaving Retrieval with Chain-of-Thought Reasoning for Knowledge-Intensive Multi-Step Questions 论文阅读
基于提示的大型语言模型(LLMs)在生成多步骤问题回答(QA)的自然语言推理步骤或链式思维(CoT)方面表现出惊人的强大。然而,当所需的知识在LLM中不可用或其参数未更新时,它们会遇到困难。虽然使用问题从外部知识源中检索相关文本可以帮助LLMs,但我们观察到这种一步检索和阅读的方法对于多步骤QA是不足的。在这里,检索的内容取决于已经推导出的内容,而推导的内容可能又取决于之前检索的内容。为了解决这个问题,我们提出了IRCoT,一种新的多步骤QA方法,它将检索与CoT中的步骤(句子)交替进行,通过CoT指导检索,并反过来使用检索结果改进CoT。使用IRCoT与GPT-3相结合,在四个数据集(HotpotQA、2WikiMultihopQA、MuSiQue和IIRC)上的检索(最多提高21点)以及下游QA(最多提高15点)表现出显著提升。我们在分布外(OOD)设置以及使用更小的模型如Flan-T5-large时观察到了类似的显著增益,而无需额外训练。IRCoT减少了模型幻觉,产生了事实更准确的CoT推理。
-
Retrieval-Augmented Generation for Large Language Models: A Survey 文献综述
大型语言模型(LLMs)展示了令人印象深刻的能力,但也面临着如幻觉【2】、知识陈旧以及推理过程不透明和不可追踪等挑战。检索增强生成(RAG)通过从外部数据库中引入知识,成为一种有前途的解决方案。这样可以提高生成的准确性和可信度,特别是对知识密集型任务而言,并允许持续的知识更新和特定领域信息的集成。RAG协同融合了LLMs的内在知识和外部数据库的庞大、动态存储库。这篇全面的综述论文详细审查了RAG范式的发展,包括原始RAG、先进RAG和模块化RAG。它细致地审视了RAG框架的三部分基础:检索、生成和增强技术。本文突出展示了每个关键组件中嵌入的最先进技术,提供了对RAG系统进展的深刻理解。此外,本文介绍了最新的评估框架和基准。最后,本文描绘了当前面临的挑战,并指出了未来的研究和开发方向。
-
FinRobot: An Open-Source AI Agent Platform for Financial Applications using Large Language Models
随着金融机构和专业人员越来越多地将大型语言模型(LLM)纳入他们的工作流程中,存在许多障碍,包括专有数据和专业知识,这些障碍阻碍了金融领域与AI社区之间的有效合作。为了克服这些挑战,并促进AI在金融决策中的广泛应用,我们旨在设计专门用于金融的LLM工具链,并通过开源项目来民主化这些工具的访问。 在本文中,我们介绍了FinRobot,一个支持多个专注于金融的AI代理的开源AI代理平台,每个代理都由LLM提供支持。具体来说,该平台包括四个主要层次:1)金融AI代理层,通过将复杂的金融问题分解为逻辑序列来形成金融推理链(CoT);2)金融LLM算法层,动态配置适合特定任务的模型应用策略;3)LLMOps和DataOps层,通过应用训练/微调技术并使用与任务相关的数据来生成精确的模型;4)多源LLM基础模型层,整合各种LLM并使上述层次能够直接访问它们。