From Man vs. Machine to Man + Machine: The Art and AI of Stock Analyses 论文阅读
- Abstract
- Construction and Performance of the AI Analyst
- Comparative Advantages of Man vs. Machine
- Man + Machine: Incremental Contributions and Synergies
Abstract
- 人工智能分析师,在股票收益预测方面超越了大多数分析师。
- 涉及无形资产和财务困境时,“人机对抗”中人类仍然胜出。当信息透明但量大时,人工智能则更胜一筹。
- 在“人机协作”模式下,人类提供了显著的增量价值,并且大幅减少了极端错误的发生。
- 如果分析师的雇主构建了人工智能能力,在“另类数据”变得可用之后,分析师能够赶上机器的表现。
Construction and Performance of the AI Analyst
Methodology
- 目标变量(Y):目标价格(从中可以推断出股票回报) 而盈利具有自反性,对AI不公平
- 时间跨度:前八个季度的数据,预测公司未来的12个月股价
- 训练窗口:三年的价格预测为一个窗口,模型随时间变化(如果是经济衰退时期,则训练窗口基于整个商业周期)
- 信息集(X):
- Firm Returns and Prices(公司过去股价、历史回报),
- Firm Characteristics(公司截面特征),
- Macro Variables,Industry Variables(行业竞争、规模和估值等),
- Texual Variables(情绪变量与专利价值),
- Earnings(公司与行业平均的盈利)
- 数据:1996年-2018年
- AI分析师在2001年做出了首次预测
The Performance of Analysts vs AI
- Beat Ratio为人类分析师相对于AI胜利的指示变量
- 从2001年至2018年共进行了922,157次预测,在45.5%的情况下人类分析师的表现优于AI
Contribution of Variables to the AI Prediction
- 基于回报的变量、公司特征、盈利信息(公司和行业层面)、行业信息、宏观经济变量以及从文本信息中提取的变量。我们通过每次剔除一组变量来计算各组变量的贡献度。
- 贡献度: ,按总和进行归一化处理
Debiased Analysts vs AI
为什么要去偏:与客户一致的利益(Michaely 和 Womack, 1999) 获取管理层信息的需求(Lim, 2002)人类的心理特质(例如,DeBondt 和 Thaler, 1990; Hirshleifer, Levi, Lourie, 和 Teoh, 2019)
如何去偏:通过信息集与分析师和经纪公司的特征来预测残差,预测时用分析师预测减去残差得到 去偏预测(MDM预测)
其中 i,j,t 分别代表股票、分析师和日期的索引, 来表示12个月的目标价格。我们将这个预测转化为相应的12个月收益率,以便于在横截面上保持稳定性和可比性。
分析师和经纪公司的特征():
- 明星分析师(Star Analyst):指在过去六个月中预测准确性位于所有分析师前五分之一的分析师;
- 经纪公司中的分析师数量(# Analysts in Brokerage Firm):反映经纪公司的规模和资源;
- 机构持股比例(% Institutional Holdings):13F机构持股占流通股的比例,这可以反映出信息型投资者的普遍程度;
- 距离违约(Distance to Default):根据Merton (1974) 的方法计算的距离违约值,作为公司违约风险的代理变量;
- 行业衰退(Industry Recession):指示变量,如果前一年的FF-48行业回报为负并且处于Fama-French 48个行业回报的最低五分之一,则取值为1,否则为0;
- 流动性(Fluidity):通过追踪竞争对手产品相对于公司产品的变化来表示公司在产品市场上面临的竞争(Hoberg, Phillips, 和 Prabhala, 2014);
- 时间趋势(Time Trend):从样本开始(2001年)到现在的年数。
The Performance of Machine-Debiased Analyst vs AI
- 在46.5%的情况下,机器去偏后的分析师(MDM)的表现优于AI分析师,比未去偏的人类分析师提高了1个百分点。
- 进一步地,只用分析师的变量来预测分析师的偏见,从而产生一个“下限MDM”。下限MDM在46.2%的情况下胜过了AI分析师,
AI vs Analysts with Persistent Performance
技能较高的分析师与AI分析师的比较
- 测试1:分析师根据他们在过去一段时间内的平均预测误差,以中位数为界分为两组。然后,我们跟踪在每个时间段内他们的未来预测中有多少比例能够击败AI分析师。
- 测试2:分析师过去一段时间的平均预测误差每一年都在前半部分和前半部分,分为两组。第二项测试对持久技能的要求更高,因为在五年的时间里,只有大约7.3%的分析师能够每年都保持在前半部分。
表2的结果显示,AI在低技能分位数上的表现轻松超过了分析师。对于那些更为成功的分析师,AI的表现几乎是旗鼓相当,并且在与那些在过去五年中每年都表现出卓越预测能力的分析师(分析师胜出比率为49.3%至50.3%)的较量中几乎打成平手,这种卓越表现仅有不到十分之一的分析师能够达到。
这意味着,尽管AI在处理低技能分析师时表现出明显优势,但在面对那些持续表现出色的顶级分析师时,AI并没有显著的优势,反而表现得非常接近。这一结果表明,AI在某些方面已经达到了与顶尖人类分析师相媲美的水平。
Performance of Portfolio Following AI Recommendations
- 据AI与人类分析师的不同意见来构建投资组合。所得组合的表现是他们相对专业能力的证明。
- 当机器的预测大于前一个月机器预测的中位数,并且人类的预测小于前一个月分析师预测的中位数时,定义为买入信号;
- 以上两个都不成立时,定义为卖出信号;
- 收集所有分析师在过去30、60、90、180和360天内所做的所有预测及其对应的AI预测。如果买入信号多于卖出信号,则组合将做多该股票;反之,则做空该股票。
- 组合是市值加权的,每半年做一次再平衡
- AI分析师能够相对于分析师产生每月约50至72个基点的超额回报/阿尔法
- 策略收益应当理解为:AI分析师捕捉了人类分析师错过的收益
表3的结果令人鼓舞,因为AI模型能够相对于分析师产生每月约50至72个基点的超额回报/阿尔法,这一结果在几乎所有情况下都在1%的水平上具有统计显著性。鉴于我们的组合方法比较的是AI与所有人类分析师的中位数,我们的结果表明AI预测优于分析师共识。当我们分别检查组合的多头和空头部分时,我们发现尽管两边的超额回报都显著,但在多头一侧,超额回报的幅度更大且更具显著性(交易成本较低)。这种不对称性可能是由已充分证实的分析师预测中的正向偏差(Lim, 2002)驱动的,也就是说,当分析师的信号比AI更乐观时,它们往往不如后者具有信息性,因为后者没有这种正向偏差。
Combined Wisdom of Man + Machine
- 如果分析师拥有AI未能捕捉到的信息,即使在预测准确性上输给AI,AI预测也不足以完全取代分析师预测。将两者智慧相结合的投资者应该能够获得更好的表现。
- 将分析师和经纪公司的特征、每个分析师过去五年的平均预测和预测准确性(均方误差)、所有分析师在过去90天内的平均共识和预测准确性(均方误差),当前分析师的预测,机器去偏的人类预测,以及独立的机器预测,集成模型构建一个“人+机”混合分析师。
- 混合分析师在57.8%的情况下优于人类分析师,在54.8%的情况下优于仅依赖AI的预测。
- 在18年中有15年里,“人+机”优于“单纯机”,而在另外3年中,胜出比率接近中性(49.98%,48.28%,47.98%)
这两个界限——上限和下限——对于校准如果我们能够预测其中的偏差,分析师预测可以改进的程度都是有意义的。DeBondt和Thaler (1990),Michaely和Womack (1999),Lim (2002),以及Hirshleifer, Levi, Lourie, 和Teoh (2019)的研究表明,无论是激励驱动还是认知驱动的偏差都与公司特征和分析师特征有关。因此,通过识别并调整这些偏差,有可能进一步提高预测的准确性。
Alternative Forecast Target: Earnings
- 将目标变量换成盈利的结果:人类分析师以69.2%的概率胜过机器,与分析师受益于公司希望和有能力制造符合市场预期的收益的观点相一致。
- 混合模型仍然优于单独的分析师(55.1%)和单独的机器(71.8%),确认了人类与机器在信息生产上的高度协同效应。即结果稳健。
Cash flow and Accrual components
- 当收益分解为现金流量和应计项目成分时,其信息含量会有显著差异。由于应计项目受管理层的自由裁量权影响,常被用来达成收益目标。(Sloan, 1996)
- 在预测收益的现金流量成分时,人类胜过机器的比例为45.6%;总收益部分则是57.8%。
- 但样本量仅为3.9%,仅作为稳健性检验。
Comparative Advantages of Man vs. Machine
Determinants of Relative Performance
- 定义了两个变量来衡量人类与AI的相对表现结果
- 指示变量 Analyst Beats AI 如果分析师的预测误差绝对值小于AI的预测误差绝对值,则取值为1,否则为0。
- 连续测量变量 Forecast Error Difference 是AI与分析师预测误差绝对值之差,标准化,较大的正值表明分析师的预测更为准确。
是一些信息不对称、信息量、公司文件的可读性、信息的具体性、分析师可用信息和资源、违约距离和行业衰退等的变量; α 分别代表公司/分析师和年度固定效应;
表4显示,在控制年度和公司固定效应的情况下,人类分析师在覆盖流动性差、规模较小以及无形资产较高的公司时更有可能胜过AI,这与这类公司面临更高的信息不对称并且需要更深层次的机构知识来理解的概念一致。无形资产每增加一个标准差,胜出比率就会增加3.0%。另一方面,由于拥有强大的处理能力,AI在处理每年披露信息量较大的公司时表现得更好,这里的信息量通过每年的信息事件数量来代理。信息事件数量每增加一个标准差,胜出比率就会减少1.8%。为较大经纪公司工作的分析师表现更好,这可能是因为这些公司拥有更多的资源和研究能力,以及分析师技能与经纪公司声誉之间的正面匹配关系。
这些结果表明,在处理复杂度高、信息不透明度高的情况下,人类分析师凭借其专业知识和理解能力能够提供更准确的预测;而在信息量大、数据处理要求高的场景下,AI则能发挥其优势。这为投资者和研究者提供了关于何时选择人类分析师或AI的指导。
人类分析师在目标公司面临更高财务困境风险时表现得更好,这通过违约距离和行业衰退来衡量,表明AI在处理更加不确定的情景时遇到更多困难。此外,对于机构持股比例较高的公司,分析师也表现得更好,这可能是因为分析师能够接触到由机构投资者(包括经纪公司)生产和处理的信息。最后,当不包括年度固定效应时,我们可以揭示出比较表现的时间趋势,显示人类的优势随着时间的推移而增加。这可能是由于人类分析师越来越多地得到AI和大数据技术的支持。
令人惊讶的是,明星分析师并没有显示出显著优于AI的表现,这表明明星分析师相对于同行所拥有的卓越能力可能被机器复制。
Disagreement between Man and Machine
当人类和机器在很大程度上存在分歧时,我们应该更信任谁?
- Squared difference是两者预测值之间差的平方
- 人机分歧呈现出下降趋势,这可能是因为分析师的预测越来越多地融入了大数据和AI工具的洞察力
- 在经济衰退之前,分歧往往会增大,这时高涨的投资者情绪可能对分析师产生不成比例的影响。
- 指示变量“Disagreement”,当产生重大分歧时,该变量取值为1。
- 前两列为重大分歧的发生与整个样本中的公司属性、分析师属性以及经济状况之间的关系,后两列则是人类分析师的预测误差绝对值小于机器的子样本(Human Wins)
- (2)(4)结果表明,重大分歧往往发生在流动性差、无形资产较多且信息较少的公司,这些特征与人类分析师的比较优势相关。
- 唯一不符合上述模式的一个例外是“经纪公司中的分析师数量”。来自大型经纪公司的分析师与AI发生分歧的可能性较小。然而,在存在重大分歧的情况下,这些分析师也更有可能胜过机器。
Man + Machine: Incremental Contributions and Synergies
- 与前面回归类似,定义了Analyst+AI Beats AI指示变量与Forecast Error Difference的连续测量变量,然后用相同的变量进行回归
- 类似于之前的发现,我们发现,在覆盖流动性较差、无形资产更多以及收益波动较大的公司时,分析师的输入更有价值。此外,当公司面临更高的财务困境风险时,分析师的输入具有更大的增量价值。
另一种衡量协同效应的方法可以通过回归“人+机”模型的预测误差平方(或绝对值)来获得,该回归以单独的人类和机器预测误差为自变量。残差项则代表了“人+机”模型相对于单独的人类和机器模型的增量价值。接着,我们将残差项作为因变量,并对各种公司和分析师特征进行回归,以了解是什么驱动了这种协同效应。在这个回归中,我们对残差项的符号取反,使正系数传达正面的结果,即与更高的人机协同效应相关联。
- 可以用残差表示,“人+机”模型相对于单独的人类和机器模型的增量价值;左边是残差平方,右边是残差绝对值。值越大表示增量信息越大
Can Man + Machine Avoid Extreme Error?
为了设置基准,我们将每个预测的误差与同一年内所有分析师在同一公司上的预测误差平方的第90百分位(或作为敏感性检查的第75百分位)进行比较。这样的设定会导致四种可能的结果,即谁犯下了极端错误:
- 人类分析师和AI模型都犯了极端错误("Both")
- 只有人类分析师犯了极端错误("Analyst")
- 只有AI模型犯了极端错误("AI")
- 没有人犯极端错误("Neither")
我们检查了这四种情景,并计算了它们的实际频率。然后,我们计算了“人+机”模型在前三种情景中能够避免极端错误的无条件和有条件概率,同样重要的是,在第四种情景中“人+机”模型犯下极端错误的概率。
Impact of Man + Machine: An Event Study
- 一种重要且流行类型的另类数据捕捉了“消费者足迹”,比如零售停车场的卫星图像。这些数据必须通过机器学习模型进行处理,并已被证明在公司信息披露和新闻报道的基础上,对收益和股价具有增量信息(Zhu, 2019; Katona, Painter, Patatoukas, and Zeng, 2022)
- 为另类数据公司服务的分析师可能处于“人+机”的情形中
- 我们根据替代数据的逐步覆盖引入定义了两个变量:Alt Data Covered,如果在我们的样本期内任何时候都有卫星影像数据可供公司使用,并且该公司属于有零售足迹的行业,则该变量取值为1,否则为0。 第二个变量是 Post,如果目前有卫星数据可用,或者该公司未在该表中列出但日期在2014年之后,则该变量取值为1,否则为0。(基于 Katona, Painter, Patatoukas, and Zeng, 2022)
- 就其本质而言,卫星数据覆盖了经济的一部分,主要是面向消费者的(B2C)领域的公司。
- 只包含那些分析师所属的经纪公司有AI能力的样本(在Burning Glass 美国职位发布数据有观测的公司)
- 变量 AI Hiring 来衡量分析师可以访问的AI资源(使用 Burning Glass 美国职位发布数据计算的AI职位数量与总职位发布数量的比例)
这项研究评估的是,一些与具备AI能力的经纪公司有关联的分析师是否有机会与AI合作(即现实中的“人+机”),并评估他们是否能够缩小与AI模型之间的差距,甚至超越AI模型。
估计以下双重差分模型:
系数表示“人+机”的情形下对战胜AI模型的贡献程度
- 在另类数据可用之后,受影响公司的分析师相对于AI模型的表现有所提升,但只有在与 AI Hiring 交互时才是显著的。换句话说,在另类数据可用之后,预测性能的提升集中在那些具有强大AI能力的经纪公司的分析师子集中。
- 总体结果表明,通过新技术增强人类分析师构成了分析师职业的一个有前景的方向。