Abstract

本文选择性地回顾了在收益和回报预测模型研究方面的最新进展。我们讨论了为什么将统计学、计量经济学和机器学习的进展应用于收益和回报的预测会带来诸多挑战。

收益预测和回报预测方面的挑战

之前的研究已经讨论了来自财务数据预测的挑战。这些问题包括财务数据的不可预测性、可用变量中的低信噪比以及模型的不确定性。(Timmermann A. Forecasting methods in finance. Ann Rev Financial Econom. 2018;10:449–479.)
对于一年之后的回报实现，机器学习的预测在区分高预期回报公司和低预期回报公司方面并不比零预测更好。(Baba Yara F. Machine Learning and Return Predictability across Firms, Time and Portfolios. 2020. Available at SSRN 3696533.)
基于深度学习信号的投资从难以套利的股票中提取了收益，并且在套利限制较高的市场状态下也是如此。具体来说，如果不包括微型股、困境股票或高市场波动时期的阶段，其盈利能力会大大减弱。(Avramov D, Cheng S, Metzker L. Machine Learning versus Economic Restrictions: Evidence from Stock Return Predictability. 2021. Available at SSRN 3450322.)

本文按照预测者在预测财务数据时遇到的经验挑战来组织回顾：不可预测性、低信噪比以及模型不确定性。

前提：即使有了最近的进步，回报和收益似乎仍然大部分是不可预测的。

即使有大量的回报候选预测指标，近期的研究仍在不断发现新的预测指标
1. Green J, Hand JR, Zhang XF. The supraview of return predictive signals. Rev Account Stud. 2013;18(3):692–730.
2. Hou K, Xue C, Zhang L. Replicating anomalies. Rev Financ Stud. 2020;33(5):2019–2133.
3. Harvey CR, Liu Y, Zhu H.... and the cross-section of expected returns. Rev Financ Stud. 2016;29(1):5–68.
非线性和灵活的建模方法在预测中可能有一定的好处，但现成的方法可能在改善预测方面的能力有限。
像当前努力理解“动物园”般的回报预测指标，不同数据和方法的进步是如何结合或相互作用的？

不可预测性

尽管多年来大量研究人员共同努力，现存的收益和回报模型仅能解释Y变量变化的一小部分。换句话说，在很大程度上，收益和回报是不可预测的，或者说误差项ε的方差很大。
对于回报中的噪声的认识很早就开始了，其中一个解决方案是建模股票组合的回报，希望“平均掉”回报中的噪声。
但在大多数情况下，主要目标是进行公司层面的回报预测。收益和回报的不可预测性可能源于人类行为的特殊性和不可预测性。

低信噪比

财务变量的低信噪比,更具体地指的是预测变量X的低信噪比。为了对抗X变量中的噪声，研究提出了两种方法。

针对低信噪比的一种对策认识到可能存在重要的X变量未包含在模型中。对基本模型的创新最初始于添加额外的X变量。有大量的文献提出了回报预测指标，因此潜在的X变量至少有数百种。
第二种应对X变量噪声的方法是假设X变量代表了一组较小的可观测或潜在变量。资产定价研究试图找到一组较小的变量，以捕捉大量可能预测指标中的信息。

对于收益，提出的预测指标数量较少，但早期的研究确实将更多的变量与收益预测和回报预测联系起来。虽然预测收益和回报的路径可能有所分歧，但有些研究认为收益和回报的预测指标应该是相关的。

模型不确定性

模型不确定性可能来源于多种原因，但在实践中它可能是一个首要问题。我们以两种形式讨论模型不确定性。

模型不确定性的出现可能是因为模型的形式不确定，对于文献中的一些最新进展尤其相关的是，收益和回报的模型可能不是线性的。
其次，即使模型设定正确，模型系数也可能随时间或跨公司而变化，从而在进行预测时降低了对这些系数期望的质量。

一个直观的比较

使用一个大型的股票横截面样本以及从2000年到2020年的月度回报，并结合一组大量的回报预测指标。

构造了5个回归模型，Y 是要预测的收益或回报变量。

模型1：$Y_{i,t+1} = \alpha + \beta Y_{t+1} + \epsilon$ ,其中$Y_{t+1}$是每个月的平均Y值,$\beta$是单一的系数，随着时间及跨公司保持不变;$\alpha$是截距项，$\epsilon$是误差项。此模型的目的是描述实现的市场水平变量如何解释回报或收益的时间序列面板数据。该模型等同于时间固定效应模型。我们称这个模型为市场模型。
模型2：$Y_{i,t+1} = \alpha + \beta Y_{j,t+1} + \epsilon$ ，其中$Y_{j,t+1}$是两位数SIC行业月均值，$\beta$，随着时间及跨公司保持不变。该模型等同于行业-月份固定效应模型。，我们称这个模型为行业模型。

市场和行业变量只有在事后才是已知的。这些回归描述了如果已知的话，汇总信息能多大程度上解释公司层面的股票回报和收益。这些方程提供了一个基准，用来理解收益和回报在多大程度上是由汇总变动解释的。

模型3：$Y_{i,t+1} = \alpha + \sum_{1}^H \beta_h X_{h,i,t} + \epsilon$ ，其中$X_{h,i,t}$表示在时间t结束时公司i的h个特征的组合，这个模型试图通过一组预测变量来解释$Y_{i,t+1}$。通过这种方法，我们可以评估X变量中的噪声如何影响预测效果。(除了基于线性回归的模型，还考虑了非线性预测的模型)
模型4：$Y_{i,t+1} = \alpha_t + \sum_{1}^H \beta_{h,t} X_{h,i,t} + \epsilon$ ，模型允许系数按月份t变化
模型4：$Y_{i,t+1} = \alpha_t + \sum_{1}^H \beta_{h,j} X_{h,i,t} + \epsilon$ ，模型允许系数按按行业j变化

在这里插入图片描述

表1提供了这些模型的R平方值。我们首先评论Y变量的不可预测性。回报、ROE和SUE的最高R平方值分别为0.266、0.620和0.085。请记住，如果这些是在样本内的上限，那么Y的大部分变化，尤其是对于回报和收益变化而言，是无法由模型解释的。

接下来关注前两行

前两行显示了分别包含事后已知的汇总市场和行业回报，以及汇总的ROE和SUE的结果。汇总信息解释了回报变化的较大比例（市场回报为0.167，行业回报为0.232），而对ROE和SUE的变化解释较少。
回报和收益模型之间的差异表明，回报的一个重要驱动因素可能是汇总市场，而公司间的差异对于解释收益更为重要。这些模式表明，对于回报和收益而言，不可预测性的挑战可能是不同的。

转向第三行

公司特征解释了收益的较大一部分（0.511），但对于收益变化或回报的变化解释很少。
第一、第二行与第三行的一个重要区别在于，公司特征是事前已知的，因此代表了可以被认为是预测模型的模型。如果X变量仅提供很小的预测益处，仅提供相对于历史收益水平的少量增量益处，那么问题就变成了其他未知的X变量是否能更好地解释Y。

转向模型不确定性，为了处理线性假设的问题，我们使用了XGBOOST

对于回报而言，这种增加仍远低于事后汇总模型。这表明，即使这些改进可以为可交易策略提供改进，改进收益模型也可能仅提供适度的利益。
然而，与第三行的线性情况相比，改进是巨大的(尤其是对于SUE而言)

最后两行允许系数按月份或按行业变化(请注意，由于时间变化模型包括一个在横截面上保持不变的截距项，这些模型也包含了汇总的事后均值以及个体Xs。因此，这些模型并不是严格意义上的预测模型)

对于所有三个Y变量，时间变化模型相对于最佳线性替代模型(前三行的最优R方)只适度增加了R方，这意味着回报的R方的主要驱动因素仍然是汇总均值

回顾文献中的最新进展

不可预测性

收益的不可预测性在研究中有着悠久的历史。先前的研究将基本面信息（如股息和收益）与股票价格联系起来，并发现股票价格过于波动。主要问题是股票价格偏离了价值的基本驱动力，即收益。股票价格过度波动的原因可能是因为投资者基于情绪或其他行为原因采取行动，或者是投资者在了解基本面信息时面临不确定性。
1. Shiller RJ. Do stock prices move too much to be justified by subsequent changes in dividends?: Reply. Am Econ Rev. 1983;73(1):236–237.
2. Marsh TA, Merton RC. Dividend variability and variance bounds tests for the rationality of stock market prices. Am Econ Rev.1986;76(3):483–498.
3. Shiller RJ. Comovements in stock prices and comovements in dividends. J Finance. 1989;44(3):719–729.
4. Change T, Change F. Do stock prices move too much to be justified by subsequent changes in dividends? Comment. Am Econ Rev.1983;73(1):234–235.
5. Shiller RJ. The volatility of stock market prices. Science. 1987;235(4784):33–37.
6. Malkiel BG. Is the stock market efficient? Science. 1989;243(4896):1313–1318.
分析师对收益的预测显得过于波动，分析师预测中的过度波动可能会影响依赖这些预测的投资者。收益回报的过度波动反映了不确定性或导致不确定性
1. De Bondt WF, Thaler R. Does the stock market overreact? J Finance. 1985;40(3):793–805.
2. De Bondt WF, Thaler RH. Further evidence on investor overreaction and stock market seasonality. J Finance. 1987;42(3):557–581.
如果投资者的学习和行为交易是不可预测的，那么回报的重要部分也将是不可预测的。
1. Timmermann AG. How learning in financial markets generates excess volatility and predictability in stock prices. Q J Econ.1993;108(4):1135–1145.

许多论文致力于处理回报的不可预测性: 一些解决方案包括使用预测的组合、利用模型误差的历史、使用贝叶斯统计的收缩方法、对预测施加经济限制、样本外交叉验证测试以及处理多重检验问题。

Timmermann讨论了从时间序列模型预测回报分布，即密度预测。远离对收益或回报的点预测明确地认识到预测是一项不确定的任务，并且点预测很可能偏离实际。近期的研究将横截面的回报和收益模型应用于预测Y的分布。最广泛使用且直观的方法是分位数回归
- Kokoszka等人比较了不同的功能数据分析方法来估计回报概率密度函数。他们的对数分位数密度变换在预测未来回报的概率密度函数方面优于其他方法。
- Gowlland等人认为分位数回归的一个优点是，虽然普通的线性回归模型专注于分布均值的预测，但投资者可能经常更关心分布的极端值。本文提出分位数回归可能对投资者有用
- Ma和Pohlman提出了投资者可能使用分位数回归进行投资决策的潜在方法.使用市场中性组合，他们测试了分位数回归是否可以改善投资组合的表现。发现使用回报分布的低端部分（第10分位数）在投资组合回报和夏普比率方面优于其他分位数和OLS。
- 一些近期的收益预测研究将分位数回归应用于收益的点估计预测。Tian等人使用分位数回归来预测收益，并发现在收益分布具有更重尾的情况下，分位数回归更能准确预测收益，即不同于正态分布的情况。
- Hendriock发现基于分位数回归的方法比OLS更好地预测了收益，并且这些预测可以通过使用机器学习分位数方法（通过人工神经网络）来改进。

噪声X

处理金融数据时面临的下一个挑战是X变量本身存在噪声。我们讨论两个最近的研究领域，这些研究继续应对这一挑战。第一是寻找新的X变量，第二是使用新的方法，利用现有X变量中的变异来找到一组较小的重要或潜在变量。

寻找新的X变量(传统数据)
1. Green等人指出了用于预测回报的X变量的增长，并且变量列表已经扩展。(Hou K, Xue C, Zhang L. Replicating anomalies. Rev Financ Stud. 2020;33(5):2019–2133.)
2. He和Narayanamoorthy发现收益增长预测的修正与回报有关。
3. Avramov等人发现会计项目的移动平均冲击可以预测回报。
4. 对于收益，Azevedo等人发现结合分析师预测与横截面收益预测模型在预测收益方面优于单独使用任一方法。
其他研究从商业文本中开发新的X变量，这些曾经是另类数据源
1. Li使用朴素贝叶斯方法来分类MD&A中前瞻性陈述的基调，并发现基调可以预测未来的收益。( Li F. The information content of forward-looking statements in corporate filings—a naïve bayesian machine learning approach. J Account Res.2010;48(5):1049–1102.)
2. Huang等人使用朴素贝叶斯方法从分析师报告中提取信息信号。
3. Karapandza提取了未来导向的语言；Meursault等人根据商业文本衡量意外收益；Heston和Sinha以及Ke等人使用机器学习技术来衡量商业新闻故事的情感。(Heston SL, Sinha NR. News vs. sentiment: predicting stock returns from news stories. Financ Anal J. 2017;73(3):67–83. Ke ZT, Kelly BT, Xiu D. Predicting Returns with Text Data. 2019. Working Paper.)
4. 一些相关的研究也使用文本度量来预测收益(Bochkay K, Levine CB. Using MD&A to improve earnings forecasts. J Account Audit Finance. 2019;34(3):458–482.)
5. Obaid和Pukthuanthong使用新闻故事中的图片来衡量总体情感，并发现总体情感可以预测市场回报。
6. deHaan等人发现经历恶劣天气的分析师处理信息较慢，这表明天气可以预测回报。
7. Jame等人表明，基于大众的意见所形成的收益预测包含了关于收益和回报的增量信号。
改进现有X变量的测量
1. Ball等人致力于改进盈利能力的测量，Ball等人改进了权益账面价值的测量
2. Cooper等人改进了资产增长的测量。
3. Mohanram和Gode采用了另一种方法，重点关注分析师预测中的测量误差。他们发现去除可预测的分析师收益预测误差可以改进从分析师预测中得出的资本成本估计。
4. Freyberger等人采取了另一种方法，专注于适用于多个预测指标的测量问题。他们发现使用条件均值填补缺失值并采用加权最小二乘回归可以改进样本外预测。
找到更小的预测变量集合
1. Harvey等人认为大量回报预测因子可能是由于过度拟合常用数据源所致。他们引入了多重假设检验框架，并提出了一个3.0的t统计量以应对多重检验问题。
2. Chinco等人采用了一种经验贝叶斯方法来重新调整随时间变化的异常基率，进而调整发现真实异常的后验概率。
3. Kozak等人使用大量X变量来创建一个小的潜在变量因子集，这些因子可以解释投资组合的时间序列回报。
4. 这些论文的一般结论是，大量提出的X变量可能比文献所暗示的要少，并且一个小的变量集可以捕捉到大集合变量中的大部分信息。我们注意到解释这项研究的两个复杂之处。首先，不同的方法并没有得出相同的变量或相同的结论。其次，将变量数量减少到一组稳健的预测因子确实使X变量集变小了，但这并不一定导致更好的回报预测。

模型不确定性

第一种不确定性形式是关于模型形式的不确定性，更具体地说，是线性假设的不确定性。使用机器学习方法的一个常见动机是这些方法施加的假设较少，并允许使用高度复杂的非线性模型。

在预测未来收益时，滞后收益似乎是最重要的预测因子
1. Easton等人提出了一种k-近邻法来预测收益，其中最近邻居由之前的收益的不同滞后确定。他们发现这种方法比收益的随机游走模型提供了更准确的预测。
2. Elamir将极端梯度提升应用于预测净资产收益率（ROE），并发现样本内建模有了显著改善，但在样本外的改进很小。
3. Gu等人比较了用于预测回报的机器学习方法。他们得出结论，机器学习方法（回归树和神经网络）通过允许回报预测因子之间复杂的非线性关系来改进回报预测。其他论文也发现机器学习可能改进回报预测。(Gu S, Kelly B, Xiu D. Empirical asset pricing via machine learning. Rev Financ Stud. 2020;33(5):2223–2273)

尽管最近对机器学习产生了浓厚的兴趣，但其他研究发现机器学习并不是灵丹妙药，并且带来了自身的问题，如样本内的过度拟合、样本外缺乏拟合以及由于缺乏足够的训练数据而导致的模型不稳定性。

Baba Yara发现机器学习模型不会推广——这是样本数据过度拟合的症状；但对机器学习过程施加限制可以改善回报的可预测性。(Baba Yara F. Machine Learning and Return Predictability across Firms, Time and Portfolios. 2020. Available at SSRN 3696533.)
Avramov等人使用各种版本的深度神经网络，并发现这些方法可以识别出难以套利的股票和时间段。然而，他们确实发现尽管存在难以套利的位置，仍可能存在一些盈利空间。

相比之下，一些论文对回报预测的悲观观点持反对态度。

Chen表明，所有已发布的回报预测因子都是偶然生成的情况不太可能。
DeMiguel等人发现，调整交易成本增加了显著异常的数量，因为某些异常可以帮助在更高的换手率和更高交易成本的交易中分散风险。

总结来说，应用非线性方法，包括机器学习，似乎为改进收益和回报预测带来了一些希望；然而，结果并不具有决定性。

系数不稳定性

模型系数可能在时间和公司之间不稳定。由于X和Y变量之间的虚假关系以及X和Y变量之间关系的异质性都可能导致系数不稳定，因此随着时间或公司变化的系数会使预测变得困难，尤其是当研究者无法确定系数不稳定的成因时。

Bianchi等人提供了证据，表明影响回报的预测因子数量随时间而变化。(Bianchi D, B¨ uchner M, Tamoni A. What Matters when? Time-Varying Sparsity in Expected Returns. 2019. WBS Finance Group Research Paper.)
Dichev和Tang发现收益波动较大的公司其收益也较难预测
Evgeniou等人使用机器学习将公司分类为不同的组别，并发现不同组别的预测因子数量有所变化。

这意味着，一个在某一时间段或某一组公司中有效的预测模型可能在其他时间段或另一组公司中不再适用。为了解决这个问题，研究者们可能会采用更灵活的模型结构，或者开发能够适应不同环境的动态预测模型。此外，使用诸如机器学习等方法来识别不同组别的公司，并为每组公司定制预测模型，也是一种可能的解决方案。

从记录到解决系数不稳定性问题，我们讨论了最近研究中使用的各种方法。探讨公司特定系数可能性的研究在收益预测方面似乎比在回报预测方面更多。

Fairfield等人发现行业模型在预测增长时更为准确，但在预测盈利能力时则不然。
Vorst和Yohn发现基于公司生命周期阶段条件化的模型改进了样本外盈利能力与增长预测的准确性。(Vorst P, Yohn TL. Life cycle models and forecasting growth and profitability. Account Rev. 2018;93(6):357–381.)

为了应对系数随时间变化的挑战，研究者们开发了多种方法。一种常见的做法是在估计系数时使用滑动窗口技术，这意味着仅使用最新一段时间的数据来更新模型参数，这样可以更快地捕捉到系数的变化。

但是有一系列的研究发现，在较长的时间段内平均系数能够更好地预测回报

Ohlson和Kim使用了一种稳健的估计方法，并发现相对于OLS估计，系数的跨期稳定性有所增加。
当应用时间变化系数的概念时，Henrique等人发现更频繁更新的机器学习模型在预测短期回报时可能比不更新的机器学习模型表现更好。(Henrique BM, Sobreiro VA, Kimura H. Stock price prediction using support vector regression on daily and up to the minute prices. J Finance Data Sci. 2018;4(3):183–201.)

总结与讨论

我们强调了三个主要挑战：收益和回报的不可预测性、噪声X变量以及模型不确定性。我们利用这些挑战来组织文献，并讨论了最近的研究进展，这些进展推进了我们集体理解和预测收益和回报横截面的能力。

这里我们重申文献中的一些重要见解

即使有了近期的进步，寻找新的有意义的预测因子仍然是一个重要努力
新的现成方法可能效用有限，但审慎使用估计方法和施加约束似乎提供了有希望的机会
到比滞后收益更好的收益预测因子依然充满挑战
在筛选、整合和理解不同的模型和方法方面，我们距离达到推荐的最佳实践还有很长的路要走

除此之外，还有很多重要的问题未回答

为什么收益和回报的驱动因素不同？例如，为什么总平均值对回报如此重要，而公司层面的信息对收益却如此重要？
还有哪些方法可以修改机器学习方法，利用金融数据的一些独特特点来更好地预测收益和回报？
是否存在某些方法和模型的组合比其他组合表现更好？
是否有用于预测收益的方法也同样适用于回报，反之亦然？
我们预测收益和回报的能力或缺乏这种能力对我们了解潜在的经济机制有何启示？

这些问题以及其他问题在未来仍然十分重要。虽然我们可以带着怀疑的态度看待近期的进步，但我们同样分享着这样的热情：新的方法和新的数据将增强我们理解和预测金融数据的能力。随着研究的深入和技术的发展，我们有望在未来找到更有效的方法来应对这些挑战，并提高预测的准确性和可靠性。

文献综述 Forecasting earnings and return: A review of recent advancements

Abstract

收益预测和回报预测方面的挑战

不可预测性

低信噪比

模型不确定性

一个直观的比较

回顾文献中的最新进展

不可预测性

噪声X

模型不确定性

系数不稳定性

总结与讨论