Machine-learning the skill of mutual fund managers

作者: pdnbplus | 发布时间: 2024/12/28 | 阅读量: 251

Machine-learning the skill of mutual fund managers -- 论文阅读

Abstract

  1. 我们利用机器学习方法证明,基金特征能够一贯地区分高绩效与低绩效的共同基金,无论是在费用之前还是之后。这种超额表现持续超过三年。
  2. 基金动量和资金流是预测未来风险调整后基金表现最重要的因素,而基金持有的股票特征则不具备预测能力。
  3. 在高情绪期间之后,预测性多空组合的回报更高。我们使用神经网络进行的估计使我们能够揭示情绪与资金流及基金动量之间的新颖且显著的交互效应。

Introduction

Question

文献对于积极交易的股票型共同基金的投资表现发现了混杂的结果。我们使用现代技术重新审视证据,并询问哪些——如果有的话——共同基金及其所持股票的特征能够帮助区分良莠。

Main findings

  1. 我们的方法识别出基金特征信息,特别是资金流和基金动量,作为共同基金超额表现(alpha)的关键预测因素。此外,这两个基金特征与情绪之间存在重要的交互效应,线性模型未能捕捉到这一点。
  2. 该模型生成了巨大的样本外绩效差异。每月购买预测表现最佳的10%共同基金,并利用模型不仅选择而且在顶级十分位内对基金进行加权,产生了72%的累计异常回报。而每月购买预测表现最差的10%共同基金则产生了-119%的累计异常回报。
  3. 即使我们在模型中移除所有股票特征信息,性能差异几乎保持不变。实际上,我们也可以移除大部分基金和基金家族特征。仅给出关于资金流、基金动量和情绪的数据的模型预测几乎与完整模型一样好。它们为预测表现者最高和最低十分位之间的相对月度超配提供了48个基点。该策略的夏普比率每月为0.24。
  4. 我们发现的可预测性令人惊讶地持续。尽管投资是基于一个月前的预测,但表现最好的十分位基金在三年内明显优于表现最差的十分位基金。即使在36个月后,多空组合的月度夏普比率仍然为0.20,相比之下,三个月前的夏普比率为0.30。这一结果在文献难以找到异常基金回报持续性的证据的背景下显得尤为突出。
  5. 我们将基金异常回报分解为披露间成分(固定基金的股票持仓在其上一季度末的价值)和披露内成分(考虑季度内的共同基金交易)。后者是回报差距和风险敞口差异之和。我们发现大约一半的超额收益来自于模型预测披露间异常回报的能力,另一半来自于预测披露内异常回报。资金流和基金动量既预测了回报差距又预测了风险敞口差异,而大多数预测回报差距的股票特征通过承担更多系统性风险实现,导致披露内异常回报较少。这些结果为超额收益的来源和持续性提供了额外的见解。
  6. 资金流和基金回报动量作为关键预测因素的重要性表明,一些投资者能够识别基金经理的技能,并(重新)分配他们的投资到这些有技能的经理那里。然而,这种投资流量的再分配并不如Berk和Green(2004)的无摩擦模型所预测的那样强烈。技能以基金回报动量的形式留下痕迹,供投资者在下一个时期利用。换句话说,资金流动是渐进且足够小的,以至于需要几个周期基金才会遇到零边际异常回报。

contributions

  1. 研究结果可能也与基金和基金家族通过营销吸引资金流动而非或除了通过投资技能有关(Gallaher等人,2009;Ibert等人,2018;Roussanov等人,2021)。
  2. 由营销引发的资金流入对基金通常投资的股票产生了购买压力。在一个需求曲线向下倾斜的世界里(Coval和Stafford,2007;Koijen和Yogo,2019;Gabaix和Koijen,2021),这将提高价格并提升基金回报。
  3. 通过流量-绩效关系以及营销驱动流量的持续性,超额表现会在下一个周期创造更多的流入。需求压力进一步推高价格,从而产生基金回报的动量。资金流和基金动量在高情绪期间与基金表现的更强关联进一步支持了这一营销驱动渠道的存在。

我们的论文在如何使用机器学习模型进行资产定价方面做出了几项方法论贡献:

  1. 相对绩效预测:我们证明,作为因子模型局部残差获得的异常回报不仅是经济动机的,也是统计上更好的预测目标。相比之下,基金(及股票)回报率的水平极难预测。异常回报消除了市场和其他风险因素的水平效应,使得异常回报的预测成为一个相对的目标。常用的机器学习预测总回报的方法可能会被回报水平中的共同成分预测误差主导,导致相对绩效的相关横截面信息的次优使用。我们显示,用同样的灵活方法预测异常回报而不是总回报可以带来更高的准确性和更好的组合表现。
  2. 不同信息集的经济收益量化:我们建议通过改变提供给同一灵活机器学习算法的信息集来比较预测和交易收益。重点是比较信息集而不是模型规格之间的竞赛。
  3. 宏观经济状态依赖性的测量:具体来说,我们提出了使用完整时间序列的条件模型交叉样本外评估。重要的是,用于估计和评估模型的数据点必须抽样,以确保所有相关的经济条件都在所有子样本中得到体现,这可以通过时间上的随机抽样实现。这对测量仅在数据子集中可用的宏观经济状态的依赖性尤为重要,这些状态可能在传统的按时间顺序划分的数据估计或评估中被忽视。我们的评估方法允许我们在样本外分析中充分利用所有样本期,减少特定子时期的效应。尽管如此,我们的主要结果对于使用按时间顺序交叉验证以及扩展窗口抽样方法同样稳健。
  4. 为了更好地评估预测的投资效益,我们建议使用预测加权组合。这些组合由于不仅利用了排名,还利用了预测信号的相对强度,因此能实现最大的回报差异。预测加权组合优于广泛使用的基于预测分位数的等权重组合。
  5. 最后,我们提出了一种新的交互效应度量方法,该方法不仅仅衡量局部斜率,而是更具有信息量的整体斜率。对于这个可解释的度量,我们提供了一个基于神经网络的功能中心极限定理的正式统计显著性测试。

literature review

在实证资产定价领域,有大量文献研究共同基金经理是否通过选股和市场时机选择超越其基准。

  • Berk和Green(2004)的开创性论文表明,在扣除费用前,很大一部分基金经理能够跑赢市场;
  • 而Fama和French(2010)则发现,在扣除费用前并无显著的超额表现。
  • Kacperczyk等人(2014;2016)的研究指出,一小部分经理人展现出足够的技能,能够在经济衰退时进行市场时机选择,并在扩张期间进行选股,从而持续地超越市场。这种现象的存在可能是因为存在非信息型共同基金经理和零售交易者,这成为一种均衡现象(Stambaugh, 2014)。

虽然投资者会将资金导向那些按资本资产定价模型(CAPM)阿尔法测量优于其他基金的基金(Berk和Van Binsbergen, 2016; Barber等人, 2016),但越来越多的证据表明,除了费用和扣除费用前的表现外,还有其他因素决定基金的资金流。

  • Gallaher等人(2009)展示了广告对行业、基金家族及基金层面的资金流的影响。
  • Roussanov等人(2021)认为,营销是理解基金规模和绩效的经验联合分布的重要决定因素。
  • Ibert等人(2018)显示,基金经理的薪酬与不受当前和过去基金表现影响的管理资产部分挂钩。

Gruber(1996)和Zheng(1999)首次揭示了资金流对基金表现的预测作用,他们发现了积极但相对短暂且较弱的关系。“聪明钱”效应存在于小型而非大型基金中。

  • 这些早期的研究未将动量纳入风险调整中。Sapp和Tiwari(2004)指出,一旦考虑股票回报动量因子(Carhart, 1997),聪明钱效应便会消失。
  • 以往的工作识别了不同成分的资金流和基金回报之间的不同方向效应。Lou(2012)表明,预期的资金流交易正向预测了下一年的共同基金回报。
  • Song(2020)发现,与正面因子相关回报相关的基金流量会导致未来基金表现不佳。我们的机器学习方法重新审视了资金流的预测作用,使用四因子风险调整,并表明基金流量正向预测表现。

更广泛地说,我们的论文与基金回报可预测性的文献相关。

  • Carhart(1997)发现,一旦加入股票动量因子,基金净表现的持续性基本上消失了,除了表现最差的基金,因为它们持续高的成本。
  • Cremers和Petajisto(2009)的“主动份额”—即持有与基准差异较大的基金—可以预测基准指数调整后的Carhart阿尔法。
  • Kacperczyk等人(2008)的“回报差距”可以预测四因子月度阿尔法。我们识别出的月度异常回报大约是他们的两倍。虽然他们在短期上找到显著性但在长期上没有,而我们在这两个方面都找到了显著性。更重要的是,我们证明当投资者情绪高时,基金动量和资金流的预测力显著增强。

关于宏观经济条件对表现的影响,证据相对较少。

  • Moskowitz(2000)和Kosowski(2011)发现,共同基金的风险调整后表现,在经济衰退期好于繁荣期。
  • 类似于Stambaugh等人(2012)对股票回报异常的研究发现,我们发现高情绪时期与更高的基金回报可预测性相吻合。尽管对于股票异常来说,主要影响来自short-leg,但在高情绪时期,最佳和最差基金经理的表现分别为超额或不足,显示出不同的经济渠道。与情绪和基金特征之间的新交互效应相比,我们并未发现类似的与宏观经济状态(如CFNAI代理)的交互效应。

我们的研究与金融领域内不断增长的机器学习(ML)文献相连接

  • Karolyi和Van Nieuwerburgh, 2020的综述,主要集中在使用大量回报预测因子分析股票收益的横截面。类似的技术也开始被应用于其他资产类别。
  • 独立于我们工作的Li和Rossi(2021)以及DeMiguel等人(2023)利用机器学习技术研究共同基金的表现,分别提供了预测基金回报或异常回报的比较研究,所使用的机器学习方法类似于Gu等人(2020)的方法。

Data

Sample

  • 数据来源:Center for Research in Security Prices (CRSP) 的无生存偏差共同基金数据库
  • 样本区间:1980年1月至2019年1月期间3275只共同基金的407,158个(基金-月)观测值。
  • 筛选条件:在每个时间点t,共同基金还必须在过去36个月内至少有30个非缺失回报观测值,以确保回归基础的异常回报定义良好。

目标变量 Carhart四因子alpha,在过去36个月内估计因子载荷,再应用到最新的月份计算alpha $$ R_{i,t-36:t-1}=\alpha_{i}+F_{t-36:t-1}\hat{\beta}_{i,t-1}+\eta_{i,-36:t-1} \ R_{i,t}^{abn}=R_{i,t}-F_{t}\hat{\beta}_{i,t-1} $$

异常回报并不保证其均值为零。在我们的样本中,它们的均值和中位数为每月-0.03%,标准差为2.00%。因此,共同基金平均而言获得的回报与Carhart模型预测相符,但存在显著的横截面分散。

Holdings-based characteristics

共同基金持有股票,而这些股票的特征来自Chen等人(2023)的研究,涵盖了46个已证明对预期回报横截面具有预测力的特征。这些特征被列在表1中的六个子组中。我们有332,294个完全观察到基金特征的基金-时间观测值。对于缺失的基金特征,我们在特征空间中使用潜在因子模型进行插补

在这里插入图片描述

所有股票特征基于股票在该特征上的排名,横截面标准化到-0.5至0.5的范围内。我们将股票特征的排名符号规范化,使得相应的多空因子具有正的风险溢价。例如,对于规模(LME),最大的股票具有负排名,而小股票具有正排名。每个基金的特定股票特征由基金的持仓加权。

除了46个股票特征外,我们还形成了13个基金特征,归类于表1最后三个子组:基金动量、基金特征和基金家族特征。三个基金动量特征是根据表2定义的基金异常回报计算得出。基金动量不同于基于持仓的股票动量。首先,组合持仓信息仅按季度提供,而基金也在季度内交易。因此,基于持仓权重的股票动量加权平均值只能提供近似值,因为它们使用季度更新的权重来对应每月更新的股票分位数。其次,基金动量基于去除与基于股票市场的动量因子相关后的残差时间序列。

在这里插入图片描述

为了研究基金表现是否可以与经济状态联系起来,我们包括了投资者情绪(Baker和Wurgler, 2006)和芝加哥联邦储备银行全国活动指数(CFNAI),后者是一个捕捉宏观经济状态的系列指标,本身是由许多宏观时间序列组成的指数。图1绘制了这两个宏观经济变量的时间序列图。Kacperczyk等人(2014)表明,共同基金的表现取决于CFNAI。

在这里插入图片描述

Model

我们的主要分析目标是预测共同基金的异常回报。这项分析是在样本外进行的,涉及许多条件变量,并允许特征之间的交互作用(表1中的59个特征加上情绪/CFNAI),以及特征与未来基金超额表现之间关系的非线性。为此,我们使用了类似于Gu等人(2020)的人工神经网络模型。在他们广泛的比较研究中,他们展示了这种方法在预测股票回报方面优于其他机器学习技术。我们利用滞后预测变量通过神经网络预测基金异常回报:

$$ R_{i,t+1}^{abn}=g(z_{it},z_t)+\epsilon_{i,t+1} $$ 以共同基金特定特征$z_{it}$和宏观经济变量$z_t$作为输入,构建基金异常回报的最佳预测器。我们主要关注情绪作为宏观经济变量,并讨论使用CFNAI作为稳健性检查的结果。

为了评估神经网络模型的表现,我们采用交叉样本外分析。我们将完整样本分为三个等长的时间段(折叠)。使用其中两个折叠来估计模型和选择调整参数,并在剩余的一个折叠上进行样本外预测。遵循Kozak等人(2020)、Lettau和Pelger(2020)及Bryzgalova等人(2021)的方法,我们在三个不同的折叠组合上进行交叉验证,从而为样本中的每个数据点获得一个样本外预测。这种交叉样本外评估减少了特定子期间对样本外分析的影响。估计和验证时间段(样本的2/3)进一步划分为用于估计(训练)的3/4和用于验证(选择调整参数)的1/4。

在这里插入图片描述

基线结果随机选择进入每个折叠的日期。图2的顶部面板显示了这种随机抽样方案,不同颜色表示三个折叠。底部面板显示了更传统的按时间顺序抽样。另一种替代方案是不进行交叉验证的扩展窗口按时间顺序估计和评估。我们在下面分析这两种替代抽样方案,并展示基准可预测性结果对抽样方案具有稳健性。

作者认为为什么要用这种随机抽样方案:

  1. 每种抽样方案都有其优缺点。随机抽样的重要优势在于每个折叠中高情绪和低情绪观测值分布较为均衡,如图2所示。相比之下,按时间顺序抽样可能在评估折叠或估计折叠中没有任何高情绪时期(当绿色折叠用于样本外评估时,或者用于估计时)。如果情绪是预测问题中的一个重要条件变量,正如我们将展示的情况一样,那么按时间顺序的结果将无法准确捕捉对基础经济状态的依赖。
  2. 他还解释了: 随机抽样不会产生前瞻偏差。感兴趣的经济对象是条件异常回报$g(z_{it},z_t)$可以将预测解释为横截面非参数回归,在该回归中,横截面堆叠三元组${R_{i,t+1}^{abn},z_{it},z_t}_{i,t}$的时间序列顺序并未被显式考虑。此回归仅使用在时间t已知的变量来预测时间t+1的异常回报。
  3. 实际上,无论是随机抽样还是带交叉验证的按时间顺序抽样,在实时投资中都不可用。相比之下,扩展窗口按时间顺序抽样确实代表了每个日期的可行投资策略。然而,后者在每个时间点估计一个新的模型,使得解释更加复杂。它也使用较少的数据进行评估和估计,牺牲了精度。因为它使用较少的数据且不是交叉验证,所以在每个日期的学习过程中,它从经济状态中获得的代表性分布甚至更少。

我认为,虽然横截面堆叠三元组${R_{i,t+1}^{abn},z_{it},z_t}_{i,t}$的时间序列顺序并未被显式考虑,但是未来的x对y的关系已经被纳入考量了,这种关系也是一种重要的数据模式,必然影响结果的准确性,从这个角度来讲,如果本文得出了可以盈利(赚钱)的结论,那么结论将引起怀疑。

  • 模型选择:
    • 我们采用的前馈神经网络(FFN),选择了流行的修正线性单元激活函数(ReLU)。如果没有隐藏层中的非线性,单层网络将退化为广义线性模型。
  • 超参数调整:
    • 我们的结果对超参数的选择极其稳健。具有更多层和节点的网络表现与我们最优网络的性能和估计功能形式非常相似。这与Chen等人(2023)和Gu等人(2020)的发现一致。
    • 为了量化不同信息集带来的经济利益,我们通过比较每个信息集可用给神经网络的预测和交易收益来进行评估。适当调整的神经网络可以近似任何函数关系,使我们能够理解给定信息集的最佳可能预测。
    • 作为一种稳健性检查,我们将梯度提升树作为一种替代的机器学习方法进行了探索。我们获得了大致相似的结论

Optimal prediction

在估计神经网络模型后,我们使用表1中列出的所有59个特征和投资者情绪,为每个基金-月形成模型对基金异常回报的预测。我们根据下一个月份预测的异常回报将基金分为十分位数。在这些十分位数内,我们根据预测值加权或等权重基金。

在这里插入图片描述

这些图表展示了在2000年1月的代表性月份中,一个多空投资组合(long-short portfolio)中第一和第十十分位数的等权重(equal-weighted)和预测加权(prediction-weighted)投资组合权重。具体说明如下:

  • x轴:表示按预测异常回报分布排序后位于底部10%(最低十分位)和顶部10%(最高十分位)的公司。
  • y轴:代表投资组合相对权重,即每个公司在投资组合中的相对分配比例。

Results

图5绘制了投资于这些10%基金的累计异常回报。右侧面板对每个十分位数内的基金异常回报进行等权重处理,仅使用神经网络模型对基金进行排序。左侧面板额外使用神经网络模型预测来形成投资组合权重;我们称之为预测加权回报。预测加权方法使用更多信息,导致预测投资组合之间的差异更大。本文其余部分的基准模型是预测加权的。如果投资者根据神经网络模型的预测投资于表现最好的10%共同基金,那么他将获得72%的累积异常回报(预测加权)和48%的累积异常回报(等权重)。这两个数字之间的差异表明,神经网络不仅擅长预测哪些基金可能进入顶级表现十分位数,还擅长预测顶级十分位数内某些基金相对于其他顶级表现基金的好坏程度。

在这里插入图片描述

另一方面, 根据神经网络模型样本外预测表现最差的10%基金产生了-119%的累积异常回报(预测加权)和-93%的累积异常回报(等权重)。因此,避免最差的10%共同基金比投资于最好的10%共同基金更有价值。

expense and return

图6面板(a)展示了基于不同预测十分位数的投资组合平均费用。尽管那些具有较高预测和实际异常回报的基金收取更高的费用,但费用的差异并不能解释预期回报的差异。实际上,表现最差和最好的10%基金都拥有大约50%的累计费用比率,这高于预测表现分布中间位置基金的费用比率。鉴于最好的10%和最差的10%基金有着相同的费用,费用无法解释它们之间的相对表现。

在这里插入图片描述

值得注意的是,表现最好的10%基金实现了72%的累计异常毛回报,超过了累计费用。确实,图6面板(b)显示,即使在扣除费用后,预测排名前两位的基金仍然获得正的异常回报。

在Berk和Green (2004)的无摩擦模型中,所有超额表现应该以更高费用收入的形式归于管理者,导致扣除费用后的异常回报为零。

  • 然而,我们发现约20%的基金在扣除费用后仍能超出预期表现,而剩余80%的基金则有负的扣除费用后的表现。这种超额表现暗示了市场中存在摩擦,而表现不佳则与投资者未能适当考虑费用后的风险以及忽视撤资的情况一致(Ben-David等人, 2022)。
  • 这种不对称现象似乎支持将投资者分为“精明”和“不老练”的两类。最好的基金收取最高费用之一,符合Berk和Green (2004) 的预测。但是,不老练的投资者不能正确衡量管理技能,最终投资于扣除费用后获得负异常回报的基金。

Which information most useful

为了评估股票特定特征(表1中标记为1-46)、基金动量(47-49)、基金特征(50-54)、家族特征(55-59)以及情绪对预测基金异常表现的重要性,我们估计了神经网络模型,这些模型基于预测变量的不同子集。我们的主要发现是,基金层面的变量和情绪的组合产生了最佳性能。基金持有的股票特定特征对于预测基金异常回报并没有帮助。

在这里插入图片描述

图7展示了仅使用股票特征1-46(面板A)、股票特征加情绪(面板B)、基金特征47-59(面板C)以及基金特征加情绪(面板D)时,基金十分位数的累计异常回报。

  • 预测基金异常回报的最佳模型完全忽略了股票特征。与股票特征形成鲜明对比的是,基金特征对于预测极其有用,情绪也是如此。
  • 我们注意到面板D中的单调模式。正如我们将看到的,基金特征与情绪之间存在重要的交互作用。

由于大部分的可预测性集中在极端的十分位数中,我们建议构建一个由顶部和底部十分位数组成的多空预测投资组合,作为技能差异的一种衡量方法。这是一种经济上的衡量方式,而不是可交易的投资策略

在这里插入图片描述

图8显示,当只使用股票信息时,投资于(预测)最好的10%基金并做空最差的10%基金的投资组合样本外累积回报率为-9%,而当使用股票加情绪信息时为69%,仅使用基金信息时为178%,基金加情绪信息时为188%,使用股票、基金加情绪信息时为191%。

在这里插入图片描述

为了评估这些不同的多空投资策略是否涉及不同程度的风险,我们在多空十分位数投资组合上计算了夏普比率,并将其与平均回报一起报告在表3中。

  • 最高的夏普比率策略忽略了股票特定信息。使用基金信息和情绪来选择最好的和最差的10%基金,结果每月多空回报率为40个基点,月度夏普比率为0.25,相当于年度夏普比率为0.87。
  • 最后三行显示,当只使用四个基金特征(即基金动量组和资金流),结合情绪时,产生的多空投资组合具有相似的平均回报和夏普比率。
  • 最后一行显示,使用所有基金特征但不包括这两个因素,导致显著更差的表现。总结来说,基金动量和资金流,与情绪相互作用,是预测基金异常回报的关键变量。

表3的最后一列报告了$R^2_F$统计量,它衡量了实现的多空投资组合回报被神经网络模型预测的准确性。如果实现的多空异常回报因子被更准确地预测,那么投资者将更好地知道顶级十分位数基金将在下一期超过底部十分位数基金的程度。最高的$R^2_F$为每月5.00%,这是一个相当大的数字,是在包含基金、情绪和股票信息的完整模型中获得的。去掉情绪信息会导致$R^2_F$大幅下降,这表明情绪对于预测高减低异常基金回报非常重要。用股票级信息替换基金级信息也会导致$R^2_F$大幅下降。

Spanning

在金融学中,“Spanning”指的是一个投资组合或一组资产是否能通过其他一组资产或因子模型来完全解释。具体来说,当我们讨论不同因子模型下的多空异常预测投资组合(long-short abnormal prediction portfolios)的扩展性时,我们是在评估这些投资组合的表现是否能够被特定的因子模型所解释。

为了评估不同因子模型对多空异常预测投资组合的扩展性,通常会进行以下步骤:

  1. 构建多空投资组合:根据预测模型选择做多和做空的资产,形成多空投资组合。
  2. 回归分析:将多空投资组合的回报作为因变量,使用不同的因子模型中的因子作为自变量进行多元回归分析。
  3. 检验截距:如果截距显著不为零,则说明该因子模型未能完全解释多空投资组合的回报,即该投资组合具有“alpha”,或者说它提供了额外的风险调整收益。
  4. 比较因子模型的表现:通过比较不同因子模型下回归结果的好坏(例如$R^2$值、t统计量等),可以判断哪个因子模型更好地解释了多空投资组合的回报,或者是否有新的因子提供了额外的信息。

在这里插入图片描述

我们发现了相对于平均回报$\mu$(报告在最后一列)较大的且高度显著的截距$\alpha$,以及较低的$R^2$。因此,我们的方法并不是无意中捕捉到了系统性因子暴露的补偿。

Robustness

预测能力对排除或降低小型共同基金的权重具有稳健性。

  • 首先,我们排除资产规模小于1500万美元的共同基金,这是文献中常用的截止点(例如Doshi等人, 2015)。图9(b)显示,结果基本不受小基金删除的影响。
  • 其次,我们将预测分类与基金管理资产的价值相结合,形成价值加权预测投资组合。图9(a)显示,最佳十分位数基金相对于最差十分位数基金的超额表现幅度在价值加权投资组合中与预测加权投资组合非常相似。
  • 有趣的是,在价值加权下,顶级十分位数表现更好,这表明一些最佳基金拥有相对较高的资产管理规模。

在这里插入图片描述

抽样方案对结果的影响,结果对三折交叉验证的随机抽样方案不敏感。

  • 附录A.2重新审视了所有结果,使用的是按时间顺序抽样并结合交叉验证;
  • 而附录A.3则是使用按时间顺序扩展窗口估计。

图11面板A显示,按时间顺序抽样结合三折交叉验证,预测的顶级十分位数的表现优异以及预测的底部十分位数的表现不佳非常相似。面板B再次展示了按时间顺序扩展窗口抽样(无交叉验证)的相似表现。

在这里插入图片描述

表5显示,基于完整信息集的多空投资组合的平均回报和夏普比率在这两种替代抽样方案中高于基准随机抽样方案。

在这里插入图片描述

Longer holding periods

图10展示了基于预测的多空投资组合在长达3年的不同持有期内的异常回报。基金投资是每月根据一个月前的预测进行,但投资被持有更长时间,从1个月到36个月不等(持有期重叠)。

在这里插入图片描述

  • 如预期的那样,平均回报随时间减少,但在所有持有期内仍然显著(左上图)。
  • 同时,较长的持有期降低了回报的标准差(右上图)。
  • 三个月的持有期比一个月的持有期减少了更多的标准差,因此产生了更高的夏普比率(左下图)。即使在36个月后,月度夏普比率仍为0.20,相比之下三个月后的月度夏普比率为0.30。
  • 超额表现即使在36个月后依然统计上显著(右下图)。

尽管模型仅尝试预测一个月前的异常回报,这一结果依旧引人注目。

预测持久性的原因

  • 这种可预测性之所以能够持续更长时间,是因为许多基金特定特征包含了对未来较长时间仍然相关的预测信息。
  • 图A.9显示了基金特定特征的自相关性。除了短期动量(F_r2_1)和短期反转(F_ST_Rev),基金特征具有持久性。这也反映在基金分类的持久性上。

在这里插入图片描述

  • 图A.10展示了每个月不同预测分位数之间的转换矩阵。超过60%的顶级20%和底部20%基金在下一个月保持在同一预测分位数。分类在更长时间内保持稳定。

在这里插入图片描述

Understanding the results

变量重要性

为了可视化哪些变量对预测最重要,我们构建了一个基于每个特征的异常回报预测平均平方梯度的指标,遵循Sadhwani等人(2020)和Horel与Giesecke(2020)的方法。通过数值导数近似在观察到的特征处评估的偏导数。

$$ \text{Sensitivity}(z_k)=\sqrt{\frac{1}{T}\sum_{t=1}^T\frac{1}{N_t}\sum_{i=1}^{N_t}\left(\frac{\partial\hat{R}_{i,t+1}^{abn}}{\partial z_{i,k,t}}\right)^2} $$

其中,$T$是时期数量,$N_t$是每个时期的基金数量。敏感性$z_k$在三个交叉样本外折叠中取平均值并归一化为总和为1。分导数在特殊情况下简化为线性回归框架中的标准斜率系数。较大的敏感性意味着变量对神经网络预测有更大的影响。

在这里插入图片描述

图12左侧面板展示了包含基金层面信息和情绪的神经网络模型的敏感性。情绪是最重要的变量,其次是基金动量、换手率、基金反转和资金流。右侧面板中,我们将一个组内的敏感性度量平均定义为该组的变量重要性度量。最重要的基金特定特征组是基金动量特征。

表6报告了每面板第一列中敏感性$z_k$度量的水平和统计显著性。我们没有将这些度量归一化为总和为1,因此这些值代表预测的平均回报变化。我们确认情绪和大多数基金层面特征在1%水平上高度统计显著。一个区别在于,在按时间顺序抽样中,情绪在定量上稍微不那么重要。随机抽样方法使模型能够更好地学习情绪和基金层面变量之间的非线性交互作用。

在这里插入图片描述

交互效应

我们现在分析由神经网络模型隐含的情绪和基金特征之间的交互效应。图13绘制了预测的异常基金回报(y轴)作为其中一个基金层面变量(x轴)的函数,同时保持所有其他变量在其中位数水平。该函数在三个交叉样本外折叠中取平均值。为了研究与情绪的交互效应,我们在不同的情绪分位数下绘制这个一维函数。因此,这些图显示了条件于一个基金变量和情绪值的异常基金回报均值。

在这里插入图片描述

情绪和基金层面变量之间存在明显的交互效应。预测的异常回报几乎与基金特定变量呈线性关系,但在高情绪时期这种关系的斜率明显更高。情绪与基金动量在面板(a)中的交互效应尤为强烈。相比之下,家族动量(Family_r12_2)没有交互效应。

事实证明,情绪与基金层面变量之间的交互效应对我们所有的变量来说都是单调的。为了评估经济规模和相对重要性,我们引入了以下新的交互度量,它测量了高和低宏观经济状态下的斜率差异。

$$ \begin{aligned} & \text{Interaction}(z,\mathrm{macro}) \ & =\left(\hat{R}^{abn}(\mathrm{high~} z,\mathrm{~high~macro})-\hat{R}^{abn}(\mathrm{low~} z,\mathrm{~high~macro})\right) \ & -\left(\hat{R}^{abn}(\mathrm{high~}z,\mathrm{~low~macro})-\hat{R}^{abn}(\mathrm{low~}z,\mathrm{~low~macro})\right) \end{aligned} $$

我们评估预测的异常回报$\hat{R}^{abn}$对于基金变量z的最高和最低值以及宏观经济状态的高(90%分位数)和低(10%分位数)。其他变量设置为其中位数值。该度量中的高绝对值表示强烈的交互效应,并测量了在高和低情绪状态下特征z的回报差额。

在这里插入图片描述

表6报告了情绪与基金层面特征之间的交互度量。由于基金动量、换手率、资金流和反转导致的回报差额最受情绪影响。表格显示,预测的月度基金动量差额在高情绪状态下比低情绪状态下高出九个基点。我们观察到的大量交互效应在统计上是显著的。

别的宏观经济变量?

在展示了情绪及其与基金特征的交互效应的重要性之后,合理的问题是询问其他变量(如CFNAI,芝加哥联邦全国活动指数)是否可能在预测共同基金超额表现中扮演类似重要的角色。或者它们是否增加了情绪中未包含的有用宏观经济信息?

  • 主要发现是,用CFNAI替换情绪对排序底部和顶部预测表现十分位数的共同基金影响不大。然而,在顶级和底部十分位数内的相对性能预测使用CFNAI比使用情绪更弱。原因可以追溯到基金变量和CFNAI之间的交互效应要弱得多。

简约模型

为了说明一个更具解释性的模型,我们估计了一个简化模型,该模型仅使用资金流、F_r12_2(代表过去12个月减去最近2个月的回报率,短期动量),以及情绪作为输入。这个仅包含三个变量的简单模型可以很容易地可视化和解释。

在这里插入图片描述

图14显示了这三个变量之间非平凡的交互效应。特别是与情绪的交互效应非常强烈。最高条件异常回报发生在高情绪时期,对于具有高动量和高流量的基金。最低异常回报则预测出现在低情绪时期,对于具有低动量和低流量的基金。这些非线性交互效应是线性模型无法捕捉的。事后回归异常回报对情绪或高情绪指标也是不足以检测这些交互效应的,因为关键点在于情绪必须包含在预测模型本身中。

回应一下前人研究

Gruber(1996)和Zheng(1999)发现了资金流与随后的小型基金而非大型基金的异常回报之间存在正向但短暂且微弱的关系。重要的是,Sapp和Tiwari(2004)表明,一旦风险调整控制了股票回报动量,“聪明钱”效应就会消失。Lou(2012)表明,预期部分的资金流交易正向预测共同基金回报,而Song(2020)发现与正因子回报相关的基金流导致未来基金表现不佳。

  • 我们的机器学习方法重新激活了资金流的预测作用,并在四因子风险调整后显示,基金流正向且持续地预测业绩。它还揭示了基金异常回报动量强烈且正向预测基金异常回报。这两种预测关系在高情绪时期更强。

这些结果与至少一些基金经理是有能力的,至少一些投资者能够识别技能并(重新)分配他们的投资给有能力的经理的理论一致。有理由相信,由于交易成本或更广泛的搜索成本(Roussanov等人,2021年),投资者惰性,或是投资者信念到分配决策的弱传递(Giglio等人,2021年),这种投资流的重新分配可能不如Berk和Green(2004年)无摩擦模型预测的那样强和快。

  • 在不完全重新分配的情况下,技能以基金回报动量的形式留下痕迹,供投资者在下一期利用。换句话说,资金流逐渐且足够小,以至于需要几个周期基金才会遇到零边际异常回报。

这些结果也可能与基金和基金家族通过营销而不是或除了通过投资技能吸引资金流一致(Ibert等人,2018年;Roussanov等人,2021年)。营销诱导的流入为基金通常投资的股票创造了购买压力。在一个需求曲线向下倾斜的世界里(Coval和Stafford,2007年;Koijen和Yogo,2019年;Gabaix和Koijen,2021年),这会提升价格并提高基金回报。

  • 通过资金流-业绩关系,以及营销驱动资金流的持久性,这种超常表现会在下一期创造更多的流入。需求压力进一步推高价格,产生基金回报的动量。
  • 事实上,资金流和基金动量在高情绪时期与基金表现有着更强的关联,这进一步证明了这种营销驱动渠道的存在。

分解异常回报

为了更详细地理解基金特征,特别是基金动量和资金流及其与情绪的交互作用在预测共同基金异常回报中的关键输入机制,我们尝试在单变量环境中分解共同基金的异常回报。这种分解将异常回报分为两个部分:披露间异常回报(Between-disclosure abnormal return)和披露内异常回报(Within-disclosure abnormal return)。

$$ \begin{aligned} R_{i,t}^{abn}&=\underbrace{\tilde{R}_{i,t}-f_{t}\tilde{\beta}_{i}}_{\text{Between-disclosure abnormal return}}+\underbrace{R_{i,t}-f_{t}\beta_{i}-(\tilde{R}_{i,t}-f_{t}\tilde{\beta}_{i})}_{\text{Within-disclosure abnormal return}} \ &=\underbrace{\tilde{R}_{i,t}-f_{t}\tilde{\beta}_{i}}_{\text{Between-disclosure abnormal return}}+\underbrace{R_{i,t}-\tilde{R}_{i,t}}_{\mathrm{Return~gap}}+\underbrace{f_{t}\left(\tilde{\beta}_{i}-\beta_{i}\right)}_{\text{Risk exposure difference}} \end{aligned} $$

其中, $tilde{R}_{i,t}$是假设基金i保持其最后披露的投资组合权重不变时的回报。$f_{t}$是Carhart四因子模型中同期的因子回报向量。$\tilde{\beta}_{i}$是与假设回报$tilde{R}_{i,t}$相关的Carhart四因子暴露向量。

  • 披露间异常回报反映了投资者投资于基金最近一次披露的股票仓位,并持有该组合直到下一次披露所产生的异常回报。如果平均披露间异常回报为正,则意味着共同基金能够以季度频率挑选出具有正阿尔法的股票。
  • 而高值的披露内异常回报则表明基金通过相邻披露日期间的活跃交易增加了价值。披露内异常回报可以进一步分解为回报差距(Return gap)和风险敞口差异(Risk exposure difference)两部分。

在这里插入图片描述

表8展示了对这三种异常回报成分的三重分解结果。

  • 第二和第三列报告了基于单变量预测,买入10%最佳基金并卖空10%最差基金的投资的夏普比率和平均回报。接下来的四组两列分别预测了异常基金回报的一个组成部分。
  • 动量特征是预测披露间和披露内异常回报最重要的特征,每个回报成分大约占了一半的回报。
  • 资金流、基金家族内的基金数量以及一些特定股票特征也有助于预测披露间回报,而这些动量特征是唯一显著预测披露内异常回报的因素。
  • 对于理解披露内回报而言,基金动量和反转是唯一同时预测回报差距和风险差异且符号相同的特征。资金流也预测回报差距。其他基金和基金家族变量显著预测回报差距,但这种效应被对风险差异相反符号的预测所抵消。

也就是说,虽然具有这些特征的基金以增加系统性风险的方式提高了基金回报,但具有高基金动量和反转特征的基金则在季度内以既增加回报差距又大幅降低投资组合系统性风险的方式进行交易。

在这里插入图片描述

表9显示了神经网络预测模型的结果,该分解是单变量结果的复杂平均。仅基于基金动量、资金流和情绪的预测模型(表的第三行)具有最强的披露内效应,这主要由显著的正风险差异和回报差距驱动。添加更多的基金特征会降低披露内和披露间的平均回报。

异常回报与总回报预测对比

我们的关键发现之一是,股票特征对预测最佳和最差基金贡献甚微,这可能看起来与Li和Rossi(2021)的研究结果相矛盾,他们强调可以根据持有的股票来预测最佳和最差基金。

  • 然而,我们预测的是基金异常回报$R_{i,t}^{abn}$,而非总回报$R_{i,t}$。后者由于基金对共同回报因子的暴露而有强烈的共同成分。
  • 附录中的图A.15和表A.10报告了预测总回报而非异常回报的结果。首先,我们发现股票特征对总回报的预测力远大于对异常回报的预测力,即股票特征似乎能够预测基金回报中的系统性因子成分,这与Li和Rossi(2021)一致。然而,一旦剔除这个因子成分,股票特征就失去了大部分预测力。
  • 其次,基于总回报预测的多空组合的夏普比率低于基于异常回报预测的多空组合。

这指出了本文的一个重要方法论贡献:

  • 基金回报水平(以及股票回报)极其难以预测,而相对表现更具可预测性。异常回报作为相对预测目标,去除了来自系统性风险因子暴露补偿的水平效应。
  • 回报与异常回报之间的比较还说明了条件因子模型和无条件因子模型之间的区别。使用机器学习模型预测总回报然后估计预测组合回报上的无条件Carhart四因子模型,与首先从条件Carhart四因子模型构建异常回报再用机器学习模型预测异常回报有着根本的不同。

时间变化的表现

共同基金经理的表现可预测性似乎是时间变化的。

  • 首先,如图8所示,仅使用股票特征的预测能力在2000年后急剧下降,而仅使用基金特定信息的策略在2000年后的表现仍然合理。
  • 其次,图5和图7显示,基于基金特定信息和情绪的顶级十分位数的表现也在2000年后下降。很大一部分长短期策略的表现归因于预测底部十分位数。
  • 第三,图9表明,当基金按市值加权时,顶级十分位数的表现恶化较少,这表明最大基金中最熟练经理人的表现更为稳定且强于小型基金中最熟练的经理人。

这种表现的时间变化不能用换手率和费用比率来解释。

  • 附录中的图A.16显示,换手率导致的更高交易成本在2000年后并未系统性增加。
  • 其他变化可能提供了解释。2000年末到2003年初的一系列法规的实施对信息收集环境、证券市场的透明度、上市公司信息披露的及时性和交易摩擦的减少产生了重要影响。这些变化可能降低了共同基金产生异常回报的能力,减少了信息收集优势,并促进了更容易和更便宜地进入与共同基金竞争利用潜在价格异常的套利者的进入。最大的共同基金可能有更好的方式管理遵守所有这些新规则,这至少部分解释了按市值加权的结果。

此外,Hanson和Sunderam(2014)表明,自2000年代初以来,投入到熟悉定量股权策略(如价值和动量)的套利资本大幅增长,这导致了策略回报的降低,其信号在投资组合形成后迅速衰减。

Akbas等人(2023)记录了市场在响应公司特定新闻和市场广泛新闻方面自2000年代初以来比1980年至2000年期间更加高效,这种效率的提高与套利者更新价格的能力有关,后者由金融行业的规模和技能水平代理。

最后,Green等人(2017)发现了2003年或稍早的特性基础可预测性的显著转变,这与股票特定特性对异常回报的可预测性崩溃是一致的。

Conclusion

  • 本文重新审视了预测主动管理型共同基金表现的问题。尽管此前建立可预测性颇具挑战,但通过使用现代神经网络技术,我们发现了异常回报具有强烈的可预测性的证据。
    • 非线性神经网络方法的一个重要优势在于它们能够可靠地估计大量变量之间的复杂函数关系,这一点在预测共同基金的异常回报时尤为有利。我们识别出的这种可预测性是样本外、长期存在的,并且具有经济意义。
    • 它既适用于费用前也适用于费用后的回报。大部分收益来自于避免那些模型预测为最差表现的基金,然而,该预测模型也能识别出大约10-20%的基金即使在扣除费用后仍能产生正向异常回报。这种可预测性至少持续36个月。
  • 我们确定了两个关键的基金特征——资金流和基金动量,作为预测共同基金超额表现的重要因素。基金持有的股票特征对于预测异常回报并不起重要作用。
  • 此外,当投资者情绪高涨时,这两个基金特征的影响更为显著。线性模型无法捕捉到这一重要的交互效应。虽然包含CFNAI(宏观经济活动的代理指标)也能提高可预测性,但与CFNAI相关的交互效应并不可辨识,不像与情绪有关的交互效应那样明显。这些结果对于改进共同基金市场的委托理论应该会有帮助。

  • 从方法论上讲,我们将异常回报视为因子模型的局部残差(alpha),这不仅是经济动机驱动的目标,也是统计上更优的预测目标。我们展示了如何衡量对宏观经济状态的依赖性,并建议与其进行不同模型规范的典型竞赛,不如通过改变提供给同一灵活机器学习算法的信息集来比较预测和交易收益。

  • 最后,我们引入了一种新的交互效应测量方法,不仅度量局部斜率,还提供了更具信息量的全局斜率。对于这个可解释的度量,我们提供了一个正式的统计显著性测试。

这些方法论贡献将有助于推动未来利用机器学习进行资产定价和投资研究的发展,这是一个不断增长的研究领域。本文专注于主动管理的股票型共同基金,自然的下一步是研究债券型共同基金以及由对冲基金、养老基金和捐赠基金等管理的投资组合,以揭示其他资产类别和机构中技能的存在及其驱动因素。