Machine Learning and Fund Characteristics Help to Select Mutual Funds with Positive Alpha 论文详解
Abstract
- Machine-learning methods exploit fund characteristics to select tradable long-only portfolios of mutual funds that earn significant out-of-sample annual alphas of 2.4% net of all costs. 基于机器学习的方法,仅利用基金特征选择公募基金组合,获得了显著的样本外α值。
- The methods unveil interactions in the relation between fund characteristics and future performance. For instance, past performance is a particularly strong predictor of future performance for more active funds. 这些方法揭示了基金特征与未来业绩之间关系中的相互作用。例如,对于更加积极主动的基金而言,过去的表现是预测未来表现特别有力的指标。
- Machine learning identifies managers whose skill is not sufficiently offset by diseconomies of scale, consistent with informational frictions preventing investors from identifying the outperforming funds.机器学习识别出那些技能没有被规模不经济充分抵消的经理,这与阻止投资者识别表现优异的基金的信息摩擦是一致的。
- Our findings demonstrate that investors can benefit from active management, but only if they have access to sophisticated prediction methods.本文的发现表明,投资者可以从积极管理中受益,但前提是他们能够获得复杂的预测方法。
Introduction
Theoretical Basis
- 共同基金研究一致显示,在扣除交易成本、费用及其他开支后,平均主动管理型基金获得的是负的风险调整回报(即α值)(Sharpe, 1966; Jensen, 1968;Gruber, 1996; Ferreira et al., 2013)
- 尽管一些研究表明存在一部分能够跑赢基准的基金经理 ,但在事先识别出这些表现优异的基金是非常困难的。(Wermers, 2000; Barras et al., 2010; Fama and French, 2010; Kacperczyk et al., 2014; Berk and Van Binsbergen, 2015)
- 研究者利用调查了过去的回报来进行预测未来基金业绩,发现净α值并不持久,特别是在考虑了回报对动量因子的暴露后。 (Carhart, 1997)
- 基金净阿尔法值缺乏持续性与Berk and Green (2004)的模型一致,在该模型中,基于过去的回报,投资者会无限制地向预期表现优异的基金供应资本。
- 如果在投资组合管理中存在规模不经济效应,在均衡状态下,过去阿尔法值为正的基金会吸引更多的资产,从而使得它们获得的预期净阿尔法值与其他任何主动管理基金一样,即等于替代的被动基准(零)。
- 然而,信息摩擦可能会阻止资金流动将基金表现降至零。 (Dumitrescu and Gil-Bazo, 2018; Roussanov et al., 2021)
- 因此,共同基金表现是否可预测最终是一个经验性的问题。
- 多项研究表明,共同基金的特征可以用来预测基金的表现,但只有很小的一部分可以在扣除交易成本、费用及其他开支后用于选择具有正阿尔法值的仅多头基金组合。
Implications
- 鉴于最近关于SEC提出将强制披露投资组合门槛(Form 13F)从1亿美元提高到35亿美元的提案辩论,尽管投资组合持仓信息对投资者可能是有价值的,但它也可能揭示投资组合策略并减少主动管理者的积极性去识别定价错误的资产,这对市场效率可能有害(Aragon et al., 2013; Shi, 2017).
- 本文展示了无需了解基金投资组合持仓信息的共同基金特征就足以预测正阿尔法值。
- 这样投资者即使不通过持仓信息,也可以从共同基金行业的主动管理中获益,但前提是他们能够使用复杂的非线性方法的预测结果。
Related Literatures
- (Jones and Mo, 2020)的综述识别了27项研究,只有7项研究报告了扣除费用和交易成本后针对仅多头共同基金组合的样本内Carhart (1997) α值为正且统计上显著。(Chan et al., 2002; Busse and Irvine, 2006; Mamaysky et al., 2008; Cremers and Petajisto, 2009; Elton et al., 2011; Amihud and Goyenko, 2013; Gupta-Mukherjee, 2014)
- 部分工作也与使用贝叶斯方法构建最佳共同基金组合的研究相关。不同于这些研究,我们并不研究投资者应如何根据他们对经理技能和可预测性的偏好和先验信念在基金间分配财富。相反,本文的目标是识别出具有正阿尔法值的主动管理基金,投资者可以将其与被动基金结合以实现更好的风险回报权衡。(Baks et al., 2001; Pastor and Stambaugh, 2002; Jones and Shanken, 2005; Avramov and Wermers, 2006; Banegas et al., 2013).
- 本文的工作也与新兴的机器学习来预测基金表现的文献相关
- Wu et al. (2021) 利用从基金历史回报中构建的特征来预测未来的对冲基金回报;
- Li and Rossi (2020) 利用基金持仓和股票特征的数据来选择共同基金组合(预测变量集不同);
- Kaniel et al. (2023) 使用神经网络来预测共同基金的阿尔法值,使用了一套全面的预测变量,包括股票特征、基金特征和宏观经济变量。还表明当基金特征作为预测变量时,股票特征不再有助于预测阿尔法值。但是其关注的是共同基金的多空组合,使用三折交叉验证在整个样本上预测表现,并未考虑基金的手续费;
- Kaniel et al. (2021, Figure 6b) 记录的大部分扣除费用后的阿尔法值的可预测性来自于他们基金的多空组合中的卖空部分;
- 本文的工作也与不断增长的使用机器学习解决金融领域实证问题的文献相关
- 测量股权风险溢价 (Gu et al., 2020; Chen et al., 2020);
- 检测债券风险溢价的可预测性 (Bianchi et al., 2021);
- 构建能够捕捉资产定价中的非线性和交互作用的测试资产 (Feng et al., 2020; Bryzgalova et al., 2019);
- 预测通货膨胀(Garcia et al., 2017; Medeiros et al., 2021);
- 研究投资者特征与投资组合分配之间的关系(Rossi and Utkus, 2020);
- 使用机器学习按投资类别对共同基金进行分类 (Pattarin et al. 2004, Moreno et al. 2006, and Mehta et al. 2020);
Main Findings (5)
- 利用非线性和交互作用的两种机器学习方法(梯度提升和随机森林)分别选择了仅多头基金组合,这些组合相对于包含动量因子的FF5模型每年获得了统计学意义上显著的扣除所有成本后的α值,分别为2.36%和2.69%。也是经济上重要,是我们样本中平均费用比率(1.11%)的两倍多。
- 机器学习揭示了基金特征与未来表现之间关系中的非线性和交互作用。最重要的特征包括各种过去表现的度量和基金活跃度。基金活跃度与未来表现之间的关系高度非线性,对于最活跃的基金,这种关系非常积极,但对于其他基金则较为平坦。
- 本文探讨了是否有可能通过对过去业绩的一个衡量标准和基金激进主义的一个衡量标准进行双重排序来实现正净阿尔法。尽管有可能通过双重排序共同基金来实现正净阿尔法,但这种双重排序投资组合的业绩对过去业绩和资金活跃性的特定衡量标准相当敏感。投资者应该动态地使用机器学习来识别仅使用过去数据在每个时间点上重要的特征和相互作用。
- 我们在Roussanov et al.(2021)的工作基础上,研究共同基金市场中的资本错配是否解释了非线性机器学习投资组合的表现。我们发现考虑到经理的技能,前10%基金的规模“太小”,两种非线性机器学习方法中前10%基金的规模特别小。这些发现为我们的结果提供了经济学解释:机器学习有助于选择共同基金,不仅因为它可以识别熟练的经理,还因为它可以识别技能没有被规模不经济充分抵消的经理。
- 受到Jones and Mo (2020)的研究启发——由于套利活动增加和共同基金竞争加剧,基金特征预测表现的能力随着时间的推移而下降。我们研究了从1991年到2020年间不同组合的阿尔法值如何变化,基于预测的三种机器学习组合在1991年至2011年间的表现优于两种简单的组合(等权重和按资产加权),从2012年到2018年期间,基于机器学习投资组合表现与简单组合相似,而在样本最后两年(2019年和2020年),机器学习投资组合又优于两个简单组合。
Sample and Data
Data Source
CRSP Survivor Bias-Free US Mutual Fund database(CRSP无幸存者偏差的美国共同基金数据库)
- 收集了关于美国国内股票共同基金的月度信息,分析样本限制在不收取前端或后端手续费的份额类别上(这样再平衡时不会收取手续费),包括机构和零售份额类别,并且时间跨度从1980年1月至2020年12月;
- 仅包括主动管理型基金的份额类别,从而排除了ETFs和被动管理的共同基金;
- 只考虑那些投资组合中有超过70%投资于股票的基金份额类别;
- 为了避免CRSP数据库中已记录的偏见,排除了以下两种情况的观测值:
- 一是在该份额类别成立未满36个月之前的数据;
- 二是在首次观察时总净资产(TNA)少于500万美元的数据
最终样本包含8,767个独特的份额类别,其中7,921个对应于多元化股权基金(代表样本中总净资产的95%),846个对应于行业基金。
Mutual-fund characteristics
我们构建了一组包含17个份额类别特征的数据集:
- 净回报 $(r_{i,m})$ -扣除费用、交易成本和无风险利率
- 总净资产$(TNT_{i,m})$
- 费用比率$(ER_{i,m})$
- 投资组合换手率
- age:自成立以来的月份数
- 月度资金流:调整后总净资产相对于上一个月的变化 $$ flow _ { i , m } = \frac { T N A _ { i , m } - T N A _ { i , m - 1 } ( 1 + r _ { i , m } ) } { T N A _ { i , m - 1 } } $$
- 资金流波动性:日历年中资金流的标准差
- 基金经理任期(年)
- 滚动窗口的FF5+MOM回归得出的$\alpha$和$\beta$的t统计量与$R^2$(基金活跃度的一个衡量指标)
- 已实现 $\alpha$ 及价值增值(value added)
$$ \alpha _ { i , m } = r _ { i , m } - \widehat { \beta } _ { M K T , i , m } M K T _ { m } - \widehat { \beta } _ { S M B , i , m } S M B _ { m } - \widehat { \beta } _ { H M L , i , m } H M L _ { m } \ - \widehat { \beta } _ { R M W , i , m } R M W _ { m } - \widehat { \beta } _ { C M W , i , m } C M W _ { m } - \widehat { \beta } _ { M O M } - \widehat { \beta } _ { M O M _ { m } } $$
$$ \text{value added}_ { i , m } = ( \alpha _ { i , m } + E R _ { i , m } / 1 2 ) \times T N A _ { i , m - 1 } $$
Target and predicting variables
- 目标变量:年度已实现α值
- 预测变量:上一年的17个特征变量
- 模型:OLS回归、弹性网络(Elastic Net)、随机森林(Random Forests)和梯度提升(Gradient Boosting)
- 滑动窗口:使用前10年的数据训练,然后用第10年的数据来预测第11年的表现,每次向后移动一年(第一个窗口是使用1980-1990的数据进行训练,首次对1991年的基金做出预测), 因为有的特征只有年度,故将年度实现阿尔法、增值和资金流,作为其月度值的平均数乘以12。资金流波动性已经定义为每年的数据,我们将其乘以12的平方根进行年化处理。对于所有其他特征,我们使用每年12月份的数值。我们对每个特征进行了标准化处理,使其横截面均值为零,标准差为一。缺失观测值设为其横截面均值(即零)。
- 组合构建:取每次预测表现前10%的基金构成等权重组合,持有一年,追踪其净回报。如果在此期间,组合中的某个基金从样本中消失,则投资于该基金的资金将被平均分配给剩余的基金。(入选最高十分位数组合的基金平均数量为159个,最少时为11个,最多时为326个)
- 评估表现:根据组合的月度表现,计算月度α值 (FF3+MOM、FF5、FF5+MOM、FF5+ MOM+LIQ)(产生了一个360个月的时间序列数据,1991-2020)
Results
Out-of-sample and net-of-costs performance
- 非线性的机器学习方法选择的多头基金组合相对于FF5+MOM模型分别实现的净α值为每月19.7个基点和22.4个基点
- 基于线性方法(弹性网络和OLS)实现的净α值为每月9.1个基点和10.1个基点,统计上与零无显著差异
- 等权重组合和资产加权组合分别获得了负的净α值。有趣地是,资产加权组合的表现不如等权重组合。(这意味着投资于主动管理基金的平均美元所获得的风险调整后扣除成本回报低于平均基金)
Li和Rossi(2020)使用股票特征结合基金持仓数据,也得到了每月21个基点的结果,本文表明使用基金特征就像展示基金经理持仓一样,能选择出具有正净α的基金
为了探究线性机器学习组合是否明显不同于OLS组合的α值,构造了一个自融资组合,做多机器学习组合,做空OLS组合。(做空的也是OLS得出的前10%的基金组合)
- 机器学习组合与与OLS组合之间的表现差异是正向且显著。
- 弹性网络组合的表现与OLS组合在统计上没有区别。
- 等权重组合和资产加权组合都表现逊于OLS组合,这种差异通常在统计上是显著的。
结果进一步强调了利用复杂模式识别能力的机器学习方法在构建高回报基金组合中的优势
然而,投资者可能选择仅投资于共同基金,而不是将它们与基准组合结合。因此,研究各种主动管理基金组合在平均回报和风险方面的表现是很有趣的。
- 下表报告了基金组合的重要指标: Information ratio的benchmark是FF5+MOM模型
- 最后一列报告了组合的Turnover, 为了通过投资主动管理基金实现优异表现,必须积极地在基金之间调整仓位
Which characteristics and interactions matter?
Characteristic Importance
使用SHAP值衡量特征重要性,SHAP所做的是量化每个特征对模型所做预测的贡献。SHAP值的正负表明特征对预测值的影响方向,SHAP值的大小表明特征对预测值的影响大小。
总结来说:
- α的t统计量在四种方法中都很重要
- 非线性模型中的特征重要性排序很类似
- 在非线性模型中很重要的value added特征在线性方法上重要程度较低
进一步探讨特征如何影响组合表现,以gradient boosting模型中,alpha的t统计量的SHAP值分析为例
alpha的t统计量与其条件平均SHAP值之间存在近似线性的关系,这可能也解释了为什么alpha的t统计量对于OLS和弹性网络这两种线性方法来说是最重要特征。
但请注意,真正仔细看了之后会发现,当alpha的t统计量变大时,SHAP值为正且变大;当alpha的t统计量变小时,SHAP值为负且变大;如果我们将SHAP类比为回归中的系数的话,这个系数为正,其系数会随着alpha的t统计量的绝对值变大而变大(系数大小与alpha的t统计量呈现类似二次函数的形状)。
再看一个市场beta的t统计量的例子
进一步探讨特征的交互作用如何影响组合表现,以随机森林模型中,过去业绩指标(value added)与基金活跃度指标($R^2$)的SHAP值分析为例。
将所有观测值按照基金活跃度特征分成十分位,随着value added的增加,SHAP值也随之增加,但在更活跃的基金里面增加的更快。
换句话说,虽然投资者通常可以通过持有过去表现良好的基金来实现更高的净阿尔法,但对于更活跃的基金来说,这种效应要强烈得多。
Double Sorting
鉴于过去业绩和基金活跃度指标及其交互作用对于非线性机器学习组合的重要性,探讨是否可以通过基于一个过去业绩指标和一个基金活跃度指标对基金进行双重排序的简单策略来获得正净alpha
- 策略:选择业绩指标前$\sqrt{10\%}$ 的基金,进行再排序,选择基金活跃度后$\sqrt{10\%}$的基金(因为基金活跃度的系数是负的)
基于不同特征对的双重排序构建的基金组合的表现差异很大。例如,基于增值和市场贝塔t统计量或R²双重排序构建的样本外净阿尔法值并不显著异于零,并且其幅度明显小于非线性机器学习组合。此外,值得注意的是,表中的结果存在前瞻性偏差,因为用于双重排序的特征对是基于使用整个样本计算的特征重要性和交互作用选择的。
Time-varying characteristics
虽然通过简单的双重排序构建的投资组合可以取得良好的样本外表现,但为了根据每个时间点(仅基于历史数据)识别相关特征和交互作用并实现实时的良好表现,投资者应该采用非线性机器学习方法。
正是基于这种考虑,我们要探究一下特征变量重要性随时间变化的情况。图左是gradient boosting的特征随时间的SHAP值变化,右侧则是random forests
Capital misallocation and machine learning
- Roussanov等人(2021)采用贝叶斯方法估计经理技能,并发现大约80%的基金管理着超过其有效规模的资产,而技能最高的十分位基金的规模相对于其经理人的技能而言是“太小”的。
- 问题:我们的投资组合能否筛选出这些经理人?
- 我们假设基金的净阿尔法可以分解为技能、规模不经济、费用比率。
$$ E ( \alpha _ { i , t + 1 } | F _ { t } ) = \hat { a } _ { i , t + 1 } - D ( Q _ { i , t } ) - p _ { i , t } $$
- 其中$\hat { a } _ { i , t + 1 }=E ( \alpha _ { i , t + 1 } | F _ { t } )$是基于信息集 $F _ { t }$ 的基金i在t+1期的预期技能
- $D ( Q _ { i , t } )$为给定基金 i 在 t 期规模 $Q_{i,t}$ 下规模不经济的影响;
- $p _ { i , t }$为基金 i 在 t 期的费比率;
- Roussanov等人(2021)估计出 $D ( Q _ { i , t } ) = \eta log(Q _ { i , t }), \eta = 0.0048$
- 在Berk和Green(2004)的完全竞争均衡中,基金 i 的有效规模应该满足$\log Q _ { i , t } ^ { B G } = ( \hat { a } _ { i , t + 1 } - p _ { i , t } ) / \eta$,其中$\hat { a } _ { i , t + 1 } - p _ { i , t }$为基金 i 在 t+1 期的净技能;
下图报告了该模型的分解结果
- 每个净技能水平下的有效(Berk-Green)规模对数$logQ_{i,t}^{BG}$ 为黑色直线
- 彩色线条描绘了四种模型在每个十分位组合的平均规模对数与净技能的均值的情况
- 能看出四种预测方法均识别出了具有更高净技能的经理人,预测alpha值最高的前10%基金的平均管理资产规模显著小于次优十分位中的基金,这种模式对于由两种非线性机器学习方法更为明显。
- 对于底部九个十分位组合,基金规模同样单调增加,这与投资者通常能够识别出具有更高净技能的基金是一致的。
- 结论:与Roussanov等人(2021)的结果一致,即美国共同基金行业中资本错配,信息摩擦阻止了投资者识别出那些经理具有最高净技能的基金。
Performance over time and across market conditions
文章最后还做了一些检验;
- Jones和Mo(2020)的研究表明,由于套利活动的增加和共同基金之间的竞争加剧,基金特征预测业绩的能力随着时间的推移而下降。受到他们研究的启发,我们研究了不同投资组合的阿尔法值如何随时间变化。
- Li和Rossi(2020)研究了共同基金持仓和股票特征预测基金表现的能力是否因市场条件的不同而变化。受到他们的工作启发,我们现在调查基金特征选择具有正阿尔法值基金的能力是否也随着市场条件的变化而改变。
- 基于三种预测方法的投资组合(梯度提升、随机森林和OLS)在整个30年的样本外期间内均优于两个朴素投资组合(等权重和资产加权)。具体来说,梯度提升、随机森林和OLS投资组合分别实现了69%、78%和34%的累计净阿尔法值,而等权重和资产加权投资组合则分别获得了-7%和-13%的负累计净阿尔法值。
- 与Jones和Mo(2020)一致的是,基于预测的投资组合在2012年至2018年间的表现与朴素投资组合相似。
- 在我们样本的最后两年(2019年和2020年),所有三种基于预测的投资组合都优于两个朴素投资组合。
- 我们将业绩估计条件化为经济扩张期和衰退期,以及投资者情绪高和低的情况。
- 主要发现是,梯度提升和随机森林投资组合在所有市场条件下都能实现正阿尔法值,尽管它们在经济衰退期和投资者情绪高涨时期表现更好,但不同市场条件下的阿尔法值差异并不具有统计显著性。
Conclusion
本文的主要贡献的逻辑链条是这样的,首先由机器学习方法识别出了具有正净alpha的基金组合,通过评估特征重要性与影响程度发现仅仅使用双重排序也能获得正净alpha值,但是发现特征重要性和影响方向具有时变形,需要依赖机器学习方法的识别才能获得持续为正的alpha值。然后讨论了正净alpha值的来源,是由于基金经理能力与其管理规模的错配导致,而机器学习方法能识别这种错配。最后分析了不同时间不同市场环境下模型组合的表现。
我们再来看看原文的结论:
- 我们展示了机器学习方法能够动态识别并利用基金特征与表现之间关系中的非线性和交互作用,帮助投资者选择那些在扣除费用和交易成本后仍能获得显著且正的阿尔法值的基金。机器学习方法揭示了过去业绩指标与基金活跃度之间的交互作用有助于预测未来的基金表现。我们的研究结果表明,投资者确实可以从主动管理的共同基金中获益,但前提是他们能够获得允许基金特征与表现之间灵活关系的高级预测。
- 为了理解我们研究结果背后的经济机制,我们探讨了我们的投资组合的表现是否可以由共同基金市场的资本错配来解释,并发现机器学习确实选择了相对于其基金经理技能而言规模较小的基金,这与信息摩擦阻碍了一些投资者识别出表现优异基金的情况相一致。
- 我们的发现表明,即使不需要基金持仓信息的共同基金特征也足以预测正阿尔法,这意味着即使在样本期间没有可用的持仓信息,我们的方法也能平均识别出具有正净阿尔法的基金。这一点对于最近SEC提出的提高强制性披露资产门槛的提议讨论是相关的。