When can the market identify old news? -- 论文阅读

Abstract

是什么驱动了市场对旧闻反应的谜题？受关联忽视理论的启发，我们对金融专业人士进行了一项实验，结果显示即使是老练的投资者也难以识别出从多个来源重新组合而成的旧信息。
我们使用来自彭博终端的1700万篇新闻文章的独特数据集来评估这一机制的市场影响。旧信息的重新组合比直接重印引发更大的价格变动和随后的反转。这种效应在新闻情绪、模糊性和投资者关注方面持续存在。
此外，虽然对旧信息的整体反应会随着时间而减少，但对重新组合信息的差异反应却有所增加。

Introduction

Question

过去二十年间，信息传播机制的激增增加了新闻的数量和投资者可获取的信息源种类。鉴于庞大的新闻环境，市场参与者筛选新闻并识别新颖内容的任务并不简单，且容易受到有限注意力的影响。

大量关于有限注意力的文献显示，

投资者常常对初始信息信号反应不足，导致当他们延迟看到这些信号或从其他来源接收信息时产生后续的漂移（Hirshleifer 和 Teoh, 2003；Peng 和 Xiong, 2006；Fedyk, 2022）。
然而，在金融市场中也存在显著的过度反应实证证据，尤其是在回应旧闻时（Tetlock, 2011；Gilbert 等人, 2012）。

我们推测这也可以归因于（特定类型的）有限注意力：“关联忽视”，即决策者未能充分考虑到信号之间的相关性（DeMarzo 等人, 2003；Ortoleva 和 Snowberg, 2015）。在这种情况下，对非新颖信号的反应可能会过头，从而导致随后的反转。

Main Findings

本文通过提出市场未能识别旧闻的一个渠道，并通过实验和实证资产价格为这一机制提供证据，从而对金融市场的认知偏差文献做出了贡献。
- 较高比例的重新组合新闻之后出现的更大价格响应更可能在未来一周内发生反转。具体来说，公司新闻中有额外10%为旧闻，预测会在接下来的一周内使整体每日回报额外反转13.9%；而旧闻中额外10%是重新组合而非重印，则会使反转再增加16.9%。这表明，平均而言，对重新组合新闻的过度反应倾向于在一星期内完全反转。
我们在几个方向上扩展了实证分析。
- 首先，为了直接探索有限注意力的作用，我们根据投资者注意力分割样本。我们使用Ben-Rephael等人（2017）提供的彭博终端上的投资者注意力度量，该度量在证券-日期层面可用。与有限注意力一致的是，当投资者注意力高时，市场对旧闻的反应较小。但这是主要由更好地筛选出简单的重印驱动的，即使在高投资者注意力期间，重新组合效应仍然存在。
- 其次，受实验中零售投资者对陈旧新闻更大的易感性的启发，我们检查了机构与零售订单失衡对旧闻和重新组合新闻的反应。我们提供了证据表明，零售交易（相对于机构交易）通常对旧闻有相对较大的反应，但对于重新组合新闻则较少。
- 第三，我们探讨了新闻情绪和模糊性（硬量化信息与软主观信息）如何影响我们的结果。我们发现，对于正面和负面新闻，我们的实证结果非常相似，并且在控制硬量化信息量的情况下依然稳健。
- 最后，我们利用大数据集的时间序列来调查记录的效果随时间的变化情况。我们分别对样本中的每个完整年份，从2001年到2014年进行了测试。系数的时间趋势表明，对于具有高水平（总体）旧闻的公司，异常每日回报逐渐变小。然而，对重新组合新闻的差异反应随着时间的推移而增加，公司新闻中额外10%为重新组合（而非重印）的系数从2001年的正5个基点效果增加到2014年的正24个基点效果。这些结果指向投资者在筛选简单重印方面的复杂性增加，但对重新组合之前可用信息的文章仍保持敏感。

我们的研究与越来越多的研究投资者在处理金融信息时的有限注意力对资产价格影响的文献相关联。特别地，受关联忽视理论（DeMarzo等人, 2003；Ortoleva 和 Snowberg, 2015）的启发，我们推测了一种特定类型的有限注意力，即市场参与者未能充分将来自多个来源的旧信息重新组合视为旧闻。

这建立在实验经济学的证据之上，表明人类主体在分析代表相同基础信号的不同组合的报告流时往往忽略关联性（Enke 和 Zimmermann, 2019），以及最近关于在可比定价中重复信息被过度权衡的证据（Murfin 和 Pratt, 2019）。

本文所记录的“重新组合效应”有助于解释几个先前研究强调的对旧闻的过度反应谜题。我们的文章揭示了可能导致对旧闻观察到的过度反应的那种注意力缺失，即未能识别之前可用信息的重新组合。

Huberman 和 Regev (2001) 提供了早期证据：1998年5月《纽约时报》头版的一篇文章，主要重复了五个月前的信息，却促使所报道公司的股价上涨了330%。
。Tetlock (2011) 在对旧闻的系统调查中观察到，当更多关于公司的新闻是旧闻时，绝对异常回报通常较低，但仍发现了对旧闻的过度反应证据。
Gilbert 等人 (2012) 的证据暗示了我们在本文中发展的机制：投资者对之前发布的输入数据重新组合成统计摘要形式的经济领先指标过度反应。

Experimental evidence

我们通过哈佛商学院校友网络招募了155名活跃的金融专业人士，参与了一项在2018年末和2019年初进行的在线实验。参与者涵盖了金融服务行业的全貌（其公司隶属关系列于互联网附录表A.1）。绝大多数参与者来自大型银行和经纪交易商（如高盛和摩根士丹利）、投资管理公司（如富达和道富银行）、私募股权公司（如贝恩资本和Lindsay Goldberg）、对冲基金（如Two Sigma和Point72）以及投资银行（如巴克莱和麦格理）。样本的剩余22%包括来自金融新闻机构（如《金融时报》）、保险公司（如Liberty Mutual）、政府机构（如联邦储备委员会）、咨询公司（如德勤）、私人投资者及大学或科技公司（如Facebook）的金融方向员工。样本中包括关键决策者，如合伙人和管理董事，也包括活跃的年轻员工，如投资组合经理和交易员。

每位参与者在实验中面对的是40个新闻标题流。这其中包括关于两个虚构公司之一的二十个标题，Argosy Logistics Inc. 和 Laker Pharmaceuticals LLC。每位参与者被独立随机分配到两个标题样本之一；在155名参与者中，76人被分配到Argosy新闻样本，79人被分配到Laker新闻样本。其余展示给参与者的二十个标题是关于其他公司的填充标题，旨在模拟市场参与者在消费真实世界新闻时可能面临的那种信息过载。

关于Argosy和Laker的个别标题代表了不同的信息内容。一些是新颖新闻，其中只有约20%的词汇出现在关于同一公司的先前标题中。其余的是旧闻，大约80%的词汇被关于同一公司的先前标题所覆盖。旧闻标题进一步分为两类：重印，其中大部分先前见过的内容来自于关于同一公司的单个先前标题；重新组合，则至少从两个之前的标题中抽取信息。

重要的是，实验环境允许我们在一个完全受控的环境中测试所提出的机制，我们设计了实验标题的措辞和排序，以确保标题除了它们的信息结构外，在任何维度上都不存在差异。两组实验标题（关于Argosy和Laker）特别设计为：

在三个组别（新消息、重印和重新组合）之间的平均长度相等；
重印和重新组合之间的平均顺序相等；
重印和重新组合之间的旧内容平均水平不可区分。

总体而言，在两个样本（Argosy和Laker）中，无论是重印还是重新组合，恰好有81.1%的词汇被关于同一公司的先前标题所覆盖。

在这里插入图片描述

例如，在实验的Argosy部分，参与者在实验开始时遇到了以下四个标题：

“Argosy的设计业务不佳，需回答一些棘手问题”
“Argosy Trucking第三季度业绩超出预期，每股收益1.2美元对比预期1.1美元”
“Argosy超出预期：第三季度运输业务每股收益较1.1美元增加0.1美元”
“Argosy第三季度盈利超出预期，但设计业务表现不佳”

标题3是标题2的直接重印，其中75%的文字已经出现在之前的内容中。标题4是一个重新组合：它也只包含了旧闻，82.5%的文字已在之前出现过，但它结合了标题1和2的内容。

例如，以下是关于虚构制药公司Laker的新颖标题示例：

“Laker再次发生丑闻，CFO Russell正应对不当行为指控”
“Laker股价暴跌，CEO George强硬驱逐Russell”
“Laker的AdventiMed在DP2治疗方面取得重大里程碑（PharmaToday）”

以下是一个重印上述标题2信息的例子：

“Laker CEO George采取强硬手段驱逐Russell，消息人士称”

相比之下，下面这个标题是一个重新组合：

“Laker CFO因DP2发布期间的丑闻离职”

标题按图1所示的方式依次呈现给参与者。每个标题显示在屏幕中央，旁边有一个标签，指示标题涉及的具体公司（如丰田）或主题（如世界新闻）。通过将实验集中于虚构公司（Argosy和Laker）的新闻，我们确保没有受到实验设置之外消费的任何新闻的污染。参与者对新颖性的感知通过标题下方的新颖性评分尺度来收集。我们使用了两种评分尺度设置：一个是七点尺度，范围从“毫无新意”到“完全新颖”（如图1所示），另一个是类似的五点尺度。

在这里插入图片描述

为了模拟金融专业人士在现实世界新闻环境中可能面临的认知超载情况，比如在彭博终端滚动浏览新闻，我们在每个问题上设置了时间限制。每位参与者被分配了恰好10秒的时间来标记每个标题的新颖性。标题上方有一个计时器显示剩余时间。一旦10秒结束，实验自动进入下一个问题。如果参与者在此时间内未做任何标记，则会收到一个弹出通知，告知其错过了该问题；错过超过三个问题将导致资格取消。

参与者被激励尽可能准确地检测新颖性：回答最符合文章实际新颖性的五位参与者将获得50美元的奖金。整个调查耗时七分钟完成，所有参与者都获得了10美元的礼品卡作为对其参与的感谢。（正是因为这段话，我发现了这篇的作者是那个FP SI的作者Fedyk，因为之前那篇也是10美元的礼品卡。）

Results

表2中的结果显示，总体而言，参与者正确地识别出新文章比重新组合或重印包含更多新的信息，但参与者对信息重新组合的敏感度高于直接重印。如表2的面板1所示，平均来说，新文章在七点尺度上的新颖性评分为4.52，在五点尺度上为3.84。无论是重新组合还是重印都被认为包含明显少于其新颖对应物的新信息，但重新组合的一致评分高于重印。平均来说，重印的新颖性评分是7分中的2.61（5分中的2.40），而重新组合的评分为7分中的3.03（5分中的2.63）。

在这里插入图片描述

图2中的个体水平结果显示，与汇总分析的发现一致。我们分别计算了样本中每位金融专业人士对重新组合相对于重印的平均响应差异。图2的面板1展示了七点新颖性尺度调查设计下这些个体水平差异的分布，而面板2则呈现了五点尺度下的个体结果。中位数差异为七点（五点）尺度的0.40（0.20）分。68%的参与调查的金融专业人士的差异为正，意味着68%的参与者认为重新组合在平均上比重印更新颖。相比之下，只有19%的参与者对重印评价更高，而13%的参与者认为两组新闻同样新颖。

在这里插入图片描述

为进一步提供背景信息，在内部附录表A.5中，我们对通过在线调查平台Cint招募的776名零售投资者重复了使用五点尺度的实验；527名受访者完成了整个调查。总体而言，零售投资者比机构投资者更容易受到陈旧新闻的影响，这与其较低的专业水平以及Tetlock (2011)的证据相一致。零售投资者对新消息的新颖性评分平均为5分中的3.51分，略低于机构投资者的3.84分。然而，他们错误地将重印和重新组合都标记为相当新颖，分别为5分中的3.30分和3.36分（相比之下，机构投资者对这两者的评分分别为2.40分和2.63分）。这些结果突出了两个模式：

零售投资者比机构投资者更容易受到陈旧新闻的影响，甚至将简单的重印误认为是新的；
零售投资者对重新组合新闻的敏感度与对重印新闻的敏感度之间的差异仍然统计显著

在这里插入图片描述

Hypothsis

从概念上讲，市场参与者对旧闻（即之前可用信息的重新组合）的敏感性应导致市场对重新组合新闻产生更大的反应，随后这些反应会反转。基于我们的实验证据，我们正式提出了关于资产价格和交易量的实证预测。

假设1：相较于新消息，旧闻与较低的交易量和新闻发布后立即出现的绝对价格变化相关联。
- 实验结果表明，金融专业人士确实认为新信息平均来说比重印或重新组合的旧闻更新颖。这意味着旧闻文章在发布时应该引起较小的市场反应。
假设2：在旧闻中，重新组合的文章与新闻发布后立即出现的更大交易量和绝对价格变化相关联，而这些都高于重印文章。
- 关键在于重新组合机制，市场参与者认为具有相同长度、相对位置和实际旧内容量的重新组合标题比重印标题更具有新颖性。
假设3：对旧闻的初始反应容易受到后续反转的影响。具体而言，在新闻发布后的几天或几周内：
1. 旧闻之后的初始价格变动比新消息后的初始价格变动有更多的反转。
2. 重新组合文章之后的初始价格变动比重印文章后的初始价格变动有更多的反转。

data

Source

最终样本覆盖了2000年1月至2014年12月期间彭博新闻数据发布的超过1700万篇新闻文章。主要来源于三个类别：

由彭博直接撰写和发布的新闻（约占样本的10%）
来自合作伙伴新闻机构的关键国家和国际新闻专线（60%的样本）
来自网络资源的内容，包括地区和地方新闻、博客和社交媒体（剩余的30%）

近年来，通过彭博终端的文章数量达到了每天约100万篇，比其他类似服务大数倍。

数据筛选条件，为了利用广泛的覆盖范围同时减少噪音，我们在用于分析的新闻上施加了几项条件：

证券代码标签：通过彭博终端的金融新闻文章被明确地标记了证券代码，无论是手动还是通过基于规则的算法。我们将样本限定为标记有对应于美国交易股票的证券代码的新闻文章，并排除价格低于5美元的股票以最小化微观结构效应。这大约留下了每天29,500篇新闻文章。
相关性筛选：我们专注于那些根据彭博的相关性标签特别相关的文章。大多数文章被标记了多个证券代码，之前的研究使用间接的相关性代理，例如将样本限制为标记有一个或两个证券的文章。彭博的明确相关性标记提供了一种更直接的方式筛选相关文章。对于每个文章-证券链接，彭博数据库包括一个相关性评分（通过手动或基于规则的算法分配）。我们的分析样本包括所有至少对一个美国交易的股权证券具有70%以上相关性的新闻文章。对于那些对多个证券被认为至少70%相关的文章，我们包括所有相关性达到70%或以上的证券标签。这将样本限制到每天大约4,000篇新闻文章，每篇文章平均链接到1.3个证券。
1. 相关性评分为90%左右的文章高度聚焦于标记的证券，讨论该证券的收益、产品或策略；
2. 70%左右的相关性评分表示文章与该证券的关系稍远但仍相关，例如可能讨论公司的主要竞争对手；
3. 而50%左右的相关性评分则表示文章与所涉证券只有边缘关联。

Old news

对于样本中的每篇文章 s，我们首先提取文章文本中的唯一词（unigrams），排除停用词（如“a”，“the”，“in”，“when”等常见词汇），并使用Porter (1980)的标准词干算法将所有词转换为唯一术语（例如，“earned”和“earnings”都被表示为“earn-”）。我们使用范数 $∣∣⋅∣∣$ 来表示一组文章中唯一术语的数量。例如， $∣∣s_1\cap s_2∣∣$ 表示同时出现在 $s_1$ 和 $s_2$ 中的唯一术语数量。

我们通过每篇新闻文章在多大程度上被先前的文章所覆盖来衡量其旧内容。对于每个标记有公司 i 的文章 s，我们查看同样标记有 i 并且在 s 发布前最多三天（72小时）内发布的所有文章 s' 。我们识别出五个先前的(最接近的)文章${s_1', \ldots, s_5'}$，它们各自覆盖了 s 中最大的术语比例，并定义 s 包含旧信息的程度为： $$ Old(s)=\frac{||s\cap(\cup_{i=1}^{5}s_{i}^{\prime}(s))||}{||s||}, $$ 这里 Old(s) 表示文章 s 中被先前五篇文章覆盖的唯一术语占总唯一术语的比例。

我们的旧内容度量方法与Tetlock (2011)引入的方法类似，但有一个关键创新点。我们不是将旧内容定义为新进文章 s 与最接近的先前关于同一家公司的文章的平均交集，而是考虑先前文章整体覆盖 s 的百分比。这意在区分以下情况：

文章 s, s'和 s''在它们的开头段落中都涵盖了一些关于公司的背景信息（占其文本的50%），但除此之外讨论的是完全不同的事实；
文章 s 和 s'涵盖了完全相同的信息（100%的交集），而 s''与 s 完全没有交集。

在这种情况下，如果使用平均交集指标，s 将被认为在这两种情况下都是同等陈旧（50%），即使在第一种情况下它包含了新的信息，而在第二种情况下则完全没有新的信息。基于整体覆盖术语百分比的指标避免了这个问题。

Reprints and recombinations

图4展示了分类的方法：

每个面板显示了一篇新闻文章 s（以深灰色表示），以及 s 的内容在五个最接近的文章${s_1', \ldots, s_5'}$中已经出现的部分（用实线或斜线填充的灰色标记）。
底行显示了$\cup_{i=1}^5 s_i(s)$，并同样用斜线填充灰色标记与 s 交集的内容。这最后一行捕捉了由公式(1)给出的旧信息度量：s 的内容已经在关于同一公司的五个最相似的先前文章中的至少一个中出现的比例。在这两个面板中，旧信息度量 Old(s) 均为90%，但这两个案例非常不同。

在这里插入图片描述

图4的上部面板展示了一个重印案例：s 几乎是 $s_1(s)$的精确复制，用实线阴影强调这一点。
相比之下，在下部面板中，没有单篇先前的文章能够覆盖超过一半的 s 的内容；相反，s 是 $s_1(s)$和 $s_2(s)$的重新组合（其与 s 的交集也用实线阴影突出显示）。

所以我们通过查看每篇文章s的内容被其单个最近邻$s_1'(s)$覆盖的程度来区分重印与重新组合： $$ CloseNeighbor(s) = \frac{\max_{s'}∣∣s\cap s'∣∣}{∣∣s∣∣} = \frac{||s\cap s_1'(s)||}{∣∣s∣∣} $$

我们分两步对每篇文章进行分类：

判断是否为旧闻：首先，如果一篇文章至少60%的文本已经在关于同一公司的五个最接近的先前文章中出现过，则将其分类为旧闻。
确定是重印还是重新组合：对于每个分类为旧闻的文章，我们考虑该文章的旧内容中有多少是由单个最近邻覆盖的。如果这一比例高于80%，则我们将该文章分类为重印（用指示变量 Reprint(s) 表示）；如果这一比例低于80%，则该文章被视为重新组合（用指示变量 Recombination(s) 表示）。

在这里插入图片描述

distribution of Old(s)

图3的面板1展示了旧内容度量的分布。大约40%的文章几乎完全（90%或更多）由关于同一公司的先前新闻所覆盖。另外30%的样本分布在60%-90%的先前覆盖率之间，其余部分至少有40%的新颖内容。非常少的文章旧内容低于10%，因为即使是关于同一证券的不相关新闻文章也可能共享常用词汇。

图3的面板2展示了 ClosestNeighbor 度量的分布。有许多文章几乎所有的词都出现在单个最近邻中（捕捉到精确的重印），还有大量文章大约一半的词出现在单个最近邻中（潜在的重新组合）。

在这里插入图片描述

descriptive statistics

表4的前三个列提供了文章级别的汇总统计。我们统计了整个样本及样本中每年的平均唯一术语数量、被分类为旧闻的文章百分比、以及被分类为重新组合的文章百分比。在十四年的样本期内，随着新闻总量的增加，连续的文章级别度量 Old(s) 和 ClosestNeighbor(s) 稳步上升，这使得市场识别新颖内容的任务更加复杂。

我们将单篇文章级别的分类汇总到公司日（firm-day）层面。对于每个公司在日期 t，$PrcOld_{i,t}$ 表示在日期 t 标记为公司 i 的新闻文章中被认为是旧闻的文章比例，而 $PrcRecombination_{i,t}$ 则表示被标记为重组内容的文章比例。表 4 的最后两列显示了这两个公司层面测量值在整个样本期间的平均值，并按样本中的每一年分别列出。

在这里插入图片描述

为了过滤掉特定公司新闻流量对公司层面旧信息和重组信息测量值的影响，对于两个测量值（$PrcOld_{i,t}$ 和 $PrcRecombination_{i,t}$），我们从每日横截面回归中获取残差，这些回归将测量值与公司在日期 t 的文章数量的对数、每篇文章独特术语平均数量的对数以及该对数值的平方进行关联。这导致了 $AbnPrcOld_{i,t}$ 和 $AbnPrcRecombination_{i,t}$ 的产生，它们分别捕捉异常的旧内容比例和重组内容比例。

具体来说，对于每一天 t 和每个公司 i，我们对两个测量值分别进行横截面回归。设 $y_{i,t}$为因变量，这里指的是 $PrcOld_{i,t}$ 或 $PrcRecombination_{i,t}$ 中的一个；$X_{i,t}$用是公司在日期 t 的文章数量的对数、每篇文章独特术语平均数量的对数及平方项进行回归； $$ y_{i,t} = \beta_0 + \beta_1 X_{i,t} + \epsilon_{i,t} $$

得到回归的残差项就是$AbnPrcOld_i,t$ 和 $AbnPrcRecombination_i,t$，用原文的话讲，它们分别捕捉了异常比例的旧内容和重新组合内容。

Empirical results

Market reactions to old news（假设1）

我们从分析旧闻和重新组合新闻内容如何与市场活动指标——异常交易量和回报——相关开始实证分析。为了增强与先前文献的可比性，我们遵循Tetlock (2011)设定的经验方法，并估计Fama和MacBeth (1973)回归，将每日异常回报和成交量与每日旧闻度量进行对比： $$ |AbnRet|_{i,t}=a+b_1AbnPrcOld_{i,t}+b_2AbnPrcRecombination_{i,t}+gX_{i,t}+e_{i,t}\ AbnVol_{i,t}=\alpha+\beta_1AbnPrcOld_{i,t}+\beta_2 AbnPrcRecombination_{i,t}+\gamma X_{i,t}+\varepsilon_{i,t} $$ 其中$|AbnRet|_{i,t}$表示公司 i 在日期 t 的异常回报绝对值，计算为公司 i 在日期 t 的回报与我们在样本中所有公司在日期 t 的价值加权指数回报之间的差值。$AbnVol_{i,t}$是公司在日期 t 的异常交易量，定义为公司 i 在日期 t 的换手率与其在样本中所有公司的换手率的价值加权平均之差。控制变量$X_{i,t}$包括

公司每日新闻数量
前一周相对于前三个季度的异常新闻数量
平均文章长度
市值对数
账面市值比
前一周的累积异常回报
前一周的平均异常交易量
相对于样本中所有公司的价值加权平均波动率的前一周异常波动率
前一周的Amihud (2002)流动性度量的对数

表5展示了公式(3)和(4)的回归结果，分别列于第2和第4列。系数反映了市场对总体旧闻特别是重新组合相对新颖新闻的差异反应。系数估计被缩放以对应 AbnPrcOld 和 AbnPrcRecombination 度量增加10%的效果。表中显示

一般而言，市场对旧信息的反应小于对新信息的反应（预测1）。
- 关于公司 i 的额外10%的新闻被认为是旧闻，对应的绝对异常回报减少了11个基点，异常交易量降低了0.08%。换句话说，从最低四分位数的旧内容到最高四分位数的变化，大约相当于绝对异常回报降低30个基点(11.5 x 2.6=29.9)，交易量降低0.20%（因为根据表4，旧闻度量的四分位距为26%）。
处理更复杂旧闻重新组合的困难意味着市场对重新组合的反应大于对重印的反应（预测2）。
- $AbnPrcRecombination$的正系数表明，在保持总体旧闻不变的情况下，当旧闻主要由重新组合文章而非重印文章构成时，市场的反应更为强烈。额外10%的重新组合（而非重印）旧闻对应着额外18个基点的绝对异常回报和额外0.09%的异常交易量。
- 结合$AbnPrcRecombination$和$AbnPrcOld$的系数，我们可以看到，在其他条件相同的情况下，如果一家公司在某一天有额外10%的重新组合新闻，它平均会经历6个基点更大的绝对异常回报（0.176% - 0.115% = 0.061%）。这表明市场对重新组合新闻的反应非常强烈，可能甚至超过对新颖新闻的反应。

在这里插入图片描述

最后值得注意的是，两个因素可能会对我们的结果产生偏差。

首先，偶尔的新闻文章（尤其是突发新闻）可能会在后续文章中收到更新。这样的更新会被分类为新颖新闻（如果新增信息占内容的40%以上）或原始故事的重印（如果原始故事占内容的60%以上）。这可以通过错误分类新信息为重印来对抗我们的结果。(高估重印，低估系数)
其次，重新组合新闻往往由质量略低于重印和新颖新闻的来源发布，尽管差异非常小。在彭博五级评分体系中（1为最佳，5为最差），发布新颖新闻、重印新闻和重新组合新闻的来源的平均排名分别为2.28、2.26和2.35。

这些因素表明，表5中 AbnPrcRecombination 的估计系数可能是下限。

Return reversals（假设3）

前述结果确认了市场对信息重新组合的反应比直接重印更为强烈。但这些更强的反应是否反映了过度反应呢？

第2节的实验结果显示，投资者在处理重新组合新闻时存在不完善：由于这些新闻文章结合了来自多个来源的旧信息，即使在所有其他关于新闻标题的条件相同的情况下，它们也比简单的重印更难被识别为旧闻。然而，在彭博终端的非实验环境中，重新组合的新闻并不是随机分配的，而且将两个或更多事实组合成一篇文章的选择可能是由特别值得强调的微妙联系和连接触发的。这样的重新组合新闻通过并置预先存在但未充分注意到的信息，从而促进信息处理，发挥了宝贵的功能。例如，在专利创新中已经发现了这种情况（Hirshleifer et al. (2018)）。在这种替代情况下，对重新组合新闻的反应构成了对重要见解的正确反应，而不仅仅是对之前见过的旧闻的过度反应。

我们的目标不是证明所有的重新组合新闻文章都没有价值，而是量化市场对重新组合中旧内容的过度反应。如果对重新组合新闻的反应是有理由的，那么我们应该观察不到随后的反转。为此，我们估计以下模型： $$ AbnRet_{i,[t+t_{1},t+t_{2}]}=\alpha+\beta_{1}AbnPrcOld_{i,t}+\beta_{2}AbnPrcOld_{i,t}\times AbnRet_{i,t}+\beta_{3}AbnRet_{i,t}+ \ \delta_{1}AbnPrcRecombination_{i,t}+\delta_{2}AbnPrcRecombination_{i,t}\times AbnRet_{i,t}+\gamma X_{i,t}+\varepsilon_{i,t}, $$ 其中$AbnRet_{i,[t+t_{1},t+t_{2}]}$表示公司在日期区间$[t+t_{1},t+t_{2}]$内的有符号异常回报，而$AbnRet_{i,t}$表示公司在日期t的有符号异常回报。我们关注Tetlock (2011)所使用的延迟窗口$[t+2,t+5]$但也考虑$[t+1,t+5]$和$[t+2,t+10]$

上式评估了

市场对一般旧内容的反应在后续交易中反转的程度。
- 第一个交互项的系数 $\beta_2$捕捉了在更大份额的（每日）旧闻后的异常回报反转程度与较低份额旧闻后的回报反转程度之间的差异。如果有任何对简单重印旧信息的过度反应， $\beta_2$应该是负数。
这些反转在多大程度上是由重新组合新闻驱动的。
- 第二个交互项的系数 $\delta_2$测量了在较大份额的重新组合新闻（而非直白的重印）之后的差异反转。预测3认为这个系数应该是负数，表明前一子部分记录的对重新组合新闻的更大反应反映了随后反转的市场过度反应

在这里插入图片描述

表6的结果显示，两个交互项的系数在所有规格中均为负且统计显著。例如，比较第2列中$AbnPrcOld_{i,t}和AbnPrcOld_{i,t}\times AbnRet_{i,t}$的系数可以发现，当一家公司在某一天额外的10%的新闻是旧闻时，该公司下一个交易日的回报在$[t+2,t+5]$期间会经历三倍大的反转。相对于样本中每日价格变动的基准大小（1.15%），这意味着额外的10%的旧闻系统地预测了$[t+2,t+5]$期间相反方向的11个基点的回报。

最重要的是，跟随重新组合新闻的增量反转的估计系数$AbnPrcRecombination_{i,t}\times AbnRet_{i,t}$始终为负、经济意义上显著且统计显著。实际上，对重新组合新闻的额外反转在经济和统计上都比一般旧闻后的基准反转更为明显。某一天额外的10%的重新组合新闻平均预测了$[t+2,t+5]$期间相反方向的16个基点的回报。

回想一下，重新组合新闻的初始（次日）效应是18个基点(0.176%)，这意味着对重新组合新闻的额外反应（相对于重印）在接下来的一周内完全反转。将这些结果前面的发现结合起来，我们看到对重新组合的反应不仅比对重印的反应更强，而且随后也会反转——这与市场对重新组合旧闻的过度反应相一致。

Additional analyses

The role of investor attention

我们考察当投资者整体上对新闻的关注度较低时，对陈旧和重新组合新闻的过度反应是否更强。

我们使用彭博终端提供的每日投资者关注度衡量指标，该指标在Ben-Rephael等人（2017）中详细描述。此度量（在彭博终端上称为“新闻热度——每日最大读者数”）是在证券-日级别上基于特定证券的八小时新闻阅读和搜索次数的日最大值。该度量取值范围为0到4。大多数证券-日的基础值为0，表示当天内没有八小时期间的关注度排名高于该证券过去30天的第80百分位。值为1、2、3和4分别分配给那些最大八小时计数排名高于第80、90、94和96百分位的证券-日。我们将样本分为两个子样本：一个子样本包含值为0的证券-日（无关注度峰值，占所有证券-日的61%），另一个子样本包含值为1及以上的证券-日（至少有一些关注度峰值，占所有证券-日的39%）。

在这里插入图片描述

面板1的结果显示，当投资者关注度高时，市场对陈旧新闻的反应远小于对新颖新闻的反应。例如，总体陈旧内容增加10%，在投资者关注度高时对应的绝对异常回报降低了16个基点，而在投资者关注度低时仅降低了9个基点。
面板2显示，当投资者关注度高时，与陈旧新闻相关的初始回报反转也较少。这些结果与增加的投资者关注度有助于减轻对陈旧新闻的部分过度反应一致。

有趣的是，没有证据表明随着投资者关注度的增加，重新组合效应会减弱。在面板1中，与重印相比，重新组合关联的差异回报尤其是交易量在高投资者关注度的子期间更高。在面板2中，与重新组合相关的回报反转在高关注度子样本中较低，但这种差异不显著。

总体而言，表7中的综合结果表明，增加的投资者关注度有助于减轻对陈旧新闻的过度反应，但这主要是由于更好地筛选出简单的重印。

Retail and institutional investors

我们考虑结果在散户和机构投资者之间的变化。一般来说，认知偏差在散户投资者中比机构投资者更明显，包括对陈旧新闻的过度反应（Tetlock, 2011）。我们的实验结果也表明，散户投资者在识别新颖新闻方面存在更大的困难。我们通过两种方式考察这个问题。

第一：基于零售与机构所有权分割样本

我们根据零售与机构所有权将样本分为两部分。从NASDAQ收集了公司级别的机构投资者所有权数据。样本中位数公司的78%由机构持有。

在这里插入图片描述

面板1 显示，在机构所有权较低的股票中，陈旧新闻与较大的市场反应（绝对回报尤其是交易量）相关联。实际上，在低机构所有权的股票中，新闻陈旧度似乎并未减少交易量（系数为-0.002%，且统计不显著）。相比之下，重新组合新闻的程度与市场活动之间的关系在这两个子样本中相似。
面板2 显示，在低机构所有权子样本中，与陈旧新闻相关的回报修正（反转）略多，但在高机构所有权子样本中，与重新组合新闻相关的回报修正略多。总体而言，这些结果确认了机构投资者在筛选出简单重复方面更为擅长，但即使是他们也容易受到更复杂旧闻重新组合的影响。

第二：直接评估每日机构与散户订单不平衡（IROI）

附录表A.6直接评估了每日机构与散户订单不平衡（IROI）。我们根据Bushee等人（2020）的方法，在NYSE Trade and Quote数据库（TAQ）中确定至少5万美元规模的交易为机构交易。根据Boehmer等人（2021）的方法，如果交易具有“D”代码的TAQ交易所代码并且价格略高于或低于整数美分，则认为是散户交易。

表A.6第1列考虑了IROI的汇总度量：机构交易股数减去散户交易股数，然后除以两者之和。第2列专注于买方发起的交易，而第3列考虑卖方发起的交易。每个度量都相对于公司级别的平均值进行了调整，以考虑到散户投资者可能对某些股票的偏好倾向。

在这里插入图片描述

结果显示，在某一天总体陈旧新闻内容增加10%，对应着机构-散户订单不平衡（IROI）减少了0.656个百分点。重新组合新闻与重印相比，与略微（统计不显著）更高的IROI相关。总体来说，散户投资者更急于对重印作出交易，而对于重新组合，这种分歧显得较小。

News sentiment and ambiguity

我们采用Fedyk (2021)的方法来测量新闻情绪和模糊性。具体来说，人类专家手动标记了10,000篇新闻文章，分为正面、负面或中立，并且标记为硬信息或软信息。这些文章被表示为特征向量，包括故事长度、涵盖的主题、特定单字、双字和三字组合的指示器、句法复杂性以及特定句法结构和语义关系模式的指示器。我们使用机器学习方法——支持向量机（Cortes和Vapnik, 1995）——根据从训练数据中学到的属性对其他新闻文章进行分类。

情绪被分类为三个类别：正面、负面和中立。

模糊性是一个从0（最直接）到1（最模糊）的连续度量。模糊性得分是两个组成部分的平均值：

该方法识别文章情绪的信心程度（即文章离其情绪类别的分离超平面有多远）
文章是否被分类为硬信息，这与该分类的信心交互作用。

例如，关于收益报告包含硬数字的文章被分类为直接信息(0)。相比之下，讨论员工满意度的文章可能被分类为模糊信息(1)。

如果一些重新组合的文章结合了多个之前具有对立情绪的文章（例如将关于某公司的正面和负面新闻并置），那么新闻情绪可以以重要方式与重新组合效应互动。然而，实证上并不是这种情况。

在59.4%的情况下，重新组合来自两篇情绪相同的文章（都是正面、都是负面或都是中立）
而在34.2%的情况下，重新组合混合了一篇有立场的故事（正面或负面）与一篇中立的故事。
只有6.4%的情况反映了重新组合来自一篇正面和一篇负面的文章。

在表9中，我们基于新闻情绪分割样本。对于样本中的每个股票代码-日期，我们计算当天发布的关于该股票代码的新闻的平均情绪。我们将平均情绪为正面的股票代码-日期分类为“好消息”，而其余的则分类为“坏消息”。结果显示，在好消息和坏消息子样本中非常相似。系数估计在好消息子样本中略大，但差异不显著。总体而言，新闻情绪似乎不是我们结果的重要因素。

在这里插入图片描述

在互联网附录的表A.7中，我们纳入了对新闻模糊性的控制。对于每天的每只证券，模糊性被测量为当天标记该证券的文章的模糊性得分的平均值。结果与表5和表6报告的基本结果非常相似，当日回报和成交量的系数稍强，而回报反转的系数稍低。

在这里插入图片描述

总体而言，我们的发现与好消息和坏消息一致，并且在控制每只证券新闻中的硬量化（明确）信息量时是稳健的。

Time series of the effects

我们调查了越来越 sophisticated 的套利者是否减弱了对重新组合新闻的反应。利用我们彭博终端数据的长时间跨度，我们通过考虑估计系数的时间序列来研究对旧闻和重新组合新闻的价格反应动态。具体来说，我们在样本中的每一年单独重新估计(假设1)回归。得到的系数绘制在图6中，用实线表示，并用虚线标记95%置信区间。

在这里插入图片描述

对旧闻的一般市场反应变化

如图6的面板1所示，从2001年到2014年，市场对旧闻（相对于新新闻）的反应有所下降。例如，2001年某公司一天内额外的10%新闻内容为旧闻对应的是统计不显著的4个基点的绝对异常回报减少；而2014年，同样比例的旧闻则转化为精确估计的14个基点的绝对异常回报减少。这与自然语言处理技术的进步使得金融专业人士更容易筛选出基本重复的内容（如旧新闻的直接重印）相一致。

对信息重新组合的差异反应随时间增加

相比之下，对信息重新组合（相对于重印）的差异反应随着时间推移而增加。图6的面板2显示，在样本期间的十四年中有十一年中，控制总体旧闻后，绝对异常回报与AbnPrcRecombination度量之间的关系在5%水平上是正向且显著的。
在样本的后半段，对重新组合新闻的更大绝对异常回报的经济意义和统计意义都有显著提高。虽然这一效应在2001年与0统计不可区分，但到了2014年，某公司额外10%的新闻包含重新组合文章（而非简单重印）对应的是24个基点更大的绝对异常回报，且在1%水平上统计显著。
算法筛选工具可能放大了对重新组合与重印的市场反应差异，这些工具通常应用于文章的成对比较的局部敏感哈希（Petrović等人，2010），旨在将重印与原始新闻归为一组。然而，它们不会经历识别重新组合所需的多步骤程序，因为它们倾向于优先考虑速度而非复杂性，以便更快地实时处理。

Robustness

为了确保研究结果的可靠性，我们进行了多方面的稳健性测试

异常回报调整
- 首先，我们重复了同日异常回报、同日交易量和随后回报反转围绕陈旧新闻和重新组合新闻的基础测试。不是使用简单的异常回报，而是按照Daniel等人（1997）的方法计算特征调整后的回报。互联网附录表A.8显示，我们的结果在这种设定下依然稳健。
测试规格选择的敏感性
- 我们考虑了给定文章的过去三个工作日内关于同一公司的五个最相似的文章。为了测试这种规格中任意选择的稳健性，我们变化了：(i) 回顾窗口到过去的5个和10个工作天；(ii) 考虑的最相似文章数量（n）增加到10篇；(iii) 加入最低限度限制，即只考虑实际在过去τ天内至少有n篇文章的公司-日期。这些不同构造方法的结果展示在互联网附录表A.9（针对同日绝对异常回报和交易量）和互联网附录表A.10（针对回报反转）。结果显示，无论采用哪种构造方法，结果都具有统计显著性，并且经济估计值也对规格稳健。
- 有趣的是，当允许相似新闻发生在更远的过去时（t=5和t=10），结果并没有减弱。这与关于记忆和联想回忆的实验证据一致。Enke等人（2020）研究了重复信号（对应于我们设置中的直接重印）并展示了触发通过类似情境线索回忆过去信号的过度反应。他们的效应不会随时间衰减，并且当初始信号和重复之间的时滞从15分钟增加到三天时，该效应会增强。
连续测量旧闻和重新组合内容
- 我们确认结果对基于每篇文章的旧闻和重新组合内容的连续测量而非离散分类的方法是稳健的。对于每个公司在某一天的所有文章，我们计算公司级别的度量$ExtentOld_{i,t}$ 和$ExtentRecombination_{i,t}$，分别取$S_{i,t}$ 中所有文章的平均值。具体公式为： $$ ExtentOld_{i,t}=\frac{1}{|S_{i,t}|}\sum_{s\in S_{i,t}}Old(s) \ ExtentRecombination_{i,t}=\frac{1}{|S_{i,t}|}\sum_{s\in S_{i,t}}(Old(s)-ClosestNeighbor(s)) $$
- 我们同样计算这两个度量的异常值$AbnExtentOld_{i,t}$ 和$AbnExtentRecombination_{i,t}$，通过每日横截面回归的残差计算，并将连续变量标准化为均值为零，标准差为一。互联网附录表A.11列出了使用$AbnExtentOld_{i,t}$ 和$AbnExtentRecombination_{i,t}$ 度量的异常回报和交易量（面板1）及回报反转（面板2）的结果。面板1的结果与表5一致，而面板2的结果可与表6相比较。
剩余新颖内容质量的系统差异
- 最后，我们探讨了第4节记录的市场反应差异是否反映了重新组合与重印中剩余新颖内容质量的系统性差异。由于重新组合和重印都是旧闻的子集，我们定义旧闻为文本内容至少60%被最近关于同一公司的文章覆盖的文章。因此，这些文章可能包含最多40%的新颖文本。如果两个具有相同旧内容量的文章，一个是重新组合，另一个是重印，有可能重新组合文章在其新颖部分更可能包含重要信息。
- 我们通过两种方式处理这种可能性：
  - 第一，第4.2节的回报反转结果与重新组合的反应源自优越内容的说法不一致。(口头处理？)
  - 第二，作为额外检查，我们仅使用实际上几乎没有新颖内容的旧闻文章重复主要测试。特别地，我们将文章重新分类为新新闻、重印和重新组合，使用90%而非60%的旧内容阈值。表9展示了绝对异常回报和交易量（面板1）以及回报反转（面板2）的结果。尽管因为大幅度限制旧闻集合而导致统计功效降低，但面板1的结果在大小和显著性上与其在表5中的对应结果相似，并保持统计显著性。同样，表9面板2记录的回报反转与表6中的记录可比。结果对几乎无新颖内容的新闻文章样本的稳健性证实，剩余新颖内容的差异并不是驱动我们实证结果的因素。

在这里插入图片描述

Conclusion

本文揭示了即使是高度精明的投资者，由于注意力有限和忽视媒体来源之间的关联，也容易受到金融新闻中重复信息的影响。直接重印单个先前文章信息的新闻文章很容易被识别为旧闻，而结合来自多个地方的信息的文章则更难与新颖信息区分开来。

我们在一项随机对照试验中直接对包括高盛、PIMCO和Two Sigma等大型银行、投资管理公司和对冲基金在内的关键金融机构的金融专业人士进行了研究，记录了这一现象。

投资者在处理复杂信息结构上的认知困难对资产价格有直接影响。通过使用彭博终端通过的新闻独一无二的综合数据库，我们确认市场对重新组合文章的反应显著大于简单重印，且这些额外反应会在接下来的一周内反转。

重新组合效应非常稳健，在各种实证规格下结果一致，并且普遍存在于不同的新闻情绪和模糊性之中。
此外，与简单重印不同的是，即使是在机构投资者之间以及在投资者关注度高的时期，对重新组合的易感性仍然明显。
最终，估计系数的时间序列表明，重新组合效应随着时间的推移而增强，这表明投资者在识别重印方面变得越来越精明，但对旧信息重新组合仍然易感。

我们的发现揭示了驱动如旧闻的价格响应等异常现象的认知局限类型。我们认为，进一步理解认知偏差和局限性及其如何影响市场稳定性和效率，是未来工作的富有成效的方向。

When can the market identify old news?

﻿When can the market identify old news? -- 论文阅读

Abstract

Introduction

Question

Main Findings

Experimental evidence

Results

Hypothsis

data

Source

Old news

Reprints and recombinations

distribution of Old(s)

descriptive statistics

Empirical results

Market reactions to old news（假设1）

Return reversals（假设3）

Additional analyses

The role of investor attention

Retail and institutional investors

News sentiment and ambiguity

Time series of the effects

Robustness

Conclusion

When can the market identify old news? -- 论文阅读