Front-Page News: The Effect of News Positioning on Financial Markets

作者: pdnbplus | 发布时间: 2024/12/20 | 阅读量: 279

Abstract

本文利用彭博终端上新闻文章显要(“头条”)位置的外生变化,估计了新闻位置对价格发现速度的影响。头条文章在发布后的头10分钟内的交易量比同样重要的非头条文章高出240%,绝对超额回报率高176%。总体而言,头条文章中的信息在发布后的一个小时内完全融入价格。对于重要性相似的非头条信息,市场反应最终会趋同,但需要超过两天的时间才能完全反映在价格中。

Introduction

在介绍之前 先把这三类新闻的定义列出来:

FP(front-page):头条新闻

  1. PI(primary important):主要重要的新闻(总是位于头条)
  2. SI(secondary important):次要重要的新闻
  3. FP-SI:在头条位置的次要重要的新闻

Question

媒体传递信息的方式在多大程度上影响价格发现过程?在经典的高效市场中,媒体对新闻的呈现和定位不应该产生影响,信息无论以何种形式呈现都应该有效地反映在价格中。然而,越来越多的证据表明,媒体可能在金融信息的传播方式上扮演着角色,影响市场效率,并促成过度波动、泡沫以及回报率的过度或反应不足。

Experimental design

本文利用了彭博终端新闻屏幕上对于头条位置的物理限制,该屏幕有三个突出显示(“头条”)的位置。由于头条位置数量有限,大多数新闻项目并未固定在这些位置,而是出现在下方的滚动屏幕中。为了分配头条位置,彭博会将一小部分新闻文章标记为“主要重要”(PI)和“次要重要”(SI)。

  • PI文章总是位于头条
  • 特定SI文章是否位于头条取决于同时期PI文章数量的外生变化

通过比较被固定到头条的SI文章与未能登上头条的SI文章的市场反应,我识别了新闻定位的因果影响。鉴于彭博将所有SI文章均标记为同等重要,这一实证设计使我能够控制新闻的重要性,并专注于新闻定位的效果。

在这里插入图片描述

上图的两边都描绘了可用于固定新闻文章到头条的三个位置,这些文章可以在那里停留一段时间。所有其他新闻文章则出现在这些显眼位置下方的滚动屏幕上,并在几秒钟内滚动出页面。任何时刻获得头条位置的SI文章数量取决于最近PI文章的数量,后者优先占据这些位置。

在图的左侧,有一篇PI文章被固定,留出空间给两篇SI文章展示在头条;而在右侧,有两篇PI文章被固定,只留下一个空间给下一篇文章——无论是哪一篇SI文章最先发布。由于SI新闻的内容与同期PI新闻是否留下了头条位置无关,头条与非头条SI新闻之间的比较构成了因果分析基础。

Main findings

  1. 为了评估新闻定位效果的基准,我考虑了市场对PI新闻与头条SI新闻的反应差异(这两组新闻文章的位置相同但重要性不同)。在发布的前10分钟内,PI新闻文章引发的绝对超额回报率比头条SI新闻高出35个基点(相当于相对增加了56%),并且股份周转率高出了0.11%(同样是一个相对增加56%)。在最初的10分钟后,没有额外的差异,并且即使在10天后,对于PI新闻的差异化反应仍然在经济上相似且统计上显著。这些有关实际新闻重要性差异的市场反应证据为比较定位效果提供了有用的背景。
  2. 主要分析集中在市场对头条与非头条SI新闻的不同反应上。主要发现是,即使控制了新闻的重要性,新闻定位对信息反映到价格的速度有重大影响。在发布后的10分钟内,头条SI新闻文章导致的绝对超额回报率比非头条SI新闻高出37个基点(相对增加了176%),并且股份周转率高出了0.12%(相对增加了240%)。与新闻重要性的影响相比,市场对新闻定位的即时反应在绝对值上是类似的,但在相对增加幅度上更大且统计上更显著。在最初的10分钟后,头条SI文章伴随有短期内(发布后半小时)强烈的漂移,但长期来看没有漂移,而非头条信息的融入速度则慢得多:在第一个小时内,对非头条SI新闻的价格反应仅约三分之一,而在该窗口之外仍存在显著的漂移。对非头条SI新闻的反应最终会收敛到对头条SI新闻的反应,但差距在两天内保持统计上的显著性,并且只在15天后降至零。
  3. 相比之下,PI与头条SI新闻文章之间因实际重要性差异而产生的反应差异,在10天后依然稳定且统计上显著,为45个基点。因此,尽管不同新闻重要性的市场影响是永久的新闻定位对机构投资者的影响是暂时的,但持续数天。
  4. 有趣的是,媒体对新闻的显著呈现加速了价格反应,但并未导致过度反应。许多专注于投资者注意力的研究记录了对显著信息的过度反应,尤其是在零售投资者中。然而,在使用彭博终端获取新闻的精明投资者环境中,我没有发现对显要位置的头条内容的过度反应证据。相反,对彭博终端头条新闻事件的反应展示了有效价格形成:当信息被突出显示时,价格在新闻发布后的一个小时内(大部分在最初的10分钟内)完全调整,随后没有漂移或修正。然而,即使在这种精明的环境中,忽视也起到一定作用,表现为对非头条新闻的初始反应不足。
  5. 本文还探讨了其他媒体来源可能如何放大我所记录的(新闻定位)效果。总体而言,外部来源的更高延迟覆盖可能会放大彭博定位的直接影响,使得头条与非头条新闻反应之间的差距持续数天。
  6. 最后,本文提供了几项额外的分析来支持对主要结果的因果解释,并排除头条固定的SI文章与未固定的SI文章系统性不同的可能性。
    1. 头条和非头条SI文章的长期反应趋同支持了这些文章的重要性相等,道琼斯电讯社独立给予两组SI文章相同的覆盖也证明了这一点。
    2. 此外,本文展示了头条和非头条SI新闻文章在任何可观察特征上没有差异,例如所涉及公司的规模和流动性。
    3. 还使用机器学习方法比较了新闻样本,包括(i) 使用主题建模比较新闻所涵盖主题的分布,以及(ii) 基于新闻标题文本的重要性深度学习分类器。这两种方法都无法检测到头条和非头条SI新闻内容之间的任何差异。
    4. 最后,还对150名来自广泛金融机构(包括高盛等经纪交易商、贝莱德和PIMCO等投资管理公司,以及桥水基金等对冲基金)的活跃金融专业人士进行了直接调查。金融专业人士选择头条SI文章比非头条SI文章重要的比例为48%,这与50%没有显著差异。

Hypothesis

  • 假设1(即时市场反应):头条新闻文章在发布后立即(几分钟内)伴随着比同等重要的非头条新闻文章更高的交易量和绝对超额回报。
  • 假设2(短期回报延续):头条新闻文章在短期内(当文章仍在头条时)伴随着比同等重要的非头条新闻文章更高的回报延续。
  • 假设3(延迟回报延续):头条新闻文章在较长的时间范围内(例如90至120分钟后)引起的回报延续低于同等重要的非头条新闻文章。

在头条与非头条SI新闻之间,我考虑了两个关键区别:

  1. 即时可见性:从一开始,头条新闻文章就比非头条新闻文章更显眼,这导致更高的投资者即时关注度。
  2. 持续突出显示:头条新闻文章在一段时间内(通常为20到40分钟)保持显著位置,因此在这段时间内,投资者继续以更高的频率看到它们。一旦某篇文章从头条移除,它变得与其非头条文章一样难以找到。

通过观察头条和非头条SI新闻发布后的市场动态来测试这些预测。对于即时新闻发布窗口,查看每篇新闻文章发布后的10分钟内的情况。作为短期窗口,考虑新闻发布后的30分钟,因为头条新闻文章往往在此期间内保持显著位置大约20到40分钟。

Data

彭博终端上的新闻文章实时汇总自多种来源,包括来自全面新闻组织的关键国家和国际新闻专线、公司文件、新闻稿以及来自网络资源如博客和社交媒体的内容。

  • 样本区间:2014年3月22日-2015年12月31日
    • 文章是否能被固定到头条位置取决于两个因素:文章的重要性及空间限制。彭博生成的一小部分新闻文章被分类为PI或SI。只有PI和SI新闻可以占据头条位置。这两个类别都很罕见,占终端所有新闻的大约0.1%到0.5%。
    • 尽管在2014年3月至2015年12月31日的样本期间,彭博终端上有数百万篇特定公司的财经新闻文章发布,但PI和SI新闻文章的数量仅为数千篇。
    • 文章在样本期间的东部时间上午8点至下午5点之间发布,并且被分类为PI类(1,419篇独特的PI文章)或SI类(4,887篇独特的SI文章)。排除了市场总结文章,以便专注于新发布的信息,并限制每篇文章标记的相关证券数量。
    • PI新闻文章总是被固定到头条位置,而SI新闻文章则在PI新闻供应不足时作为替补。一旦登上头条,新闻文章会一直留在那里,直到以下两个事件中较早的一个发生:要么有一篇新的PI文章发布并取代旧文章,要么预定义的时间段(大约20到40分钟)到期,在这种情况下,下一篇发布的SI文章也有资格占据该位置。一旦被固定,头条SI文章将被视为等同于PI文章,并受到相同的替换过程。
  • 数据来源:行业分类、市值和流通股数据来自Compustat。二级价格和交易数据来自QuantQuote,该数据包括所有在NASDAQ交易所和纽约证券交易所上市的股票,并提供每个交易日每秒钟的价格和成交量数据。
    • 合并后的样本包括所有在发布当天QuantQuote中至少有一个价格数据点的文章-股票对,其中包含948个头条SI文章-股票对,4,930个非头条SI文章-股票对,以及1,650个PI文章-股票对。
    • PI新闻文章比SI新闻文章更可能在东部时间下午4点到5点之间发布。因此,当与短期市场数据合并时,PI新闻样本显著减少的程度超过了两个SI新闻样本。
    • 由于收盘后立即发布的PI文章较多,绝大多数在东部时间下午4点到5点之间发布的SI文章未能登上头条。结果,更多的非头条SI文章(而不是头条SI文章)没有短期市场数据。反映了这些时间模式,在与市场数据合并的文章-股票对中,79%(1,306个)的PI文章-股票对、91%(858个)的头条SI文章-股票对和86%(4,233个)的非头条SI文章-股票对在发布后的10分钟内有市场数据。

descriptive statistics

在这里插入图片描述

表 I 展示了东部时间上午8点至下午5点之间发布且标记至少一个美国股票证券的PI和SI新闻文章的时间分布。样本中包含2,362个PI文章-股票代码观测值和8,233个SI文章-股票代码观测值,其中1,274篇获得了头条位置。

  1. PI新闻文章在交易日的开始和结束时达到高峰,特别是在上午8点到10点以及下午4点到5点之间,而SI新闻文章则全天分布较为均匀。
  2. 每小时PI新闻的数量与SI文章获得头条位置的可能性之间的相关性为-81%,这与当没有足够的PI文章时SI文章被固定到头条的情况一致。
  3. 编辑不太可能为了抢占头条位置而战略性地提前发布某些SI文章,因为分别只有1.4%、0.7%和0.2%的头条SI文章在另一篇非头条SI文章发布前一分钟、30秒或10秒内发布或之后发布。

作为头条定位重要性的初步证据,使用了一个直接的彭博终端关注度指标,该指标详细描述于Ben-Rephael、Da和Israelsen (2017)的研究中,显示无论是PI还是SI的头条新闻文章都与显著更高的关注度峰值相关联,而非头条SI新闻文章则不然。

  • "新闻热度-每日最大阅读量"是一个衡量投资者关注度的工具。它捕捉了投资者在任何一天对某个证券的搜索和阅读活动。该指标的取值范围为0到4,数值越高表示关注度越高。数值为0表示没有一个小时的阅读量超过前一个滚动窗口的80百分位,而数值为4表示至少有一个小时的阅读量在前4百分位内。
  • 根据Ben-Rephael, Da和Israelsen(2017)的方法,当新闻热度指标为3或4时,表示关注度激增。
  • 从图IA.6可以看出,所有头版SI文章中有90%在发布当天引起了关注度激增,而非头版SI文章的这一比例为64%。这种差异在1%的显著性水平上显著(t统计量为19.05),并且在新闻发布后约三天内,Bloomberg终端上的关注度差异仍然存在(之后不显著)。相比之下,在这些文章发布之前,头版和非头版新闻中提到的证券新闻的关注度没有明显的预趋势,尽管在两类新闻发布前,关注度似乎逐渐增加。

在这里插入图片描述

Empirical Results

即时反应(Immediate Responses to News)

假设1: 头条新闻文章在发布后立即(几分钟内)伴随着比同等重要的非头条新闻文章更高的交易量和绝对超额回报。

图2面板A展示了头条和非头条SI新闻发布前10分钟到发布后10分钟内的中位数交易量。面板B则考虑了跟随头条和非头条SI新闻的平均绝对超额回报,以及在每篇新闻发布时间前24小时计算的基础价格变化。交易量以股票换手率的百分比表示,而超额回报则是指超出样本中所有证券同期市值加权平均回报的回报。无论是交易量还是绝对超额回报,在头条SI新闻发布后的即时反应都明显高于非头条SI新闻,这与假设1一致。

在这里插入图片描述

表II中量化了“位置效应”。在发布的第一个10分钟内,非头条SI新闻文章伴随的平均换手率为0.05%的股份和21个基点(bps)的绝对超额回报。

  • 相比之下,头条SI新闻文章在同一期间内的平均换手率为0.19%,绝对超额回报为60个基点。当控制日和小时固定效应、对数市值和行业固定效应时,交易量差异为0.12%,绝对超额回报差异为37个基点;即使不包括这些控制变量,效应大小也相似。
  • 表II的最后一列估计了新闻的“重要性效应”,即相对更重要的PI新闻文章与相对不太重要的头条SI新闻文章之间的市场反应差异。这些新闻文章均位于头条,唯一的变化是其重要性。结果显示,PI新闻文章引发的市场反应强于头条SI新闻文章,表明市场参与者能够区分更重要的内容。PI新闻相对于头条SI新闻的市场反应差异为35个基点的绝对超额回报和0.11%的股份换手率,从绝对数值上看,这一差异与定位效应类似。

在这里插入图片描述

但在相对数值和统计显著性上,新闻定位(头条SI新闻对比非头条SI新闻)的市场反应差异甚至强于新闻重要性(PI新闻对比头条SI新闻)的差异。

短期回报延续(Short-Term Return Continuation)

假设2(短期回报延续):头条新闻文章在短期内(当文章仍在头条时)伴随着比同等重要的非头条新闻文章更高的回报延续。

这反映了被固定在彭博终端屏幕顶部的新闻文章所获得的更持久的关注。我在SI新闻样本上估计了以下方程:

$$ Rets_{i,[t+10,t+30]}=\alpha+\beta_1Rets_{i,[t,t+10]}+\beta_2FPs+\beta_3Rets_{i,[t,t+10]}\times FPs+Controls+\epsilon_{i,[t+10,t+30]} $$

其中,$Rets_{i,[t,t+10]}$为第$i$只股票在文章 s 发布后前10分钟内的回报;$Rets_{i,[t+10,t+30]}$为接下来20分钟内的回报,而 FPs 是一个指示变量,表示文章 s 是否位于头条。

在这里插入图片描述

表III的第(1)到(4)列展示了包含和不包含月份或日固定效应、一天中的小时固定效应、公司规模对数和行业固定效应的控制结果。当所有控制变量都包括时,

  1. 头条SI新闻文章从发布后前10分钟到接下来20分钟内的回报延续性比非头条SI新闻文章高出22%。
  2. 有趣的是,在这个时间范围内,非头条SI新闻文章之后几乎没有回报延续性。(在下一个子部分中,它们反而在更长时间范围内经历了显著的漂移。)

表III的第(5)到(8)列展示了比较PI新闻和头条SI新闻的类似结果。

  1. PI新闻文章并没有伴随比头条SI新闻文章更多的短期价格漂移,因为交互项的系数既不具有经济意义也不具有统计显著性。
  2. 市场参与者能够辨别哪些新闻文章更重要。对PI新闻的更大反应立即开始,并没有显示出任何差异漂移。同时,即使是通过彭博终端获取新闻的精明机构投资者也会受到显著位置的影响,导致所有头条新闻(无论是PI还是SI)都有强烈的短期价格漂移,而非头条SI新闻则没有。

文章还考虑了头条文章在头条停留的时间长度(“屏幕时间”)如何影响价格发现的速度。具体来说,当同时发生的新闻流量较低且新的PI故事需要更长时间来替换当前头版新闻时,被固定在头版的文章会停留更长时间(获得更多“屏幕时间”)。

  • 为了评估头版新闻文章获得的屏幕时间长度的影响,根据接下来一小时内发布的PI新闻量对PI和头版SI文章样本进行切片。进入的PI新闻量越大,某篇头版文章迅速失去头版位置的可能性就越大。因此,在“安静时间”(低于中位数的PI新闻量)发布的文章可能比在“繁忙时间”(高于中位数的PI新闻量)发布的文章获得更多屏幕时间。
  • 表IA.V展示了在安静时间和繁忙时间内,PI新闻(面板A)和头版SI新闻(面板B)后的平均绝对超额收益和漂移情况。

在这里插入图片描述

这些结果表明,在安静时间内发布的头版文章(无论是PI还是SI)比在繁忙时间内发布的文章更快地被纳入价格。

  1. 在前10分钟内,安静时间发布的文章比繁忙时间发布的文章有更多的价格波动(PI新闻差异为36个基点,头版SI新闻差异为20个基点,尽管只有前者在统计上显著)。
  2. 从前5分钟到接下来的5分钟内,安静时间发布的头版文章的价格漂移也比繁忙时间发布的头版文章更强(PI新闻在5%显著性水平上显著,头版SI新闻在10%显著性水平上显著)。
  3. 一小时后,安静时间发布的头版文章可能也已被替换,响应差距相应缩小(总是有差距先扩大再缩小的现象)。

长期价格动态(Longer-Term Price Dynamics)

将一则新闻放在头条位置会引发显著的即时回报和短期漂移,但非头条信息最终是否会赶上?

假设3(延迟回报延续):头条新闻文章在较长的时间范围内(例如90至120分钟后)引起的回报延续低于同等重要的非头条新闻文章。

表IV考虑了从短期窗口(30分钟)到接下来90至120分钟内的回报延续性,跟随头条和非头条SI新闻文章的实证结果。

  • 非头条SI新闻文章平均在这段时间内伴随着25%到27%的回报延续。然而,头条SI新闻文章的回报延续性则低14%到19%。

在这里插入图片描述

综合表III和表IV的结果展示,将一则新闻固定在头条位置会在最初的半小时内引发更强的漂移,而对非头条文章的反应则在接下来的一两个小时开始逐渐赶上。

然而,与大多数头条信息的影响在发布后几分钟内发生不同,非头条信息需要几天时间才能完全反映在价格中。图3展示了按照两个维度分组的头条和非头条SI新闻文章的累计超额回报:

  1. 位置
  2. 初始五分钟超额回报的方向

在这里插入图片描述

  • 新闻发布后立即,头条SI新闻文章伴随着更大的正向和负向超额回报,这与表II中报告的绝对超额回报结果一致。
  • 这一差距在大约45分钟内扩大,证实了表III中的短期漂移结果。
  • 第一个小时后,头条SI文章不再引发额外回报,而非头条SI信息继续被融入价格,这与表IV的结果一致。
  • 在图3的最后一部分,我展示了从新闻发布到1天、2天、5天、10天和15天后的累计超额回报。尽管这些时间范围内的标准误差有所扩大,但长期对头条与非头条SI新闻的反应在经济规模上没有显示出差异。

在这里插入图片描述

表V第(1)列考虑了发布1天、2天、5天、10天和15天后头条与非头条SI新闻之间的绝对超额回报差异,同时控制了日和小时固定效应、对数市值和行业固定效应。

  • 结果显示,由定位引起的市场反应差距即使在新闻发布几天后仍然存在。差距在一天后高度统计显著为38个基点,
  • 在两天后略微下降但仍保持统计显著性和经济相似性为34个基点,
  • 在五天后不再是统计显著(尽管仍然经济可见)为25个基点。
  • 差距在十天后缩小至统计不显著的18个基点,并在十五天后收敛至统计不可分辨的8个基点。

同时也将实际新闻重要性的影响进行分析,表V第(2)列比较了PI新闻与头条SI新闻之后的绝对超额回报。这种差异在15天内稳定在41到56个基点之间,并且即使在10天后仍然在5%水平上统计显著。

实际上,新闻重要性的影响是永久的,而不同新闻展示方式的价格影响确实会收敛——但这需要相当长的时间。

Other News Sources

现在考虑彭博以外的新闻来源,并解决一个担忧,即本文的主要结果(我将其归因于彭博终端上的新闻定位)可能是由其他地方的同时报道驱动的。我记录了以下两点:

  1. 道琼斯新闻专线对彭博头条SI新闻的报道并不比非头条SI新闻更多。
  2. 面向较不精明受众的新闻来源似乎跟随(而不是引领)彭博的报道模式。后者可能放大彭博初始定位的效果,从而促成回报漂移。

通过比较彭博新闻样本与三个外部数据集中的报道来识别新闻事件。具体方法包括:

  • 数据集:三个外部数据集分别为道琼斯新闻专线、Factiva和EventRegistry。
  • 预处理:作者首先排除停用词并对剩余单词进行词干化。
  • 比较方法:通过余弦相似度来衡量彭博新闻标题与外部来源中相同股票代码的文章标题的相似性,余弦相似度高于0.4的被视为匹配。
  • 结果:该方法能够有效识别匹配内容并减少噪音。对50个随机子集进行的手动测试显示,识别道琼斯中匹配事件的程序准确率为84%。

结果如图4所示,该图绘制了从每篇文章在彭博发布前12小时到发布后24小时内的其他来源的每小时报道量,按新闻类型(PI、头条SI和非头条SI)平均。面板A考虑道琼斯新闻专线,面板B查看Factiva的报道,面板C分析EventRegistry的报道。每个每小时观察对应于60分钟周期的开始;例如,第0小时捕捉从给定文章在彭博发布那一刻起至之后恰好60分钟的时间

在这里插入图片描述

图中有这样几个值得注意的现象:

  1. 道琼斯新闻专线,其速度和目标受众(机构投资者)的专业程度可与彭博终端相媲美,独立地给予彭博头条和非头条SI新闻相同的报道。这一发现确认这两组文章同样重要,但其中一些在彭博上获得了头条位置。相比之下,更重要的PI新闻文章确实在道琼斯新闻专线中获得了更多的报道。这种报道甚至在彭博发布之前就开始了,这与道琼斯在速度上与彭博竞争并有时先获得新闻一致。
  2. Factiva和EventRegistry在彭博发布之前对头条SI新闻的报道并不比非头条SI新闻多。然而,在彭博发布后,头条SI新闻文章在这两个来源中获得了更多的报道。这种差异从第0小时开始显现,即捕捉彭博发布后的第一个60分钟,并在Factiva中持续几小时,在更加多样化的在线来源EventRegistry中则持续更长时间(长达12小时)。

作者通过训练卷积神经网络模型基于标题文本预测哪些文章会从Factiva来源获得更多的报道,确认了这种报道差异独立于新闻内容。根据标题文本,46%的头条SI文章被预测会在Factiva中获得中位数以上的报道,而非头条SI文章的比例为49%。

High news flow?

总之,图4的结果揭示了彭博头条与非头条SI新闻在后续外部报道中的差异,但这并不是因为头条SI文章比非头条SI文章更重要。先前的研究(例如,Eisensee和Strömberg (2007))表明,这种差异可能源于在新闻流量高的日子,中等重要的故事被挤出新闻,这种情况可能同时发生在不同的新闻来源之间。这尤其适用于印刷媒体,它们自然面临空间限制:在线媒体可以在新闻流量高时增加发布新闻文章的数量,而印刷出版物无法根据高新闻流量扩大印刷页数。

进一步地,利用Factiva数据库包含印刷出版物的事实(具体来说,我识别了140个如《纽约时报》、《华尔街日报》和《国家邮报》印刷版的媒体),以测量我的样本中不同新闻在印刷媒体与在线媒体之间的报道情况。

估计Factiva印刷和非印刷来源对彭博SI新闻报道的关系,并考虑两个预测因素:

  1. 彭博上的定位
  2. 高新闻流量的衡量标准——任何给定日子里样本中头条位置被PI(而非SI)新闻占据的百分比。

由于印刷报纸是以每日频率发布的(报告次日早报中的新闻事件),我将每篇彭博SI文章的报道聚合到日级别,即其发布当天加上次日。

表VI报告了相关结果

  • 表VI第(1)列的因变量是Factiva印刷出版物中覆盖某篇特定彭博SI文章内容的文章数量
  • 表VI第(2)列因变量则是Factiva其他(非印刷)来源中覆盖某篇特定彭博SI文章的文章数量

在这里插入图片描述

  • 第(1)列的结果显示,在空间受限的印刷媒体中,较高的日常新闻流量确实与较低的SI新闻报道量相关联,这一点在1%水平上显著。考虑到新闻流量后,头条SI文章并没有比非头条SI文章获得更多的报道。
  • 第(2)列显示,非印刷来源表现出较弱的新闻流量影响(经济上较小且仅在5%水平上显著),但展示了彭博头条定位的额外效应(在5%水平上显著),这与彭博的报道对面向较不精明受众的在线来源有直接延迟效应一致。

Validation Tests

Balance on Observables

确认头条和非头条SI新闻文章在公司级和文章级特征上是平衡的。

  • 首先,发现头条SI和非头条SI新闻中标记的股票代码对应的平均(中位数)对数市值分别为23.82(24.62)和23.79(24.12)。这些数字对应大约200亿美元的平均公司规模,差异的t统计量为0.59。
  • 同样地,根据Amihud (2002)计算的流动性指标平均(中位数)值对于头条SI新闻为每十亿美元交易量19,175(170)基点,而非头条SI新闻为每十亿美元交易量14,019(246)基点。流动性差异的t统计量为1.04。

总体而言,头条SI新闻覆盖的公司规模略大但流动性略低,且两者差异均不具统计显著性。

Predictability of News Positioning

通过估计了一个Probit模型来预测新闻定位(头条与非头条),基于公司市值、流通股数量、Amihud (2002) 流动性指标以及文章级别的特征:标题长度、每篇新闻中标记的证券数量和新闻涵盖的主题。为了比较,还使用样本中的全部新闻文章估计了一个区分新闻重要性(PI与SI)的Probit模型。

表VII报告了定位结果在第(1)到(2)列,重要性结果在第(3)到(4)列。根据第四节B部分概述的机器学习方法分类的主题哑变量包含在第(2)和(4)列中。表格报告了各变量的边际效应,以及每个模型的McFadden (1974)伪R²。

在这里插入图片描述

  • 简单的Probit模型能够以高准确度区分PI文章与SI文章:没有主题固定效应时的McFadden伪R²为0.241,有主题固定效应时为0.321,这两个值都处于McFadden (1977)定义的“优秀拟合”范围内。
    • PI文章倾向于具有更短的标题和更多的分配股票代码,并通常覆盖市值较低且Amihud (2002)流动性指标较低的公司。
  • 相比之下,该模型无法有效区分头条SI新闻文章与其非头条对手:无主题固定效应时的伪R²仅为0.001,包含主题哑变量后为0.026,且没有任何解释变量是显著的。

Balance on Topics

使用机器学习将新闻文章分类为主题,并确认头条和非头条SI新闻往往覆盖相同主题。除了确认重要的新闻特征上的平衡外,主题分析还解决了某些类型的新闻(例如,收益公告)比其他类型(如合并公告)更可能在时间序列上聚集的问题。因此,在头条位置空缺时发布的SI文章可能覆盖与在PI新闻较多期间发布的SI文章不同的主题。

本文通过使用潜在狄利克雷分配(LDA)算法评估新闻主题差异,具体步骤和贡献如下:

  • 数据集选择:作者使用了路透社的新闻文章语料库(约180万篇),该数据集大于手工收集的样本,且具有相似的关注点和目标受众。
  • LDA算法应用:通过Blei等人提出的LDA算法,识别新闻文章中的主题。LDA适用于将文档表示为从一组潜在主题中生成的混合,允许将样本外文档建模为训练数据中识别出的主题组合。
  • 应用范围:作者将彭博新闻文章中的不同类别(PI、头条SI、非头条SI)作为样本外文档,使用LDA算法识别并表示这些文章的主题。
  • 贡献:作者指出,尽管现有文献研究了新闻的情感、结构等特征,但尚未基于主题进行新闻文章分组。LDA方法为金融新闻文本分析引入了基于主题的分类方法,具有以下优势:
    • 不需要预先定义主题集合。
    • 减少人为标注偏差的影响。

结果表明,PI新闻存在一些独特的话题模式,但在头条和非头条SI新闻之间没有发现话题上的差异。在Pearson $\chi^2$独立性测试(Rao and Scott (1981))中,PI新闻文章的主题分布与头条SI新闻文章所涵盖的主题分布之间的差异在统计上较弱显著(在10%水平),而头条和非头条SI文章在文本内容方面统计上无法区分,p值超过87%。并且在改变主题模型设定以及考虑10到25个主题的情况下保持稳健。

在这里插入图片描述

下图则展示了基准模型中15个主题的文章详细分类

在这里插入图片描述

Deep Learning Model of News Importance

本文训练了一个深度学习模型,用以从PI和SI新闻的随机子样本中识别新闻的重要性,并测试该模型区分PI、头条SI和非头条SI新闻的能力。深度学习特别适用于构建新闻重要性分类器的任务,原因有二:

  1. 首先,深度学习方法不需要研究人员预先指定一组特征,而是使用新闻标题的全部内容;
  2. 其次,深度学习方法允许各种新闻方面之间存在高度非线性交互,从而使模型能够捕捉到彭博新闻重要性标记的细微差别,这些标记代表了复杂规则的高度层次结构。

training data

使用的具体深度学习方法是卷积神经网络(CNN)。在自然语言处理的深度学习方法中,循环神经网络常用于较长文本,其中顺序很重要;而对于我所选取的较短且词序依赖性较低的新闻标题样本,卷积神经网络提供了更好的匹配(Yin et al. (2016))。我训练了一个七层的卷积神经网络,基于随机选择的650篇PI和650篇SI新闻项目,另外还有一组250篇PI和250篇SI新闻用于调整。其余的标题既不参与训练也不参与调整,为性能评估提供完全未见过的样本集。

model performance

该分类器能够在PI新闻和SI新闻之间做出一致的区分,尽管是在模型未曾见过的保留样本上进行评估,总体准确率仍高达91%。模型正确地标记了88%的PI标题为更重要,而仅将5.1%的SI标题标记为更重要。

相比之下,当我分别将训练好的分类器应用于头条SI和非头条SI新闻时,模型并未发现两者之间存在显著差异。模型错误地将6.6%的头条SI标题归类为PI,而非头条SI标题的比例为4.7%,这一差异并不具有统计显著性。

Robustness to model selection

为了确认头条和非头条SI新闻之间缺乏区别不受机器学习方法选择的影响,我还通过结构化的特征选择过程训练了替代分类器。具体来说,我考虑了标题中的所有单字词和双字词组合(unigrams和bigrams),识别出最具有信息量的300个单字词和最具有信息量的300个双字词组合,然后基于这些特征训练三个模型——逻辑回归、随机森林和支持向量机。这些模型同样未能识别出头条SI新闻与非头条SI新闻之间的统计显著差异。

Can Finance Professionals Tell the News Apart?

为了直接评估市场对我样本中新闻的看法,本文对新闻的目标受众进行了调查:活跃的金融专业人士。金融专业人士同意彭博的观点,即PI标题平均来说比SI标题更具影响力,但他们并不认为头条SI标题比非头条SI标题更具影响力。

在调查中,每位受访者被要求回答一系列关于新闻标题的25个问题。每个问题展示了两个标题,并要求受访者指定哪个标题被认为具有更大的市场影响并应得到更多突出显示。参与者仅需评价标题而非全文,原因有二:

  1. 保持调查简短;
  2. 更贴近彭博终端上新闻的传递方式,在终端上用户必须主动点击标题才能看到全文。

在这里插入图片描述

调查结果见表VIII。

  • 面板A显示,PI新闻文章被选择超过头条SI新闻文章的比例为61.16%,明显高于50%,在1%水平上显著。这一结果既证实了受访金融专业人士认真对待了调查,也证明了彭博的重要性标签正确地为目标受众识别了内容。
  • 相比之下,面板B显示,金融专业人士认定头条SI新闻比非头条SI新闻更具影响力的次数占48.24%,这与50%没有统计学上的差异。这一结果进一步验证了,出现在头条的SI新闻内容与未出现在头条的SI新闻内容之间并无区别。

Conclusion

本文利用新闻定位的外生变化,直接估计了面向精明机构投资者平台上的新闻展示方式对资产价格产生的因果效应。将一篇新闻文章固定在彭博终端的头条位置,会导致该信息在发布后一小时内完全被市场价格所吸收。相比之下,展示位置不那么突出的信息最终也会被纳入价格,但这个过程比头条新闻要长得多。

  • 本文的结果强调了信息展示方式对其被纳入资产价格过程中的重要性。在现代信息环境中,投资者每天面对数以百万计的新闻文章,即使是广泛可用的公共信息也可能不会立即且高效地反映在价格中。彭博终端主要由大型、精明的机构投资者使用——这正是我们最不可能预期其注意力会根据诸如显著位置等启发式方法来分配的人群。然而,即使在这种情况下,信息展示仍然扮演着重要角色,而纳入速度取决于传播方式。
  • 大型新闻提供商对基于信息进行交易的投资者以及参与资本市场的公司有着不成比例的影响。新闻传递方式的小幅变化——无论是编辑的自主选择还是物流空间限制——都可能改变市场响应的速度,从几分钟或几小时延长到几天或几周。