从关系到排名──七种数据新闻常见的切入角度
在我的数据新闻教学过程中,我经常会介绍几种常见的数据报道类型。于是我想,我可以拿100篇数据新闻作品来做分析,看看是否能找出每种报道角度的使用频率。
我发现,数据报道的核心角度实际上可大致分为七个。很多人会在报道中加入其他次要角度(例如,一篇谈“变化”的报道可能会接著提到某件事情的规模),但我观察到的所有数据报道的导言都会聚焦在其中一个角度。
以下我将讲解这些最常见的报道角度能如何帮你找出新闻点,以及数据新闻操作中的注意事项。
数据角度之一:规模──这个问题有多大?
从规模切入的报道也许是最常见的数据报道类型了。这些报道会指出一个大问题,或是某个已成为讨论热点的议题规模。
最一般的情况下,这些报道会提供最新公布的数据:可能是最新的失业数据、犯罪数量、空污程度、某些领域的开支、出生、死亡或结婚相关的数字。
例如,在疫情的前几个月,我们每天都会读到有关确诊数量、死亡人数、筛检数等的报道。
这类报道的例子包括《研究估计英国护理中心新冠肺炎死亡人数可能达6000人》,但也有像《过度轻判检讨计划执行不力》这类报道,其导言便是基于对你提出的问题规模的反应。
有时规模会被作为单一事件报道的背景,例如在这篇《无人机导致盖特威克机场混乱》(有多少未遂事故?),或是某项政策提案,如《政府表示,新手驾驶可能被禁止夜间驾驶》(有多少新手驾驶不满19岁?)。
从规模切入的报道是比较好写的类型之一:在许多情况下,记者不需要做什么计算。
甚至,这类报道的主要工作很可能是去确立该规模的背景脉络──而最糟的是,它变成一篇只有“大数据”的故事(“在某样东西上花了很多钱”或是“很多人发生了某些事”),但读者并不清楚这是否真的有新闻价值或其实很正常。
因此,通过使用百分比或比例(例如,“五分之一”),或用比较和类比(用于该计划的资金相当于500名教师的工资),将规模脉络化是很重要的。
你也可以带入“变化”(change)以及/或是“差异”(variation)作为第二个角度:为你描述的规模建构时间脉络,或者指出这个规模有什么变化。
例如,在上面这篇《纽约时报》的文章中,新冠病毒爆发的“真实数量”(规模)马上就借由图表而脉络化,这些图表显示了自年初以来全球各国的确诊人数变化。
数据角度之二:变与不变——某事在上升、下降或并未发生
从变化切入的报道几乎和从规模切入的报道一样常见——而且可能更吸引读者。
毕竟,变化本身就具有新闻价值,还能提供你标题中所需的动词(“上升”、“下降”、“增长”)。
一旦你找出数据中的某些变化,你就可能要进一步找出原因:为什么这些数字会上升或下降?
你也可以在你的报道中加入一个次要的角度,探讨这一趋势的变化——这些数字上升或下降的区域、有哪些极端的状况。
这可以帮助你将报道导向“为什么?”,因为受影响最大的地区很可能是那些最了解这个问题、并能对此发表意见的地区。
当报道数据的变化时,重要的是得注意两个因素:季节性因素和误差幅度。
季节性因素通常可预测、不特别,因而没有新闻价值,例如财政年度或学期结束,新车的发布,或者仅仅是温度的变化。年度之间的对比(例如,今年8月与去年8月的对比)或针对季节的调整经常被用来防止季节性因素的影响。
同时,误差范围则表示真实数字实际所在的区间。因为许多数据集是基于部分样本,再推估至其他更大的群体,因此误差范围(或信赖区间)便被用来指出推估的准确程度。如果观察到的变化在误差范围之内,我们就不能说它有变化。
这类报道的一个变化体是指出某件事并没有变化。例如,这篇关于公司破产的报道,也在读者预期之处找寻变化,但最后发现疫情期间其实破产公司的数量并未增加,并针对这个反直觉的发现寻求专家的意见。
数据角度之三:排名和异常值——谁最好,谁最差?谁不寻常?为什么?
从排名切入的报道都是关于谁或什么在数据上表现最差或最好,或者某个感兴趣的对象(当地警察部队、学校或团队,或者某个行业,如果是报道特定行业的媒体)相对于其他同类的比较。
这类型的典型报道可能包括“当地是犯罪最严重的地区之一”或“当地学校是全国表现最好的学校之一。”
你也可能会关注“最受影响”的地区,如《伯明翰的哪些地区是英国最受统一福利救济金影响前十名?》,或者你可能会关注你所在的行业与其他行业相比的情况,如《建筑业是英国最危险行业第三名》。
但是报道排名的文章也可以关于数据中最佳或最差的时间、地点或类别。
例如,上面这篇《经济学人》的文章,是关于听众听最多忧郁歌曲的月份。另一方面,这篇伯明翰的实况报道的标题则这么下──“在桑德维尔(Sandwell)最常见的犯罪行为——以及你最有可能在哪受害”。
数据角度之四:差异——公共服务的地区性差异、地图和分布
当我们期望能公平比较,或者当我们试图找出生活中某部分的对应标的时,从差异切入的报道效果最好。
这个经典的案例使用了一张地图或热图来显示,一个国家的某些地区比其他地区获得的东西少,或者对某些东西的需求多。
例如,“邮递区号彩票”(postcode lottery,在英国意指公共服务的地区性差异。人们能获得的医疗资源、公共服务等均与其居住地区有关)这一词汇就反映了,那些本应平均分配的资源实际上却是一场运气游戏。
例如,BBC 数据部门的报道《试管婴儿:英国健保下的夫妇面临额度限制》,指出了你在英国的居住地将如何决定你能否接受受孕治疗。
从差异切入的报道可能凸显出不平等——或者,若人们能准确地意识到的话,它还能显示出它是如何以及在哪里发生的(特别是在他们的地区)。
对演算法的究责报道,例如 ProPublica 的《机器的偏见》系列文章,通常都与深入分析某演算法后所呈现的差别待遇及不公平现象有关。可能是人们被判处不同的刑罚、得到不同的保费报价,尽管他们彼此在重要的维度上没有任何有意义的区别。
这类报道同样可以用来强调服务需求不足或供应不足的区域。我为 BBC 公共数据部做的一则关于电动汽车充电站的报道,便追踪了英国有多少基础设施及其所在位置。这些用数据画出的图片为个案的研究和应对提供了基础。
数据角度之五:探索──工具、互动和艺术
探索类的报道多数是网络原生的。它的卖点往往以行动呼吁为特征,常见字眼例如“探索”、“玩”、或“做个测验”。或它可能会以全面性的分析作为卖点,例如它标示出或是记录了“曾经发生的每个X”,或者只是简单地回答“谁/如何/何处”的问题。
读者经常被邀请去浏览解释性报道中的数据,以产生自己的观点。这类作品包括 BBC 的《70亿人与你:你是第几号地球人?》、《纽约时报》的《测测你能当个贫穷的美国人吗?》等测验,到《洛杉矶时报》的《科比·布莱恩特的每一次投篮,共30,699个》这类互动地图作品。
这一类别还包括像《华盛顿邮报》破纪录的《为什么新冠病毒这类疾病爆发会呈指数级传播?如何使疫情平缓?》和马特·科罗斯托夫(Matt Korostoff)的《按规模显示的财产》这样的模拟器,以及小游戏、计算机和聊天机器人等其他形式。
探索类的报道不一定要是互动式的:《卫报》的《谁死于冠状病毒?国民保健制度信任谁?》只提供广泛的见解及静态地图让读者探索,但读者对页面没有控制权;彭博社出品的视觉化叙事作品例如《美国人是如何死的》能让读者与图表有些许互动,但还是强烈地受作者主导。
这类报道也可能非常古怪——甚至是一种艺术形式。例如这篇《甜蜜的爱:热门婚礼歌曲被重新想像为纸杯蛋糕》,只是将播放列表作为数据,并且将它以特定方式视觉化。
数据角度六:建立与厘清关系──当事物有或没有关联时
记者通常试图检视数据来找出关联,但这可能是有问题的:相关当然不等同于因果关系,所以即使两件事可能同时有上升或下降趋势,也不意味这两件事是相关的——正如《卫报》这篇《暴力犯罪的增加是因为削减社区警力吗?》所探讨的。
出于这个原因,你可能会经常看到一则报道厘清两组数据之间的关系,就像你也会看到某报道试图证明X导致了Y。
例如,第四台新闻(Channel 4 News)的《事实查核》(FactCheck)栏目通过查看数据来回答“移民是否导致了急诊资源危机?”,并发现一个地区的非英国人口数量和其急诊服务表现之间没有关系。
前述所涉及的复杂程度意味着,任何以关联为角度切入的报道很可能都需要多作解释──或者至少要做出一定程度的提醒。
例如,《经济学人》这篇《对房地产的痴迷会如何破坏经济》花了超过12分钟来探索这两个变数之间的关系,而不只是简单地宣称房市就是在破坏经济。
这类报道不一定要着重在形而上的相关性;网络分析(network analysis)提供了另一种讲述故事的方式,这种方式是建立在真实关系的基础上,如捐款人、董事职位、家庭关系、社交媒体关注或其他互动。
例如,《调查谷歌旋转门》项目使用数据来揭露这间科技巨头和政府机构之间的人员流动数量,《西雅图时报》的《在西雅图艺术圈,女性掌权》则使用视觉化的网络图表描绘当地艺术圈内部的关系(记者通过让西雅图在地艺术圈的女性说出影响其职涯的导师、合作者和同事的名字来建立起这张关系图)。
但即使是网络分析也可能不够准确:单看两个人之间的关联或组织之间的运动很少能证明贪污或是构成可疑决策的原因。
也因此,网络分析也经常以探索性报道呈现(如《澳大利亚2016年-2017年政治捐款:政党向谁收了什么》)、作为解释性专题的一部分(如《Radiohead 的企业帝国:在乐队的收入之间》),或是用于找出某个数据发现,然后进一步引导出后续的报道(例如《捐给英国保守党80万英镑的离岸银行家与该党高层有家族关系》)。
数据角度之七:问题和解法──烂数据、没有数据与如何取得数据
最后一类报道可能有点“元”(meta)的意味——它是关于数据本身的报道:缺乏数据、数据有问题,或是数据是否可用——但这并不意味着它不是一个好故事。
对烂数据的报道可以是非常重要的:行使权力、花钱以及过生活,都可能因数据受影响,所以如果数据有缺陷,那么权力的使用也可能有缺陷。例如,对演算法的究责报道也可能找出支持这些演算法的有缺陷的数据;又例如在《明镜周刊》(Der Spiegel)的《增加的风险》所报道的,信贷咨询机构 Schufa “对许多人的了解远比人们想像的要少,但却敢于为人们的信用评分。”
在政治上,数据也常常构成成功或失败的认定基础,所以如果警察部队漏报犯罪,遭飓风袭击的国家所报告的死亡人数不准确,或是将预计测试数量当作已测试量,那么当权者就有可能让这些错误的说法免于被质疑。
报道烂数据的念头可能来自于这些可疑的说法、来自听说某人看到了系统漏洞,或纯粹只是检查现有数据中有问题的地方:《卫报》这篇指出流浪者数据“不合目的”的报道,以及 BBC 这篇关注性别薪资数据的文章,都是源于记者发现数据中的危险信号。
它们也可以导引出追踪报道,从其他消息来源获得更好的数据,就像我的 BBC 同事丹·温赖特(Dan Wainwright)在这篇关于流浪者的报道所做的。
另一个与数据问题相关的角度是“没有数据”:缺乏某个议题的数据通常意味着该问题缺乏政治利益,或者对解决该问题没有意愿。
“没有数据”的报道通常也指出人们对缺乏信息或透明度的担忧。
例如,英国医学期刊(BMJ)的调查《医学院对种族主义视而不见吗?》的导言写:“英国的医学院对少数民族学生所经历的种族歧视及骚扰并未做好准备”,而英国调查报道组织(BIJ)一项针对农场排放的调查也将缺乏特定数据列为其主要调查结果之一:“政府只监控最大的集中式家禽和养猪场的氨排放,而完全忽略了最大的污染者——牛肉和酪农场。”
若是曾公布过但后来消失的数据,那么报道可能会聚焦在撤下资料的这个决定上(《坦帕湾时报》的《佛罗里达医检人员正公布新冠肺炎死亡数据,但遭州政府制止》即是一例)。有时它还会成为一篇社论的基础,例如《芝加哥记者》(The Chicago Reporter)这一篇编辑手记讲的便是警方要求停用法律数据的应用程序介面(API)。
偶尔,缺乏数据可能会促使新闻机构、记者或运动人士自行整理数据——这种时候,你便又多了一个取得数据的报道题材。
其中最著名的例子也许是《卫报》的《被统计者》(The Counted)和《华盛顿邮报》的《致命力量》(Fatal Force)──它们都是围绕着遭执法机关杀害的人展开的;以前我在《给(真正的)无声者一点发言权:数据新闻和死者》中写过类似的案例。
其他报道还关注试图解决数据问题的运动人士,例如 ProPublica 的这篇《没人能准确追踪死于疫情的医护人力,于是她不眠不休地为亡者造册》,以及这则有关巴西程序员建立新冠肺炎的替代资料库的报道,是近期的两个案例。
但取得数据的报道不一定要如此雄心勃勃或具个人色彩。《卫报》数据博客在十年前的许多早期报道,都只是在公布那些他们发现、整理或合并的数据集,并呼吁读者“下载数据”。
当然,仅仅是下载数据的新鲜感在过去十年中已经消退了,有些记者只是把他们手头的数据放在 GitHub 上,也没有专门写一篇关于它的文章。
但是,如果你已经获得了一些其他地方没有的有趣数据——例如通过结合多个数据集、使用信息自由法(FOI)获得资料、或是自己抓取数据——那么向你的观众公开这些数据,来建立关系以及——在最好的情况下——建立社群,就会很有价值。
这里要记住一点,如果你真的想建立一个社群,单靠数据是无法做到的:与潜在的合作者接触(例如借由举办黑客松),才更可能将社群建立在你的宝贵基础上。
补充:借由数据找新闻,而不是从数据找新闻
弄清楚这七种数据驱动的报道中可能出现的角度后,值得强调的是,还有另一种类型的报道,是前述这些角度可能都没有涵盖的:即以数据为手段、将某采访、事件、文件或关系挖掘或强调出来,使记者能够找到背后故事的报道。
你可以称之为单一数据点或大海捞针式的报道。
在之前的一篇博客文章中,我带读者探索了其中的一些技巧,从采访与单一数据相关的个人(例如,在英国宗教信仰最少的城市经营教堂的人),到向负责处理数据的组织要求更新资料。
例如,许多调查报道使用数据新闻的技巧来决定他们采访及申请数据的方向,或是选择他们要采访的地点,因为他们看到的是一个更大的系统性问题。
因此,当面对数据时,尽管这七个角度有助于激发你的想法和报道灵感,但它们不应该成为你选择角度时的限制:其实,任何报道都可以从数据新闻的技巧中受益。
本文首发于在线新闻博客(Online Journalism Blog)的网站上,全球深度报道网经授权翻译转载。
Paul Bradshaw 是伯明翰城市大学数据新闻学和多平台及行动新闻学的硕士,他目前在 BBC数据部担任数据记者顾问。