辅助功能设置

文字大小

色彩设置

单色 柔和色 dark

阅读工具

底部遮盖 标尺

文章

主题

如何正确解读数据?

English

如果你的数据计算正确,但没有被准确解读,最终可能会误导你的受众。图:Shutterstock

当你在报道中使用数据时,很重要的一点是了解这些数据是如何获取到和如何被清理的。但同样重要的是,你要正确解读你的发现,从数据表中提炼出正确结论。如果你计算正确,但没有正确解读所得数据呈现的结果,最终可能会误导你的受众。

为什么会出现这种情况?有时候,我们处理的数据并不能真正回答我们所提出的问题。在一些情况下,我们可能会在调查的数据收集和分析阶段,忘掉了传统的新闻伦理,而只挑选了支持我们观点的统计数据,错过上下文,或者过于专注于我们的问题,而不去听数据在说什么。请记住,在数据新闻中,数据就是我们的信源,我们需要尊重它。

一些常见的谬误

数据新闻第一课,是要确保你不会根据按国家或其他分类汇总的数据,得出关于个人的结论。在你所研究的国家或地区,人们的实际情况可能与这些粗略数据所提供的印象大不相同。

这一问题通常被称为“生态谬误”(Ecological Fallacy),数据科学家 Heather Krause 曾用一个关于香烟的例子作出解释。当研究一些国家的预期寿命和吸烟量时,可能会发现这两者之间似乎存在正相关关系:在香烟消费量较高的国家,人们也有更长的预期寿命。然而,如果就此断定吸烟能让你活得更久,那就不对了。这不仅是因为逻辑和大量科学研究的结果恰恰相反,还因为在这个例子中,所研究的数据并没有评估香烟对个人的影响,而是简单地比较了两个国家的综合指标。

这种谬误还揭示了另一个可能导致数据误读的问题:被比较的数据没有因果关系。换言之,相关性不等于因果。因为这些数据最初收集的目的,不是为了观察多抽烟是否对预期寿命有影响,所以统计分析显示的是一种预测,而不是因果结论。

研究这两组数据的记者应该要考虑其他变量,以便为这种相关性找到可能的解释,比如富裕国家民众的购买力意味着他们既能消费香烟,同时也能获得更好的医疗保健。

除了确保计算准确,我们需要评估数字是否揭示了我们试图报道的现实。阿根廷新闻网站 Infobae 的数据情报部门负责人 Sandra Crucianelli 特别提醒,对平均值要非常小心,如果数据之间的数值间隔太大,可能会产生误导。

在报道薪水或其他与不平等有关的问题时,这种情况经常发生。在不平等程度高的国家,平均薪水数字不能代表现实,因为这个数据并不能反映贫富差距。

前尼曼基金会研究员、数字订阅机构 Reveniu 创始人 Miguel Paz 建议记者在报道中使用中位数,因为它更接近大多数人的生活水平。

百分比和比率也是用以描述社会人口状况的优秀数据。每年,只要哥伦比亚警察公布犯罪数字,我就会看到数十份媒体报道,说什么“麦德林(Medllin)是最危险的城市”或“波哥大(Bogota)是最不适合拥有手机的地方。”但这些报道仅使用绝对值,因此不能反映真实的安全局势。如果从事这些报道的记者做一个相对分析,通过将数据与人口或手机使用情况联系起来,他们会发现,在拥有800万人口的大都市波哥大或拥有250万人口的城市麦德林,这些数字并不像绝对值显示的那么糟糕。事实上,不安全问题在其他人均犯罪率较高的城市才需要更多关注。

上述新闻标题也显示了结论“泛化”是如何出问题的。要正确探讨哪个城市最危险,需要更多的指标来描绘一幅更细致的画面。

新冠肺炎疫情和大数据学习曲线

新冠疫情发生后,很多记者不得不在一夜之间成为数据记者,以理解不断上升的病例数。但国家之间的数据比较可能还是很困难。图:Shutterstock

类似的事情也发生在新冠疫情报道中。目前已有不少报道比较不同国家的感染人数或死亡人数,但这些比较通常不太准确,主要是因为在这种情况下,正确的衡量标准是感染率,即感染者相对于人口的数量。但由于其他一些因素,国家之间的感染率比较会有些困难。

例如,在疫情爆发的头几个月,一些国家没有统计发生在养老院的死亡人数,但后来却统计了;还有一些国家,只有当病毒是死亡的主要原因,或经检测证实病人死亡时已感染的情况下,才会算入国家新增病例,这也造成了差异;还有一些国家则使用要求较低的计数标准。病毒在每个国家存在的时间也要纳入考虑,因为这一点和其他因素,如卫生系统的强弱,都会使政府学习如何应对疫情的方式有所不同。

关于疫情报道,还有一个重要指标需要牢记,那就是感染致死率,即因感染新冠肺炎死亡的人数除以所有感染者。这个数字的问题是,每个国家都建立了自己的诊断制度,有些国家比其他国家检测的人数更多,有些国家随着疫情的发展改变了检测频率,这都使得比较变得不可能。当然,在许多国家,据信在登记的病例和死亡数字方面都存在巨大的漏报,前者是由于缺乏检测设备,后者则因为并非所有死亡都被登记,或被认定与新冠肺炎有关。这使得像英国、美国与印度等国家相互很难作比较。例如,在英国,疫情之初只有入院的人才能接受检测,这使得死亡率似乎比实际情况更高,因为只有最严重的病例被检测出来。

这场疫情已经证明,每个领域的记者都必须具备数据素养,以便正确处理汇总数据。我们应该注意不要误用不可比较的变量。许多公职人员都会犯这种错误,作为记者,我们必须学会识别这些错误并加以避免。

另一个例子来自疫情前的世界。哥伦比亚第一个事实核查机构 Colombiacheck 曾核查一名国会女议员的说法,她说该国的农村土地集中在黑人和原住民手中,这引起了巨大的争议,因为由于该国内部的长期冲突,这些群体经常成为被剥夺土地的受害者。在核查她的说法时,记者发现,尽管官方数字确实显示这两个群体拥有的土地总数比其他族群的哥伦比亚人多,但如果认为这些群体的集体所有权契约,等于这些群体内的个人可以行使更大的土地所有者权力,那就是错误的。

准确解读数据的小贴士

我们在这里准备了一个检查表,以确保你在文章发表前正确解读数据。

  • 确保每次做调查时都问自己,这些数据是否真的与你的调查问题有关,有足够的信息吗?可以问这样的问题:我看待数据的角度对吗?我对数据提出了足够多的问题了吗?我对数据的拆解足以让我看出其所有重要的细微差别了吗?其中的变量有可比性吗?
  • 根据你掌握的数据的程度来讲故事。如果你只有国家层面的信息,你的发现就应该只针对国家趋势或预测。如果你有个人层面的数据,那么你可以对人们的行为或趋势做出结论。
  • 验证你所分析的变量是否有直接的因果关系,或者是否有应该考虑的中间因素。你可以通过查看数据的收集和处理方式来做到这一点。
  • 如果数据的相关性不是因果关系,而是预测性的,那么一定要以这种方式来讲述故事,用这样的句子:“如果x增加,y将更有可能下降。”如果相关性是种巧合,就考虑放弃它。
  • 注意数据表每一项信息代表什么(人、事实、案例或是位置),并相应地描述你的发现。
  • 当发现异常值时,不要急于快速发布它们。首先,看看对任何极高或极低值的解释是否真的使它们具有新闻价值,数据是否有缺陷,或者是否有额外因素来解释异常值。
  • 考虑用什么运算来分析您的数据,百分比、平均值、比率还是比例。你的决定将取决于数据的特点和故事主题。
  • 与专家交流。统计学家可以帮你识别你所处理的数据类型:预测性、因果性、可比较性或不可比较性等。此外,你的故事的特定领域专家,应能帮助你看到数据差异、误读、遗漏因素和新的相关性等。

最后,请始终牢记,这些通过深入挖掘数据而产出的报道,会影响了人们和政府的决策方式。这说明数据处理和数据素养至关重要,如果我们没有考虑到所有必要因素,在没有必要的背景分析的情况下得出结论,我们可能会引起人们对错误焦点的关注,无意中说服人们养成可能伤害他们的习惯,或只讲了一个与大多数人无关的故事。


Miriam Forero Ariza 是哥伦比亚自由调查记者和数据记者,她的报道曾在 VICE、Colombiacheck 和 El Espectador 等媒体发表。Ariza 在合作调查、数据分析和可视化方面有十多年的经验,她也是《伊比利亚美洲数据新闻手册》(Iberoamerican Data Journalism Handbook)的合著者。

您可以根据知识共享协议条款免费转载这篇文章

转载


阅读更多

深度报道技巧

跨境调查远洋渔业,《Ocean Inc.》是如何做到的?

“环境报道联盟”的跨境调查《海洋有限公司》获得了2022年SOPA卓越环境报道奖,这组报道由14间新闻机构和来自13个国家的记者合作进行。他们是如何协调来自不同文化和背景的记者?又有什么调查经验值得借鉴?全球深度报道网采访了参与项目的记者和编辑。