辅助功能设置

文字大小

色彩设置

单色 柔和色 dark

阅读工具

底部遮盖 标尺

文章

做好数据分析的关键:建立一个数据档案

编者注:看似客观的数据,实际上可能会受到收集流程中的种种因素影响,而不能够客观地反映事实。因此,数据科学家Heather Krause认为,做好数据分析与报道的关键在于建立数据档案,从数据收集的各个环节深入了解数据。在下文中,Krause结合报道实例,解释了考究数据背景的重要性,以及如何建立一个属于数据的档案。


对我而言,参加NICAR(计算机辅助报道)会议最重要的收获之一,就是认识到数据新闻既复杂又有趣。与会期间,我带头做了一个关于梳理数据档案之重要性的展示。在这篇文章中,我想和诸位分享一下我展示的内容。

许多专家用几年、甚至几十年的时间去钻研如何用数据为读者讲述动人故事。现在有越来越多的人加入这个行列,学习如何运用数据,以及尝试用数据做报道。当我将学生们领入数据分析和可视化的世界时,经常被问到使用数据最重要的一步是什么,我的答案始终是:对数据追根溯源,整理数据档案

数据入门者常常只看到数据的表面价值,认为他们第一眼从数据中看到的东西即是其中真实且唯一的故事。我想鼓励大家像对待人物信源那样对待数据。你们不会在没有对信源进行背景研究的情况下撰写故事——那么对待数据的方式为什么会不同呢?

了解你的数据

对于将出现在报道中的每一项数据,你都需要建立一个数据档案,包括数据的背景或者来源。正如在发表任何报道前,你会对有关信源进行背景调查那样,你得理解你的数据:

  • 数据从何而来
  • 数据的收集者为何人
  • 数据的收集流程如何
  • 最重要的是,为什么要收集这组数据?

这项任务不会像第一眼看上去那么简单,但是去了解你的数据可助你发现故事中重要的差距、偏见、错误信息,或被忽略的细节。请这样思考:如果医生说,你需要在饮食中添加糖的摄入,你也许会认为他的建议是有医学依据的。而倘若一位焦糖苹果销售员这样和你说,你大概就不会这么想了。同理,数据不仅仅是你面前的数字,而首先是关于那些数字来龙去脉的故事。

实例研究:对女性所受暴力的统计数字

不久之前,我们的团队忙于一份关于女性所受暴力的数据报道。我们花了点功夫寻找数据来源。在确定联合国是一个很好的着手点后,我们下载了联合国有关侵害妇女暴力行为和亲密伴侣暴力的数据,并对此展开分析。

在检查女性一生中所遭受亲密伴侣暴力数据的变量后,我们设计了几个简易的图表来了解各国的趋势:

一些国家的趋势令人意外,妇女遭受暴力比率上显示出不同寻常的变化。我们想知道发生了什么。

快速浏览数据后,按逻辑我们采取的第一步就是为每一项数据建立档案。我们需要知道手上信息的背景,以便更好地了解我们所看到的趋势。

数据从哪儿来?

在这个案例中,我们从数据中注意到的第一件事是信息源自哪里。有些数据反映了所有妇女,有些数据只反映了一定年龄段的妇女,有些只包括处于具体婚姻状况的妇女。所有数据都集中在同一个变量中,使用相同的名称,相同的标签,且均没有提示数据源的差异。

谁收集了这些数据?

接下来,我们研究了这些数据的收集者。通过调查联合国文件,我们发现参与该变量数据收集的人员和机构相当之广。

如何,以及为何收集这些数据?

上述数据的采集方,有的是为了国家统计用途而收集数据;有的是为个案的呼吁;还有的则是测试新的方法。所有的数据,尽管通过不同的方法和因不同缘由收集而成,却最终呈现在同一张表格上,使用相同的变量名称和标签。如果我们没有花时间做这样一个数据档案来了解这些数据,那我们永远都不会意识到这些数据点的差异。

在完成了数据档案后,我们立即发现,数据所呈现的一些明显的趋势,如看上去像是暴力率的显著变化,实际上是数据收集上的变化。

通过使用数据档案,我们发现近年来卢旺达的数据收集相当一致。一旦确定了数据预测的趋势真实反映现实状况,我们就可以继续调查对妇女暴力侵犯率飙升背后的原因。

有趣的是,在上述年份,卢旺达议会中女性占大多数,并通过了该国首个防暴力侵害女性法。这又意味着什么呢?

是否是政府改革的强烈反作用,驱使暴力行为的增加?

又或者是因为女性有了法律保障后,越来越多的暴力事件被新闻报道揭露?

这就说明,即使有了一个完善的数据档案,在解析数据上你仍需小心谨慎。

数据并不总是客观的

最近,我和数据可视化资深专家Alberto Cairo合作,免费讲授了一个在线数据新闻课程,参与过的用户或许记得我们解释建立数据档案的片段。

Heather Krause与Alberto Cairo数据新闻慕课视频截屏(点击图片可获取YouTube视频链接)。

记住,通过花时间梳理数据档案,你可以对信源的准确性和可靠度有足够的信心。想知道为数据档案的捷径?那就下载我们的免费模版吧。

 

 

 

编译/梁晨昱

编辑/Ivan Zhai,梁思然

 

相关阅读:

每周数据新闻精选 | 数据新手“八步走” 快速入门就靠这些资源

每周数据新闻精选 | 成功数据新闻是如何炼成的?

每周数据新闻精选 | 用数据的方式打开世界

 


本文原刊于Datassist网站,深度网经授权转载。

Heather Krause是Datasssit的创始人,该网站专门为全球记者、非营利组织及政策制定者等提供数据咨询、数据报道专业知识与工具等方面的服务。

您可以根据知识共享协议条款免费转载这篇文章

转载


阅读更多

深度报道技巧

凤凰周刊王焕熔:后方操作灾难报道的“快”与“限”

2023年底,甘肃兰州发生地震,“冷杉RECORD”发布报道《零下12度,困于甘肃震中的20个小时》。这篇灾难报道由记者团队全程在后方操作,通过对受灾群众个体的采访,详细呈现了震区情况和受灾群众的状态。编辑王焕熔在这篇文章中分享了这篇稿件诞生的过程和灾难报道的经验。