做好数据分析的关键:建立一个数据档案
编者注:看似客观的数据,实际上可能会受到收集流程中的种种因素影响,而不能够客观地反映事实。因此,数据科学家Heather Krause认为,做好数据分析与报道的关键在于建立数据档案,从数据收集的各个环节深入了解数据。在下文中,Krause结合报道实例,解释了考究数据背景的重要性,以及如何建立一个属于数据的档案。
对我而言,参加NICAR(计算机辅助报道)会议最重要的收获之一,就是认识到数据新闻既复杂又有趣。与会期间,我带头做了一个关于梳理数据档案之重要性的展示。在这篇文章中,我想和诸位分享一下我展示的内容。
许多专家用几年、甚至几十年的时间去钻研如何用数据为读者讲述动人故事。现在有越来越多的人加入这个行列,学习如何运用数据,以及尝试用数据做报道。当我将学生们领入数据分析和可视化的世界时,经常被问到使用数据最重要的一步是什么,我的答案始终是:对数据追根溯源,整理数据档案。
数据入门者常常只看到数据的表面价值,认为他们第一眼从数据中看到的东西即是其中真实且唯一的故事。我想鼓励大家像对待人物信源那样对待数据。你们不会在没有对信源进行背景研究的情况下撰写故事——那么对待数据的方式为什么会不同呢?
了解你的数据
对于将出现在报道中的每一项数据,你都需要建立一个数据档案,包括数据的背景或者来源。正如在发表任何报道前,你会对有关信源进行背景调查那样,你得理解你的数据:
- 数据从何而来?
- 数据的收集者为何人?
- 数据的收集流程如何?
- 最重要的是,为什么要收集这组数据?
这项任务不会像第一眼看上去那么简单,但是去了解你的数据可助你发现故事中重要的差距、偏见、错误信息,或被忽略的细节。请这样思考:如果医生说,你需要在饮食中添加糖的摄入,你也许会认为他的建议是有医学依据的。而倘若一位焦糖苹果销售员这样和你说,你大概就不会这么想了。同理,数据不仅仅是你面前的数字,而首先是关于那些数字来龙去脉的故事。
实例研究:对女性所受暴力的统计数字
不久之前,我们的团队忙于一份关于女性所受暴力的数据报道。我们花了点功夫寻找数据来源。在确定联合国是一个很好的着手点后,我们下载了联合国有关侵害妇女暴力行为和亲密伴侣暴力的数据,并对此展开分析。
在检查女性一生中所遭受亲密伴侣暴力数据的变量后,我们设计了几个简易的图表来了解各国的趋势:
一些国家的趋势令人意外,妇女遭受暴力比率上显示出不同寻常的变化。我们想知道发生了什么。
快速浏览数据后,按逻辑我们采取的第一步就是为每一项数据建立档案。我们需要知道手上信息的背景,以便更好地了解我们所看到的趋势。
数据从哪儿来?
在这个案例中,我们从数据中注意到的第一件事是信息源自哪里。有些数据反映了所有妇女,有些数据只反映了一定年龄段的妇女,有些只包括处于具体婚姻状况的妇女。所有数据都集中在同一个变量中,使用相同的名称,相同的标签,且均没有提示数据源的差异。
谁收集了这些数据?
接下来,我们研究了这些数据的收集者。通过调查联合国文件,我们发现参与该变量数据收集的人员和机构相当之广。
如何,以及为何收集这些数据?
上述数据的采集方,有的是为了国家统计用途而收集数据;有的是为个案的呼吁;还有的则是测试新的方法。所有的数据,尽管通过不同的方法和因不同缘由收集而成,却最终呈现在同一张表格上,使用相同的变量名称和标签。如果我们没有花时间做这样一个数据档案来了解这些数据,那我们永远都不会意识到这些数据点的差异。
在完成了数据档案后,我们立即发现,数据所呈现的一些明显的趋势,如看上去像是暴力率的显著变化,实际上是数据收集上的变化。
通过使用数据档案,我们发现近年来卢旺达的数据收集相当一致。一旦确定了数据预测的趋势真实反映现实状况,我们就可以继续调查对妇女暴力侵犯率飙升背后的原因。
有趣的是,在上述年份,卢旺达议会中女性占大多数,并通过了该国首个防暴力侵害女性法。这又意味着什么呢?
是否是政府改革的强烈反作用,驱使暴力行为的增加?
又或者是因为女性有了法律保障后,越来越多的暴力事件被新闻报道揭露?
这就说明,即使有了一个完善的数据档案,在解析数据上你仍需小心谨慎。
数据并不总是客观的
最近,我和数据可视化资深专家Alberto Cairo合作,免费讲授了一个在线数据新闻课程,参与过的用户或许记得我们解释建立数据档案的片段。
记住,通过花时间梳理数据档案,你可以对信源的准确性和可靠度有足够的信心。想知道为数据档案的捷径?那就下载我们的免费模版吧。
编译/梁晨昱
编辑/Ivan Zhai,梁思然
相关阅读:
每周数据新闻精选 | 数据新手“八步走” 快速入门就靠这些资源
每周数据新闻精选 | 用数据的方式打开世界
Heather Krause是Datasssit的创始人,该网站专门为全球记者、非营利组织及政策制定者等提供数据咨询、数据报道专业知识与工具等方面的服务。