挪威大会第二日报道精选:如何在新闻里使用数据
在新闻中使用数字、采用可视化形式呈现新闻,已经成为新闻报道的普遍做法,看似简单,其实背后技巧多多。
在2015全球深度报道大会上,伊利诺伊大学厄巴纳香槟分校教授、全球深度报道网董事会主席Brant Houston、调查记者与编辑协会(Investigative Reporters and Editors,IRE)的执行总监Mark Horvit及培训主管Megan Luther分享了如何选用数据、如何用数据让新闻更可信以及制作发布数据可视化时的“必记要点”。
如何在海量数据中抽取数据写进故事?相信这是每一个记者都曾经历或仍在苦恼的问题。拥有丰富调查报道实践和培训经验的Houston总结出了几种新闻记者适合使用的数据类型,并强调最重要的前提:清楚新闻故事中使用的数据是为了解决什么问题,我们才能决定能采取什么样的算法;复杂或者含混的数据时常出现,我们有时需要验证算法,或者自己动手算出新数据。
推荐使用的数据类型:
- 在描述一个地区的人口收入或者住房情况时,以中位数取代平均数。中位数是按大小排列时最中间的数字,比平均数更有代表性,更易让读者理解和推测具体情况,并有助于避免收入差距悬殊且低收入人数较多时,使用平均数会拉高收入水平这一陷阱;
- 使用众数反应频率和集中情况。例如,一共有15个人,两人收入500万,两人收入5万,剩下的收入10万,10万是众数,能说明所在团体大多数人的收入水平;
- 使用比例和比率。采用单位平均数据,要点就更清楚了。比例适用于突出不同主体之间的差别;
- 特别关注比率(百分比)变化。假设一个人今年的收入是4万美元,下一年收入为4.2万美元,前后差了2000美元,从百分比来看,收入变动了5%,或者说涨了5%。两组相关数据的百分比变化中就有新闻可挖。譬如,公司的预算上调了30%,而所购买物品的价格仅上涨了2%,那么背后原因是什么?如果有物品选择、预算决策的信息,说不定就能找到猫腻,写成新闻;
- 计算百分比变化时,我们应关注最显著的变化,舍弃轻微变动。
选好了数据,呈现数据也同样重要,用图表展示比文本列举更直观形象。Houston推荐了表格、线形图、饼图、柱状图,都能让读者清晰阅览数据,一看即懂。
同时,他还推荐了几个易于下载表格数据的权威网站:世界卫生组织的Observatory Data(GHO)、世界银行的数据库、联合国网站(能链接到很多重要统计网站或页面)。
数据到手后,需确定要检索的数据目录,掌握基本的分类,同时确定筛选的标准,要见到树林而非树木——从数据看概况而不是局限在小范围。
另一场题为“新闻故事中使用数据的最佳方式”的分享中,来自IRE的Mark Horvit和Megan Luther逐步分析了数据可视化作品当中最通用的数据使用法则。
关于使用数据,选定时间范围非常重要,至少有3年左右的数据对比会更具可信度。
用时间轴展示数据,更容易被读者理解;要想更快更准地选数据 ,就得明白数据库数据的计算方法。
选取数据后,你还需要在数据分析之前做几件事:先把数据备份,算算关键数据来验证它们是否有效、合理,搞清楚每一行每一列的数据分别代表什么。这里有两点非常重要,一是看看有没有缺失的数据,并了解每一行数据的意义,这样就能加快数据分析;二是清楚所选数据应该一共有多少行多少列,有些国家可能会隐藏部分数据,因此在使用之前一定要确认,以免作品中出现离奇数据,无法自圆其说——换句话说,你要确保数据是连贯的、计算的数字项是前后一致的。除此之外,也不要做数据假设。
数据分析完成后,最好记录下工作流程和得出的结果,不要只存储数据透视表(pivot tables)就草草了事。要把发现写下来,建立备忘录,并准备好接下来要做的事件清单,或为摄影师和网站等单独建立工作清单。同时,应对照IT或数据讲座、培训分享的内容来确认自己做的对不对。提前考虑怎么呈现数据,别等着呈分析完数据才开始,最好在分析过程中即有一定的预想和准备。
验证你的数据分析。筛选分析出的数据包含项,或者使用不同的结构查询语言,检查你的主要发现和工作记录,也让其他人帮助你检查数据。
单纯的数据不等于好故事,把你的结果分享给例如数据来源机构的官员,以验证自己的数据准确度,听听他们的意见。报告、文件中的数字总数和单个数字相加的结果应该一致,与此同时,也要以其他相关信息来验证数据的有效性。
现在终于可以下笔写新闻了!同样,你不能对数据的使用过于大意:最好用表示程度的词来描述数字,例如“至少”、“多于”、“大约”,以避免后面反复修改。不要在一个作品里使用太多数据,也切勿过分推理自己的数据,只写合理且得到验证的结论。写清楚数据的来源,列出你获取数据的机构名称。
此时,记者得不断问自己:我还不知道的部分是什么?这样会导致什么样的错误结果?有没有把所有的发现结果都与信源对照核查过?是不是每一个数据元素(图片、交互式效果等等)都能确切表达它应该表达的意思?我的发现是不是和所有人的认识相冲突?数据的魅力在于它并不能直接开口告诉你错在哪里,而是会通过结果显示出来。如果分析结果与通识完全不一样,你的报道要么精彩绝伦,要么错得离谱。
你还需要一份最后检查的清单:在采访时,让信源拼写自己的名字和称呼头衔;记录或者抄写采访信息;反复验证可靠信源的言论;保存链接和其他研究成果;询问信源其他新闻报道中偏颇之处,避免犯同样的错误。
在提交之前,多重检查可保证万无一失。最后自己再多看看数字、计算方法、名字、头衔、地点、对照笔记和记录检查笔记、定义、链接、拼写和语法、语句引用等,计算机的拼写检查系统也会出错,所以还是参考权威的拼写建议(字典等)更保险。