数据新闻精选| R语言和网络图:数据叙事好帮手
R语言能挖掘、整理数据,网络图可以呈现故事脉络,两者各显神通。深度君精选数据网站FiveThirtyEight的R语言应用心得,数据新闻网络图叙事的类型,还可参考《处理数据、制作可视化:数据记者利器推荐》。
1.了解五大优势,巧用R做数据新闻
FiveThirtyEight是专注于做民意调查分析、政经新闻和体育报道的数据新闻网站,由数据分析师Nate Silver 于2008年建立,属于娱乐与体育节目电视网
ESPN。其优秀作品包括Uber对纽约交通的影响探究, 恐怖事件发生频率分析等。他们做数据作品的利器,就是R。
FiveThirtyEight数据编辑Andrew Flowers道出了他们的作品秘诀:数据新闻中,最重要的是故事,其次才是数据。此外,做数据新闻须严谨缜密,简单易懂,保证信息准确、讲述故事,以及数据分析过程的透明。
FiveThirtyEight之所以青睐R语言,是因为R有以下五点优势:
1)R属开源工具
FiveThirtyEight支持信息开源,他们众多报道用到的数据和R代码都分享于GitHub,供读者参考和改进。
2) ggplot2绘图功能强大
R语言扩展包ggplot2可绘制多种个性化统计图表。
3) R整理数据更快捷
数据挖掘是做数据新闻的第一步,但通常而言,你挖的数据格式并不理想,还有可能杂乱无章。R语言的dplyr, tidyr, lubridate, stringr, readr等扩展包是你的好帮手。
4)便于协作
Git/GitHub社区使程序员更易分享与整合信息、互相协作,避免代码出错。
5. 可制作交互图表
用Shiny扩展包,R也可以制作网页呈现的互动图表。
更多细节,请参见Flowers在2016年国际R语言用户大会上的演讲:FiveThirtyEight’s data journalism workflow with R
2. 用网络图讲故事?五种类型要学会
画个图,勾勒人物和事物联系,是理解复杂关系的常用方法。网络图在数据新闻里有何叙事功能?分为几类?阿姆斯特丹大学研究员Jonathan Gray和他人合著论文《叙事型网络图:探索网络图新闻叙事的能力》(Narrating Networks: Exploring the affordances of networks as storytelling devices in journalism),做了探究,总结了以下五种新闻叙事类型:
谷歌图片搜索“大数据”和“可视化”结果
1)探索单个主体的关联网络(Exploring Associations Around Single Actors)
论文把这种以单个主体为中心、向外发散形成的关联网络称为“自我网络”(ego-network)。在叙事中运用“自我网络”,能够清晰呈现某个特定社会单位和与其他单位或个体的关系,适于制作交互式动态图表。
例如,《华盛顿邮报》的交互式新闻作品“美国最高机密”(Top Secret America)展示了美国 45种政府机构的工程类型与其外部供应商形成的系统网络,以文字和动态图表互相补充。读者只需点击机构名称,图表上方就会显示其业务范围和供应商信息。图表中的“自我”,也即作为中心的任意一个单个个体,在图表中的位置和大小、每一块颜色,也都包含着不同的信息,是叙事的一部分。
2)查找关键角色(Detecting Key Players)
指以网络联系的紧密程度来确定网络的关键角色。
国际科学周刊New Scientist的《干细胞之战》(The Stem Cell War)曾用此法,图解国际干细胞研究领域的生物学家在权威学术期刊的引用情况,分析生物学界论文引述的公平性。
如图所示,网络的每个圆点代表一位生物学家,美国和其他国家生物学家分列圆弧的左右两半,以墨绿色和橙色区分。由圆点发散的箭头指向被引用者,箭头越粗表明引用次数越多。
网络中最大的圆点、也即著作被引用次数最多的是京都大学的日本生物学家S Yamanaka,几乎每个人都借鉴过他的研究。但,这是否说明日本科学家在此领域最有发言权呢?New Scientist发现,美国科学家在该领域仍占主导,因为从网络左半部分密集的箭头来看,美国科学家之间相互论文引用次数更多,研究之间的联系也更紧密。反观其他国家的科学家,除了几乎一致引用Yamanaka以外,少数几个还引用了美国科学家的研究,但借鉴非美国同行研究的情况较少。
3)划分敌友界限(Mapping Alliances and Oppositions)
此类网络结构同时展示点与点之间和点群之间的远近,以此揭示个体之间、个体所处的集体之间的双重关系。
范例之一,是加拿大环球新闻网(Global News)的可视化作品《分裂中的多伦多市议会》(Visualizing the Split on Toronto City Council)。作品用红蓝两种点分别代表市长支持方和反对方,以代表中立/独立议员的紫色点连接两方,投票意见一致的议员会在网络中距离更近。
4)探索关联网络的演变(Exploring the Evolution of Associations Over Time)
一般用于时间叙事,注重呈现联系演变。上面提到的多伦多市议会故事,以交互式图表展现议会分歧的演变。读者可通过导航菜单,查看历次分歧变化,深入了解政治角力 。
5)揭示隐藏的联系(Revealing Hidden Ties)
此种网络结构通常描述隐藏的、潜在的系列犯罪联系。每个点代表一位疑犯或同伙(疑犯可为个人、公司或其他团体),每条线代表潜在的犯罪联系。
《洛杉矶时报》曾调查南加州势力庞大的卡尔德伦家族,发表了可视化报道《卡尔德伦家族的关系网》(the Calderon family’s connections),堪称美国版《周永康的人与财》(财新数据可视化实验室作品,曾获国际新闻设计协会多媒体设计奖特稿(单一报道)优秀奖),解密这一家族四大掌门人纵横商、法、学界的犯罪敛财网络。
这一网络的主体是家族四成员以及被他们控制的四个公司或组织,两者之间的箭头代表涉嫌违法的事件和行为,以颜色区分所涉领域。
论文内含丰富的数据新闻案例,详情请阅读原文:Narrating Networks: Exploring the affordances of networks as storytelling devices in journalism 。
编译/梁思然
编辑/周炜乐