每周数据新闻精选 | 数据新手“八步走” 快速入门就靠这些资源
近年,数据新闻的热潮有增无减,吸引着无数行业内外的弄潮儿。传统记者如何在数据时代转型?毫无新闻基础的数据爱好者如何跻身炙手可热的数据新闻行列?数据科学在线教育平台DataCamp的记者Karlijn Willems,最近在DataCamp发表博文,详解了数据新闻的概念,并分享了丰富的学习资源与建议,以供有志从事数据新闻、尤其是从零基础开始希望通过自学成才的人士参考。以下,深度君为你编译整理了Willems提到的“八步”自学计划与各类资源。
ProPublica副总编Scott Klein说过,一个好的数据记者应该具备这三点素质:新闻学技巧,设计才能,以及编程头脑。听起来很简单。那么,对记者的教育背景有何要求吗?“新闻学技巧”、“设计才能”和“编程头脑”的具体含义又是什么呢?
Klein表示,在ProPublica的数据团队里,大多数人的确是有新闻学位的,但那并不是必要条件。来自数学或计算机科学背景的数据记者也比比皆是。“对一个想让世界变成更好地方的数学精英来说,新闻业可以说是最好的归宿。”Klein说。
无论你来自任何教育背景,只要具备或炼得Klein所提到的三种技能,你都有机会成为一名数据记者。
但这些技能并不那么容易掌握。事实上,没有几个大学课程会教你那些技能,大部分情况下你只能依靠自学。除了MOOC、大数据大学课程(Big Data University)或一些数据记者开设的个人工作坊,很多数据技能培训都价格不菲,并且有的培训只对媒体里的职业数据记者或数据团队开放。
因此,如何自学,决定成败。
这里主要为数据新闻入门者整理一份自学计划,总结为八个步骤,下文还有更细致的计划分解和相关资源介绍。需谨记,这份计划只是入门贴士,每个人应当根据自己的教育背景和学习习惯再作调整。
- 建立广泛的知识储备;
- 坚持写作;
- 学习一些编程语言;
- 了解数据新闻的操作流程;
- 建立个人工具箱;
- 开始建立你的个人网络;
- 坚持学习;
- 去追求你梦想中的数据工作!
1.建立一个广泛的知识储备
建立知识储备的办法因人而异,其中一条路径是广泛涉猎,通过各种渠道了解未知知识。同时,保持一份好奇心,以激发你发现和学习新鲜事物动力。
广泛的知识储备不仅意味着要对时事热点有全面了解,还包括掌握数学与统计方面的基础知识。Willems建议数据记者和编辑都应该上一些统计课程。OpenIntro和DataCamp就有相关课程可参考。
若想积累数据新闻方面的背景知识,Willems推荐了以下学习材料:
— Scott Klein讲数据新闻史,视频地址在此。
–数据新闻佳作推荐,从数据同行的经验中学习:
- ProPublica–正在消失的星球(A Disappearing Planet),作者 Anna Flagg;
- Bloomberg—美国最危险的工作(The Deadliest Jobs in America),作者 Christopher Cannon, Alex Mclntyre 和 Adam Pearce;
- 《卫报》—解密美国国家安全局(The NSA files: Decoded),作者Ewen MacAskill, Gabriel Dance, Feilding Cage和Greg Chen;
- 伊拉克战争日志可视化(Visualizing the Irap war logs),作者Jonathan Stray和Julian Burgess。
2.不断写作
瞄准特定的受众,结合不同媒介的特点,快速准确地表达主题思想,传递数据的信息——这些都是数据新闻写作的难点。Willems整理了一些在线课程,为你的写作指点迷津(针对英文写作):
—EdX:EdX上有很多新闻学方面的内容。“Journalism for Social Change”和 “English for Journalists: Key Concepts”都是入门好课。
—Coursera:不仅有一般的新闻入门课程,还细分到不同的新闻专题。
—Mediabistro和《卫报》的大师班。
3.学习一些编程语言
学习简单的编程并不仅仅是为了挖掘信息,而更重于呈现信息。选择何种编程语言,需看你要做哪一种数据故事,或是哪一方面的数据工作。网页制作,信息挖掘,还是建立数据模型?对于编程入门者来说,或许最好的方式是先每一项都浅尝,再根据自己的兴趣深入学习某一种技能。
在网页制作方面,精通JavaScript、CSS和HTML人才当下最吃香。EdX和Journocode都有相关教程。
另外一门市场需求很高的技术就是Django(Python)和Ruby。CodeSchool上关于这两门语言的课程不能更全了。
数据记者入门清单上也绝对少不了R、SAS、SPSS和Python 。较以上介绍的语言,这几种更适合用来做数据分析与建模。DataCamp的R入门和Python入门课程,比较适合初学者。SAS与SPSS则可分别通过点击链接获取。
与一般的数据科学研究无异,数据新闻的操作流程也包括数据挖掘、数据整理、数据分析、数据可视化和报道。然而,数据新闻会更偏重于报道和叙事,而非建立数据模型。
–可视化方面的好书推荐:
耶鲁教授、数据科学家Edward Tufte的著作;
The Functional Art: An Introduction to Information Graphics and Visualization (《不只是美:信息图表设计原理与经典案例》,已翻译为中文),作者 Alberto Cairo;
Information Dashboard Design, 作者Stephen Few。
–数据分析:
The Signal and the Noise: Why So Many Predictions Fail—But Some Don’t,作者Nate Silver。
–数据挖掘、整理与可视化:
R和Python学习资源整理
数据工具层出不穷,让人眼花缭乱。如何选择适合的工具?Willems表示,记者不必十八般武艺样样精通,但需具备快速学习的能力和意愿。
根据以上流程,Willems推荐了一些工具,让你的数据工作事半功倍。
–建立个人工作空间
开始编程的第一步,一个方便易用的代码编辑器必不可少。你可以先在VIM、TextMate、Sublime Text,或者像Rstudio、Spyder这样设计较完善的集成开发系统上初试身手。还可以考虑安装Git或其他版本控制系统(versioning control system)来管理你的源代码。
–获取数据
数据是展开任何工作的基础,因此你必须知道从哪些渠道获取数据。
第一种渠道是通过记者的人际网络。
信源对于收集数据至关重要,因为通常记者会更容易发现故事而非数据。有了故事,就意味着有了寻找数据的方向。
另外,推荐数据门户(Data Portals)和数据中心(Data Hub),这两者共收录了11,000多个全球公开数据库。
《卫报》的数据博客也尤其值得入门数据记者参考。
想更多了解如何利用公开数据,公开数据研究院课程(Open Data Institute Courses)和欧洲数据门户(European Data Portal)的e-learning上有很多不错的项目。
获取数据库,还可以通过邮件订阅,如美国调查记者编辑协会的NICAR数据库。
掌握SQL对进行数据库检索大有帮助。去学习使用MySQL, PostgreSQL或者SQL Server吧。TutorialsPoint上有详细教程。
除了现有的数据库,记者还可以抓取网页信息,以获得数据。这时就需要用到Python和R技能了。
最后一招,别忘了还可利用FOI(Freedom of Information“信息自由”)请求权,来获取政府公共部门与机构的相关记录。
–将得到的数据储存到个人空间
储存数据,最基本的就是使用Excel。进阶级别的,可以使用编程语言,把数据上传并保存成.csv、.txt或其他格式的文件。Python和R的两款爬虫:和,还有import.io,都用于从网页上抓取数据。如果要抓取PDF文件上的数据,Tabula是所需工具。
–数据处理
数据处理的意思是以更好地分析为目的,对数据做适当的改动、清理和重构。Python的和程序包,R的 和程序包都是数据处理的神器。在清理结构冗杂的数据集方面,OpenRefine可谓功能强大而又易于上手。也推荐DataWrangler和CSVKit。
–数据分析
R和Python的或可以建模。另外,DataRobot,Knime和RapidMiner这三个在线平台也能帮你发掘数据的联系,建立相关模型以便分析。
–数据可视化
信息呈现,是叙事的重要一环,一些数据可视化技能必不可少。不太会编程也能“玩”起来的的可视化工具有Tableau、Olikview、TileMill、infogr.am、 Google Fusion、QGIS, ArcGIS等。如果你是JavaScript、Python或R语言大牛,那么使用D3.js、、 或者制图对你来说就不在话下了。
–记录你的发现
Tableau或者Qlikview都可以创建仪表盘。信息图表方面,Adobe Illustrator、Adobe Indesign或者Adobe Photoshop都是常用制图工具。对于Python和R使用者,你可以把代码和可视化存于“笔记本”,如Jupyter 和R Markdown文档。
6.开始建立个人网络
想成为一名数据记者,建立个人网络有助于找故事灵感和各种指导。
以下是数据新闻界“大咖”的推特名单,值得关注:
此外,你还可以加入Reddit群组或者LinkedIn,以便跟进最新的数据新闻。推荐Reddit上的小群/r/theydidthemath和/r/datasets。
再者,可以在这个Meetup网页上留意你所在地区附近的数据群组线下活动。通过Data Driven Journalism或European Journalism Center,你也可以了解你所在地区的一些数据比赛或大会。
Knight-Mozilla Open News在线社群聚集了不少创新新闻开发者、设计师和数据记者,同样推荐。
–关注一些有趣的数据网站
政治和新闻博客类:FiveThirtyEight,《纽约时报》的The Upshot,ProPublica Nerd Blog;
数据可视化:Eagereyes,FlowingData;
数据记者和专家的个人网站:Maarten Lambrechts,Alberto Lucas Lopez,John Burn-Murdoch等。
–听听相关播客
这个名叫Data Stories 的播客网站专门讲数据可视化;ProPublica总编Scott Klein曾分享过他们团队如何做数据新闻;Partially Derivative和FiveThirtyEight的播客都不错。
—阅读相关书籍
数据新闻相关书籍有很多,在此推荐两本:
Getting Started with Data Journalism,作者 Claire Miller
Numbers in the Newsroom: Using Math and Statistics in News,作者Sarah Cohen
–其他学习资料
美国明尼苏达大学数据新闻教授MaryJo Webster的教学材料整理;
R,Python在线教程。
–动手尝试
先开始独立做一些小项目:找一些数据,尝试分析,制作可视化,并写下你的发现。在Kaggle和DrivenData这两个网站上,除了能找到许多学习资源,还可以发掘有意思的数据项目,或投稿加入数据竞赛,大展身手。
下一步,尝试建立个人博客,发表作品,展示你的能力。这还会成为你简历上亮眼的一笔。
8.去追求你梦想中的数据工作吧!
完成了上述几个步骤,是时候考虑正式申请数据记者这份工作了。
几个找工作的网站推荐:News Nerd Jobs,Indeed.com,NICAR listerv,Mediabistro Job Listings,Linkedin,还有Journajobs。
最后的建议:
对所有数据新闻入门者的最佳建议,就是如Maarten Lambrechts所说,“开始动手做数据新闻吧!”
最后送上几条小贴士:
不要气馁。万事开头难。刚起步时必定会遇到各种各样的问题,但千万不要放弃。要从实践中学习,而这需要一段过程。
从小地方起步也不要紧。有些媒体的数据团队是很小,可是又有什么关系呢,“小处”也有大学问。
慢慢来。要能判断出某些项目的价值需要经验的积累。有时你可能会花很长时间在一些数据上,到头来却没有发现任何故事。同样,建立个人网络、熟悉整套操作流程都需要长时间的积累。
编译/梁思然
编辑/Ivan Zhai
想了解更多数据新闻资源,敬请继续关注深度网分享。
推荐阅读: