辅助功能设置

文字大小

色彩设置

单色 柔和色 dark

阅读工具

底部遮盖 标尺

文章

主题

调查记者罗曼·阿宁:我用什么工具保护隐私和处理数据的?

English

图片由罗曼·阿宁(Roman Anin)提供。

在这一期「工具箱」栏目中,我们采访了33岁的俄罗斯非营利调查新闻网站 IStories 的总编辑罗曼·阿宁(Roman Anin)。

Istories 是 Important Stories(重要的报道)的简写,这个网站于今年在莫斯科上线,目前共有13名员工。短短几个月内,它已经调查了各种不同的选题,如反对派政治家阿列克谢·纳瓦利内(Alexei Navalny)遭到的迫害国家废物管理市场的裙带关系以及可疑的新冠病毒抗体测试

阿宁在摩尔多瓦出生长大,最初的目标是成为一名职业足球运动员。但在17岁时,他因家人移居俄罗斯而离开了足球青年队。为了保持自己与这项运动的连接,他报考了莫斯科国立大学学习新闻学,希望成为一名体育评论员。2006年,他以体育记者的身份加入了莫斯科著名的报章《新报》(Novaya Gazeta)

《新报》是一家处于水深火热之中的媒体。长期以来,该报的调查文化非常浓厚,但自2000年以来,已经有6名员工被谋杀。因此,阿宁不是简单地报道体育赛事,而是很快就开始挖掘足球领域的腐败故事,包括操纵比赛等。

罗曼·阿宁(Roman Anin)

2008年8月,当他的大多数同事都在外出度假时,俄罗斯-格鲁吉亚战争爆发了。《新报》派阿宁去前线报道。回来后,他就加入了该报的调查小组,一直到今年年初。在这个职位上,他报道了律师和税务审计师谢尔盖·马格尼茨基(Sergei Magnitsky)揭露的臭名昭著的欺诈案;2014年索契冬奥会的建筑合同腐败丑闻;以及被指控为一个杀手团队的幕后黑手的阿斯兰·加吉耶夫(Aslan Gagiyev)。其中一些调查是他与「有组织犯罪和腐败报告项目」(Organized Crime and Corruption Reporting Project,简称 OCCRP)合作进行的,阿宁自2009年以来一直是该项目的成员。

阿宁获得了许多新闻奖项,其中2013年因对谢尔盖·马格尼茨基的报道而获得奈特国际新闻奖(Knight International Journalism Award),并获得了俄罗斯调查新闻界最负盛名的三个奖项:阿尔特姆·鲍罗维克奖(Artem Borovik award)、尤利安·谢梅诺夫奖(Youlian Semenov award)和安德烈·萨哈罗夫奖(Andrey Sakharov award)。他还因发起了IStories而获得了国际记者中心2020年的奈特开拓者奖(International Center for Journalists’ 2020 Knight Trailblazer Awar)。他对马格尼茨基的报道引发了多个国家的刑事调查,而他对索契运动会的报道让时任总统梅德韦杰夫下令调查。

阿尼宁在斯坦福大学度过了2018-19学年,他是该年度奈特新闻奖学金的获得者。在那里,修读了了编程和心理学课程——他说,这两种技能对新闻业都很有用——也正是在这一年,他产生了创办 Istories 的想法。

VeraCrypt

VeraCrypt 可以让你创建加密文件夹,在其中你可以安全地保存数据。在使用VeraCrypt之前,我使用了TrueCrypt,这是我从朱利安·阿桑奇那里学到的。」

「我来伦敦是为了在维基解密中检索美国驻俄罗斯大使馆的电报。为了传输数据,我不能把它直接保存在我的笔记本电脑上或者云端;我必须妥善保管它。为此,我将数据放在加密的文件夹中。如果有人检查了我的笔记本电脑,他们将无法找到相关文件夹。即使他们找到了,他们也无法进行解密。」

「现在我用一个开源的工具VeraCrypt 来做同样的工作。你可以在电脑上创建加密文件夹,如果需要,也可以上传云端。它还允许你伪装文件夹,让它们看起来不像数据文件夹,而是像应用程序或电影。」

「我每天都用VeraCrypt加密我所有的调查工作。」

LastPass

LastPass 可以储存加密过的密码,它还可以在多个设备间同步,透过它可以在你每个设备上的安全储存密码。由于有了主密码,你可以在LastPass上访问你的所有密码。这款工具可以让你使用许多复杂的密码,并频繁地更改它们,而不必记住所有的密码。我每天都在使用它。」

「我知道安全有多重要,因为我曾经被黑客攻击过。黑客的手法非常复杂,我的SIM卡先是被封锁了,他们复制了一张一样的卡;然后他们请求恢复我的Gmail账户密码到我的手机号码上,于是他们在复制的 SIM 卡上收到了密码。我的建议是,在腐败和专制的地方,在两步认证中,除了密码之外,永远不要将电话号码用作恢复密码或进行两步验证的方式。(我会用 Google Authenticator 作为进行两步验证的工具)。」

「但像我这样的情况很少出现,大多数人被黑客攻击是因为他们使用弱密码,更糟糕的是,在不同的账户上使用相同的密码。LastPass 可以帮助你避免这样的情况发生。你可能会想:如果LastPass的服务器被黑的话,我所有的密码都会被破解吗?答案是否定的。LastPass的服务器确实被黑客攻击过,但没有一个密码被泄露,因为LastPass本身不存储密码,只存储密码的“散列”版本(hash version),无法被破译。」

OpenRefine

OpenRefine 可以让你清理混乱的数据。我在大多数情况下使用 Python 来进行这项工作,但是对于不会编程的人来说,OpenRefine 确实是一个很棒的工具。」

「想象一下,你有一个关于国家合同的电子表格,有数百万行。在如此大量的数据中,肯定会有一些错误,例如供应商的名称,或者日期会混淆,或者一些行会丢失,或者一些价格会以不同的格式书写。那你要如何进行汇总呢?如何计算平均值呢?你必须首先将所有数据放在相同的格式中,我们称之为清理数据。OpenRefine 让你可以轻松做到这一点。」

「我在报道国家废物管理市场的裙带关系的故事中使用了 OpenRefine,因为我有成千上万行关于不同地区不同垃圾填埋场的数据,而我想分析一下最大的垃圾填埋场在哪里。」

「首先,我使用了一个名为 Tabula 的程序,它可以让我将 PDF 文件中的表格提取到Excel中。然后我将这些 Excel 表格上传到 OpenRefine 中进行清理。没有 OpenRefine,我将不得不检查电子表格的每一行,以确保所有的内容都是相同的格式。在过去,我常常花几个月的时间来清理数据。」

IStories 团队。罗曼·阿宁供图

编程

「我通常会用 PythonJavaScript 两种语言见编程。我主要使用Python来收集和分析数据,并执行一些自动任务,而我使用JavaScript——尤其是JavaScript的D3库——来对数据进行可视化。」

「我们在 IStories 的第一个报道是关于政府采购合同的。在最近的俄罗斯宪法公投的背景下,我决定分析政府在这上面花了多少钱,具体花在了什么地方。」

「没有编程,这是不可能做到的,因为我已经整理了40万份公开的合同。我需要分析它们,找出最大的单,对它们进行分类,找出其中的规律。我用 Python 分析了这些数据,也让这篇报道成为我们最受欢迎的文章之一。在调查中发现,俄罗斯政府花了很多钱购买了成千上万的口罩和防护设备供投票站官员使用,而医生在新冠疫情爆发期间却缺乏防护设备,这也告诉让你看到俄罗斯政府的优先事项是什么。」

「我在这个故事上花了大约一周时间,如果没有编程,这是不可能的。我怎么可能在一周内分析40万份合同?」

「在那次调查中,我用 Python 编写了一个小程序,它可以抓取联邦政府采购网站每天发布的信息,并将这些数据与公司登记处的信息相结合。然后,它会对这些合同中提到的供应商进行了一项很表面但非常有用的分析:公司是什么时候成立的?有多少人在公司工作?公司的营业额是多少?谁拥有这些公司?等等。然后,这个小程序会将结果输出成一个HTML文件,每天通过电子邮件发给我和我的记者,这为我们节省了很多时间。」

「我以前有空的时候,就会时不时的去查一下政府的采购数据库。现在一切都是自动完成的。我只需几秒钟就能读完自动生成的文件。」

俄罗斯商事法院数据库

“俄罗斯拥有世界上最好的商业法庭公共数据库,完全免费,而且可以在中间以关键词进行搜索。在大多数法院数据库中,你只能搜索当事人的姓名,但在这个数据库中,你可以在裁决全文中搜索任何关键词,然后以PDF格式输出结果。

但该数据库不能搜索向法院提交的材料或听证会的记录,只能搜索判决书。但这些判决书总结了案件的情况,并附上了法官的判词,所以它们是非常有用的资源。

「当我在调查一家公司时,我会在这个数据库中搜索它的名字,看看它是否是否曾卷入了任何诉讼纠纷。」

「有一次,我突发奇想,在数据库中以 ‘欺诈’、‘数十亿’和‘俄罗斯天然气工业股份公司’作为关键词进行检索,看看俄罗斯天然气巨头俄罗斯天然气工业股份公司是否参与了任何涉及数十亿卢布的欺诈案件。我发现了一个案件,在这个案例中,税务官员正在起诉俄罗斯天然气工业股份公司的一家子公司,因为它通过一家离岸公司以高价购买设备。我最后写了一篇关于此事的报道。」

联合国商品贸易数据库和 Import Genius

「我最喜欢的在线数据库之一是联合国商品贸易统计数据库(United Nations Comtrade Database),它可以让你看到不同国家之间的进出口数据。它非常容易使用,并允许你按特定的进口/出口国家、交易的产品和时间段进行搜索。」

「在俄罗斯对不同的欧洲国家实施制裁后——俄罗斯不会从实施制裁的国家进口一些产品。如果你想知道这将如何影响俄罗斯的进口,可以在联合国商品贸易统计数据库中,将俄罗斯设置成进口国,将其他相关国家作为出口国,然后它就会告诉你有多少产品从相关国家进口到了俄罗斯。我经常使用这个数据库,包括了解俄罗斯将武器出口到哪些国家(非官方交易不会被包括进这个数据库)。」

「我上次使用它是在8月4日黎巴嫩首都贝鲁特发生硝酸铵大爆炸之后。据新闻报道,运载这些货物的船只在前往莫桑比克的途中在贝鲁特被拦截。我想知道莫桑比克是从哪里购买这些爆炸物,之后发现其大部分是来自乌克兰。虽然数据库没有显示这批特定货物的原产地,但可以向我们展示莫桑比克进口硝酸铵的情况。」

「想了解具体的出货情况,可以用另一个数据库 Import Genius,我很喜欢它,但是它很贵,而你只有订阅才能使用它。(自2020年10月起,每月费率从99美元到399美元不等)
“它可以为你提供具体货物的数据,以及参与这些进出口的各方的数据。你可以在上面搜索你感兴趣的公司名或交易登记号。」


Olivier Holmey 是住在伦敦的记者兼翻译。他的作品曾发表在《泰晤士报》(The Times)、《私家侦探》(Private Eye)、《尼曼新闻实验室》(Nieman Lab)等媒体上。

您可以根据知识共享协议条款免费转载这篇文章

转载


阅读更多

报道工具和技巧

从网页、图像或扫描件中快速提取数据的三个方法

对于数据记者来说,快速提取及整理数据尤为重要。但我们找到的原始文件往往并非格式化储存的,它们可能散布在网页各处或是以图像、扫描件形式存在。但借助这篇文章中所推荐的几个工具和方法,不需要任何编程技巧,你就可以在短时间内将不可读的数据进行提取和整理。

报道工具和技巧

2020年,调查记者们最喜欢的工具是……

2020年,「工具箱」栏目采访了来自世界各地的12位调查/数据记者,询问他们最常用的工具是什么,在这篇文章中,我们将他们最为推荐的工具放到了一块,看看来自世界各地的记者们最喜欢的工具有哪些吧!