辅助功能设置

文字大小

色彩设置

单色 柔和色 dark

阅读工具

底部遮盖 标尺

文章

新闻人网络数据采集入门

Backlit_keyboard-1024x576-771x434还记得今年年初Twitter在几小时内损失80亿美元(约合512亿人民币)的事情吗?这都得“归功于”网络爬虫(web scraper)——一种许多公司和数据新闻记者都在使用的网络工具。

网络爬虫其实是一种能读取、分析网页HTML代码的电脑程序。有了这样一个程序(又称“机器人自动程序”),用户就可以从网页采集数据和信息了。

让我们回到今年4月份,看看当时发生了什么。由于季度财报数字不太理想,Twitter本想在证券交易所收盘之后才公布结果,以避免投资者信心受到重创。很可惜的是,由于一个错误,股市收市前其财报就被放上了网,45秒后才被撤下。

然而正是在这关键的45秒里,网络爬虫程序找到了这些数据,将其格式化并自动发布到了Twitter上。(现在,连自动程序都能抢到独家新闻了!)

Twitter1这条推文一经发布,便引起了交易者们的强烈反应。而对Twitter来说,这无疑是场灾难。运行该自动程序的Selerity是家擅长实时分析的公司,一时间也成了众矢之的,只好在事件发生几分钟之后对情况进行解释。Twitter2

对于自动程序来说,45秒的时间几乎能算是“地老天荒”了:根据Selerity公司的说法,它的自动程序发布财报结果只用了3秒钟

网络数据采集与新闻业

随着越来越多的公共机构在网站上发布数据,懂编程的记者们会发现,网络数据采集正越来越成为他们的好帮手。

譬如说,在为Journal Métro写报道的时候,我就曾利用网络爬虫抓取数据,以比较魁北克酒业专业局(Société des alcools du Québec)1.2万种商品和安大略酒类控制局(the LCBO in Ontario)1万种商品的价格。

2还有一次,我打算在萨德伯里(加拿大安大略省南部城市)调查当地餐厅食品检查的情况。所有这类检查的结果都发布在萨德伯里健康部门(the Sudbury Health Unit)的网站上,但网站却没有下载所有数据的功能,人们只能逐个核对所有餐厅的情况。

为了提高效率,我先是要请求检索保存了检查结果的整个数据库,但被拒绝。之后我又提交了一份公开信息申请,但健康部门却要求我为此先支付2,000美元(约合12,797元人民币)的费用。

我没有交钱,而是决定编写自己的自动程序,以从萨德伯里健康部门的网站上直接抓取全部信息。结果如下:

https://youtu.be/stxLKV_1LEg

这个程序是用Python写成的,并在Selenium library(一种配合自动程序运行的软件)的帮助下控制Google Chrome浏览器。该程序逐个点击健康部门对1,600个设施的检查结果,抓取数据,并把信息存为Excel文件。

如果单靠手工操作的话,这项工作得花上你几个星期。而利用自动程序,一个晚上就能搞定。

3不过,当自动程序不知疲倦地抓取成千上万行代码时,有个想法一直困扰着我:网络数据采集的道德标准是什么?

我们有权利抓取任何网络信息吗?网络数据采集与黑客行为的界线到底在哪里?对于目标机构和读者来说,我们又该如何保证采集过程的透明度?

作为记者,我们必须遵守最高的(职业)道德标准,否则,读者们怎么能相信我们报道的都是事实呢?

可惜,魁北克职业新闻工作者联合会(Fédération professionnelle des journalistes du Québec)于1996年采用、2010年修订的专业守则已经过时,给不了我明确完整的答案。

加拿大记者协会(Canadian Association of Journalists)的(职业)道德指引颁布时间较新,但也没能说清楚这个问题。

魁北克大学蒙特利尔分校的新闻学教授Jean-Hugues Roy表示:“这些是全新的领域。新的工具促使我们重新思考(职业)道德的定义,(职业)道德标准也应与技术共同发展。”

因此,我决定自己去找答案。我联系了几个加拿大数据新闻记者,进行了一次调查。相关结果将会陆续发布,敬请关注。

注:如果你想试着开发自己的网络爬虫,可以参考我在2月份发布的一个简短教程。从中你能学到如何抓取加拿大国会网站的数据。


nael-140x140Nael Shiab毕业于加拿大国王学院大学数字新闻硕士项目。他曾在加拿大电台担任视频记者,目前是Transcontinental的数据新闻记者。他的Twitter账号为 @NaelShiab

转载


阅读更多

深度报道精选

深度报道精选:工厂真的卷不动了

卷不动的中国工厂、44岁生下第三个孩子的农村智残女性、直播间里的“神药”生意经……全球深度报道网精选了11月几篇值得一读的深度报道和数据新闻。

深度报道方法

如何将调查报道和美食与生活方式相结合?

美食是社交媒体上最受欢迎的内容之一,但这些内容和调查报道之间存在巨大的鸿沟,在这篇文章中,几位记者探讨了如何将调查报道和美食与生活方式内容相结合,让数亿对美食感兴趣的人也开始关注食品系统中的问题。

GIJC25

GIJC25 全球亮光奖现正接受报名

2025年全球闪亮奖现在正在接受申请,这个新闻奖项由全球深度报道网主办,旨在表彰在发展中国家或新兴国家所做的调查报道,对在恐吓、威胁等困难条件下进行报道的记者、新闻团队或媒体机构作出肯定。