辅助功能设置

文字大小

色彩设置

单色 柔和色 dark

阅读工具

底部遮盖 标尺

文章

互联网有96%的内容都位于“深网”,我们要如何才能检索到?

来自全世界的调查记者齐聚在汉堡第十一届全球深度调查报道大会。图片:Nick Jaussi / nickjaussi.com

来自全世界的调查记者齐聚在汉堡第十一届全球深度报道大会。图片:Nick Jaussi / nickjaussi.com

大多数的记者每天都会使用谷歌进行检索,但是搜索引擎能够覆盖的范围只有 4%,而无法被搜索引擎搜到的部分基本都可以划归为「深网」(Deep Web)的范畴。如何检索「深网」的内容?德国记者与新闻培训专家 Albrecht Ude 在第11届全球深度报道大会上分享自己的经验。

「如果你要找的内容藏匿在深网里,那么搜索引擎肯定是毫无用处的。」Ude 说。

那么记者该如何获取深网中的信息呢?

Ude 认为我们应该使用抽象思维——不要去想具体内容,而需要发挥想象力,猜想你想要的内容可能被放在互联网的哪个角落。基于这种猜想,再去寻找相关的数据库。

但搜索引擎通常只能搜索到数据库的文件名,而覆盖不到数据库的具体内容。所以在检索具体数据的这步上,你只能亲力亲为。例如,如果你需要某位建筑师的住址与联络信息,你可以查看有没有地区性的建筑师协会数据库,然后再浏览查阅数据库中存储的内容。

Ude 分享了四个小贴士,帮助你找到搜索引擎覆盖不到的数据库:

1. 是谁在运营数据库?

在你寻找信息的时候,问问自己:谁最有可能投入时间与金钱去建立、维持一个包含这些信息的数据库呢? Ude 认为,这个问题是搜索引擎解决不了的,「只能由你的头脑解决」。

2. 善用搜索引擎语法

根据搜索引擎的算法,你可以在搜索引擎中输入「database OR directory OR catalogue OR registry」,这样你就可以得到相应的数据库///记簿。如果你希望保护自己的信息隐私,荷兰公司运营的网站 www.startpage.com 可以帮你去进行谷歌检索,同时在你与谷歌之间作为屏障,避免你的搜索信息被谷歌保留。

3. 活用维基百科

维基百科上浏览条目时,留意页面底部「外部链接(External links)」的板块。Ude 认为,这些链接指向的内容质素通常来说都比搜索引擎得到的结果要高。

维基百科分类页面与关键词链接同样是很好的线索。如果你需要将候补结果的范围缩小到特定语言,你可是尝试使用该语言进行搜索。

维基百科上,你也可以找到数据库的清单。例如,一些学术数据库的清单与一个在线数据库的清单

4. 搜索资料库列表

当用英文搜索的时候,在搜索引擎里输入「a * z database」 这会让你得到很多按照字母表顺序排列的数据库。

活用你所在城市的大学图书馆。这能够让你有权限获取到上千万的科学数据库,而这些数据库通常都是会收费的。如果你不是该校在读学生,也可以考虑向大学读书馆购买在线数据库服务,这也比一般数据机构收取的年费要便宜多了。

如果有必要的话,一定要试试用其他语言进行搜索。

彩蛋

Ude 样分享了一些你不可错过的数据库:

想要搜索历史记录、已被删除的网页,存档是最好的工具。例如,你可以找到某公司已经从网上移除或更改的信息或者。你可以在 WaybackMachine 进行搜索,寻找被归档的页面, 或者在 Archive.today,根据你的需求对特定页面进行存档。

IANA Root Zone Database 可以找到所有有效、可用一级域名的拥有者个人信息。虽然由于新的隐私法律,新近的域名拥有者信息将不会在欧盟国家提供;但只要你是记者,都可以努力尝试去交涉,看有否协调的余地。

WorldCat 是一个全球性的图书馆目录,在这里你可以找到任何已出版图书的信息。而如果人名是你的线索, WorldCat’s Identities 则会是最实用的工具。

如果你希望调查一个互联网骗子,Ude认为 Common Vulnerabilities Exposures 数据库是一个很好的工具,因为这个网站对每个已知的互联网漏洞都了如指掌

Tenders Electronic Daily 列出了欧盟的花费明细,可以看到钱究竟被花到了什么地方。专为调查者设计,每日更新。

Directory of Open Access Journals 列出了经历过同侪覆核、并可免费获取阅读的科学期刊文章。

如果想要找到数据库,国家图书馆是很好的资源。维基百科上有一个 国家图书馆与州立图书馆的清单

德国新闻机构《时代周报》线上版将 德国所有的街道名 OpenStreetMap 统整合到了一起. 如果你只知道街道名,而不知道这条街道位于哪座城市,这个工具将会非常实用。

您可以根据知识共享协议条款免费转载这篇文章

转载


阅读更多

GIJC 侧记 GIJC23

#GIJC23 侧记:危险者的聚会

“如果把这两千多个人都消灭了,全世界的独裁者应该会睡个好觉。”在 GIJC23 现场,我们一直开这样的“地狱玩笑”,却又如同另类的集体心理诊疗。自由作者邹思聪在这篇侧记中讲述了三位俄罗斯流亡记者的故事——他们虽然再也无法回国,却在异乡坚持报道、建立生活。

GIJC 侧记 GIJC23

#GIJC23 侧记:哪怕空间再小,也不要停止做事

在参会之前,于月想知道这个世界上有没有哪些同行和我们一样处境艰难,又是怎样克服?在听到来自世界各地的同行分享后,她觉得哪怕空间再小,也不要停止做事。

GIJC 侧记 GIJC23 全球深度报道大会

GIJC 侧记:残缺的数据,模糊的面孔,天秤倾斜的判决——从女性杀戮报道说起

如今我们究竟需要怎样的报道?在影响力如此受限的当下,我们究竟如何定义和看待“impact”?在报道杀戮女性的分享中,独立记者易小艾找到了部分答案:有些记录,若没有留下,真的会丢,若还有一些力气,就一起守住每一个留下记录的可能吧。