輔助功能設置

文字大小

色彩設置

單色 柔和色 dark

閱讀工具

底部遮蓋 標尺

文章

互聯網有96%的內容都位於“深網”,我們要如何才能檢索到?

來自全世界的調查記者齊聚在漢堡第十一屆全球深度調查報道大會。圖片:Nick Jaussi / nickjaussi.com

來自全世界的調查記者齊聚在漢堡第十一屆全球深度報道大會。圖片:Nick Jaussi / nickjaussi.com

大多數的記者每天都會使用谷歌進行檢索,但是搜索引擎能夠覆蓋的範圍只有 4%,而無法被搜索引擎搜到的部分基本都可以劃歸為「深網」(Deep Web)的範疇。如何檢索「深網」的內容?德國記者與新聞培訓專家 Albrecht Ude 在第11屆全球深度報道大會上分享自己的經驗。

「如果你要找的內容藏匿在深網裡,那麼搜索引擎肯定是毫無用處的。」Ude 說。

那麼記者該如何獲取深網中的信息呢?

Ude 認為我們應該使用抽象思維——不要去想具體內容,而需要發揮想象力,猜想你想要的內容可能被放在互聯網的哪個角落。基於這種猜想,再去尋找相關的數據庫。

但搜索引擎通常只能搜索到數據庫的文件名,而覆蓋不到數據庫的具體內容。所以在檢索具體數據的這步上,你只能親力親為。例如,如果你需要某位建築師的住址與聯絡信息,你可以查看有沒有地區性的建築師協會數據庫,然後再瀏覽查閱數據庫中存儲的內容。

Ude 分享了四個小貼士,幫助你找到搜索引擎覆蓋不到的數據庫:

1. 是誰在運營數據庫?

在你尋找信息的時候,問問自己:誰最有可能投入時間與金錢去建立、維持一個包含這些信息的數據庫呢? Ude 認為,這個問題是搜索引擎解決不了的,「只能由你的頭腦解決」。

2. 善用搜索引擎語法

根據搜索引擎的算法,你可以在搜索引擎中輸入「database OR directory OR catalogue OR registry」,這樣你就可以得到相應的數據庫///記簿。如果你希望保護自己的信息隱私,荷蘭公司運營的網站 www.startpage.com 可以幫你去進行谷歌檢索,同時在你與谷歌之間作為屏障,避免你的搜索信息被谷歌保留。

3. 活用維基百科

維基百科上瀏覽條目時,留意頁面底部「外部鏈接(External links)」的板塊。Ude 認為,這些鏈接指向的內容質素通常來說都比搜索引擎得到的結果要高。

維基百科分類頁面與關鍵詞鏈接同樣是很好的線索。如果你需要將候補結果的範圍縮小到特定語言,你可是嘗試使用該語言進行搜索。

維基百科上,你也可以找到數據庫的清單。例如,一些學術數據庫的清單與一個在線數據庫的清單

4. 搜索資料庫列表

當用英文搜索的時候,在搜索引擎里輸入「a * z database」 這會讓你得到很多按照字母表順序排列的數據庫。

活用你所在城市的大學圖書館。這能夠讓你有權限獲取到上千萬的科學數據庫,而這些數據庫通常都是會收費的。如果你不是該校在讀學生,也可以考慮向大學讀書館購買在線數據庫服務,這也比一般數據機構收取的年費要便宜多了。

如果有必要的話,一定要試試用其他語言進行搜索。

彩蛋

Ude 樣分享了一些你不可錯過的數據庫:

想要搜索歷史記錄、已被刪除的網頁,存檔是最好的工具。例如,你可以找到某公司已經從網上移除或更改的信息或者。你可以在 WaybackMachine 進行搜索,尋找被歸檔的頁面, 或者在 Archive.today,根據你的需求對特定頁面進行存檔。

IANA Root Zone Database 可以找到所有有效、可用一級域名的擁有者個人信息。雖然由於新的隱私法律,新近的域名擁有者信息將不會在歐盟國家提供;但只要你是記者,都可以努力嘗試去交涉,看有否協調的餘地。

WorldCat 是一個全球性的圖書館目錄,在這裡你可以找到任何已出版圖書的信息。而如果人名是你的線索, WorldCat’s Identities 則會是最實用的工具。

如果你希望調查一個互聯網騙子,Ude認為 Common Vulnerabilities Exposures 數據庫是一個很好的工具,因為這個網站對每個已知的互聯網漏洞都了如指掌

Tenders Electronic Daily 列出了歐盟的花費明細,可以看到錢究竟被花到了什麼地方。專為調查者設計,每日更新。

Directory of Open Access Journals 列出了經歷過同儕覆核、並可免費獲取閱讀的科學期刊文章。

如果想要找到數據庫,國家圖書館是很好的資源。維基百科上有一個 國家圖書館與州立圖書館的清單

德國新聞機構《時代周報》線上版將 德國所有的街道名 OpenStreetMap 統整合到了一起. 如果你只知道街道名,而不知道這條街道位於哪座城市,這個工具將會非常實用。

您可以根據知識共享協議條款免費轉載這篇文章

轉載


閱讀更多

2025 全球亮光獎

2025年全球亮光獎決賽入圍名單:中小型媒體類別

來自11個國家的13個調查項目獲評選入圍2025年全球亮光獎(GSLA)決賽,在這篇文章中,我們和你分享6個入圍決賽(中小型媒體類別)的作品,它們分別聚焦於移民、野生動物販運、貪污、濫用刑事司法系統等新聞議題。

2025 全球亮光獎

2025年全球亮光獎決賽入圍名單:大型媒體類別

來自11個國家的13個調查項目獲評選入圍2025年全球亮光獎(GSLA)決賽,在這篇文章中,我們和你分享7個入圍決賽(大型媒體類別)的作品。它們分別就移民、有組織犯罪、戰區侵犯人權行為等主題進行了有力的調查。