

圖:Shutterstock
作為一名熱衷於網站調查的研究者,我曾為《核實手冊》(Verification Handbook)最新版撰寫一個章節,並一直在尋找新工具和方法來關聯不同網站、識別所有者,以及分析網站的內容、基礎設施和特徵。
“信息洗衣機”(Information Laundromat)是我接觸到的最新且最有價值的免費網站分析工具之一。它由喬治·馬歇爾基金會下屬的民主安全聯盟(Alliance For Securing Democracy, ASD)開發,能夠分析內容和元數據。ASD與阿姆斯特丹大學和戰略對話研究所的研究人員合作,在他們最近發布的《俄羅斯宣傳套娃:RT如何嵌入數字信息環境》報告中使用了這一工具。
“信息洗衣房”主要分析兩個方面:網站發布的內容和構建運行網站的元數據。以下是基於我的初步測試和對該工具開發者 Peter Benzoni 的採訪所總結的工作原理。
據 Peter 介紹,信息洗衣房最適合生成調查線索:“它不是為了自動化你的調查工作。”該工具是開源的,可在 ASD 的 GitHub 賬戶上下載使用。
內容相似性分析

圖:數字調查截圖
該工具通過分析鏈接、標題或文本片段,識別具有相似或相同內容的其他網絡資源。在 ASD 的調查中,這一功能尤為有用,因為研究人員需要確定哪些網站頻繁複制俄羅斯國家廣播公司俄羅斯今日(RT)的內容。研究發現,這些轉載RT內容的網站在傳播和洗白RT觀點方面扮演了重要角色。
工作原理
- 輸入需要檢查的URL、標題或文本片段。
- 系統通過搜索引擎、Copyscape 抄襲檢查工具和 GDELT 數據庫分析並對比源內容與其他網站的相似度。
- 結果頁面按照與原始內容的相似度百分比對網站進行排序。
我用一篇已知幾乎完全複製自他處的新聞文章URL進行了測試。信息洗衣房準確識別出了原始文本來源,並給出了97%的相似度評分。

網站截圖
該工具也明確指出了它無法做到的事情:
內容相似性搜索嘗試在公開網絡上查找相似文章或文本,但不提供文本來源的證據,也不表明發布相似文本的兩個實體間存在任何關係。確定特定文本的出處超出了此工具的範圍。
如果獲得大量結果,Peter建議“將所有內容下載為Excel文件,然後使用數據透視表自行分析”。
Peter 表示,相似度達到70%或更高的網站可能最值得關注。該工具還提供批量上傳選項,只需在網站上註冊即可。
元數據相似性分析

網站截圖
“信息洗衣房”的元數據相似性工具在分析一組網站時效果最佳,也可用於單個網站分析,但效果較差。
工作原理
- 輸入你想分析共享連接的一組域名。
- 該工具掃描每個域名,包括 IP 地址和源代碼等基礎設施,提取獨特指標並確定域名間的重疊。它會標記 IP 地址的直接匹配,並突出顯示網站是否託管在同一IP範圍內(這是較弱的連接,但仍值得注意)。除了尋找獨特的廣告和分析代碼外,該工具還會掃描網站的CSS文件查找相似之處。Peter 告訴我,“CSS類必須有90%以上的相似度”才會被標記為值得注意。(點此查看該工具的完整網站指標列表)
- 元數據頁面將結果分為兩部分
- 第一個表格列出每個網站上存在的指標。
- 第二個表格確定網站間共享的指標。
- 該工具還根據每個指標的相對強度對結果進行排序。(我會在本文最後一部分詳細解釋)
“這個工具的目的是嘗試找出任何可用於將網站聯繫在一起的信息,”Peter 表示。
如果你不熟悉通過分析和廣告代碼連接網站的方法,可以閱讀這個基本指南和我最近的文章(建議先閱讀指南)。“信息洗衣房”的元數據模塊對於熟悉網站基礎設施並了解如何使用指標連接網站的人最有用。使用此工具的風險在於,如果不了解各指標和連接的相對強弱,可能會做出錯誤判斷。
Peter 認為,元數據分析工具是尋找網站間連接的絕佳起點。
“如果你有一組網站,想了解它們之間可能的重疊,這是快速獲取概覽的好方法,無需在多個工具中手動操作,”他說。
我認為這對於可能存在連接的網站組,這是很好的起點。信息洗衣房能提供潛在連接的有用概覽。隨後,你可以利用這些信息,通過 DNSlytics、BuiltWith、SpyOnWeb 等平台進行深入研究。
雖然該工具最適合處理多個域名,但也可用於單個 URL 分析。這對提取分析代碼等指標很有用,方便在其他平台上搜索。你還可以查看該URL是否與信息洗衣房數據庫中約10000個域名共享任何指標。工具的“關於”頁面列出了數據來源
- EU vs Disinfo的數據庫
- 來自合作組織的研究,如戰略對話研究所(ISD)關於RT鏡像網站的報告
- 已知的國家官媒網站
- 不可靠來源、粉紅泥網站和假本地新聞網站的列表
- 維基百科的虛假新聞網站列表和維基數據的新聞網站列表
值得注意的是,Peter 表示,目前該工具不會將用戶輸入的域名添加到數據庫中。因此,使用敏感域名進行搜索時,你可以放心,這些網站不會被添加到信息洗衣房數據集中。
技術網站指標排名
了解工具發現的網站指標的相對強弱至關重要,否則可能會誇大網站間的聯繫。幸運的是,“信息洗衣房”的文檔提供了指標的分類。
例如,多個網站使用 WordPress 只是一種弱連接,因為全球有數億網站使用 WordPress。但如果它們都使用相同的 Google AdSense 代碼,網站間的聯繫就強得多。
理想情況下,你應該識別連接網站的多個技術指標,並結合其他信息來正確評估連接強度。
為幫助分析,信息洗衣房將指標分為三個等級,結果頁面使用顏色編碼區分強、中、弱指標。你仍需進行自己的分析,但這是一個有用的起點。

使用RT相關域名運行的元數據搜索示例。網站截圖
以下是“信息洗衣房”文檔中的三個指標等級
-
- 第1級:這些指標“通常是獨特的或高度指示網站來源的”,包括“用於驗證目的的唯一ID和Google、Yandex等網絡服務,以及WHOIS信息和認證等網站元數據”。
- 第2級:此類指標“對網站來源提供中等程度的確定性”,它們“提供有價值的背景”,包括“同一子網內的IP、匹配的元標籤以及標準和自定義響應頭中的共同點”。
- 第3級:建議將這些指標與更高級別的指標結合使用,包括“共享的CSS類、UUID和內容管理系統”。
本文最初發表在 ProPublica 記者 Craig Silverman 的 Digital Investigations Substack 上 ,GIJN 經許可翻譯轉載。
Craig Silverman 是 ProPublica 的記者,報道選舉、平台、虛假信息和在線操縱。他之前是 BuzzFeed News 的媒體編輯,開創了數字虛假信息報道。