辅助功能设置

文字大小

色彩设置

单色 柔和色 dark

阅读工具

底部遮盖 标尺

图:Shutterstock

资源中心

文章

主题

如何使用“信息洗衣机”工具检查网站内容和元数据?

作为一名热衷于网站调查的研究者,我曾为《核实手册》(Verification Handbook)最新版撰写一个章节,并一直在寻找新工具和方法来关联不同网站、识别所有者,以及分析网站的内容、基础设施和特征。

“信息洗衣机”(Information Laundromat)是我接触到的最新且最有价值的免费网站分析工具之一。它由乔治·马歇尔基金会下属的民主安全联盟(Alliance For Securing Democracy, ASD)开发,能够分析内容和元数据。ASD与阿姆斯特丹大学和战略对话研究所的研究人员合作,在他们最近发布的《俄罗斯宣传套娃:RT如何嵌入数字信息环境》报告中使用了这一工具。

“信息洗衣房”主要分析两个方面:网站发布的内容和构建运行网站的元数据。以下是基于我的初步测试和对该工具开发者 Peter Benzoni 的采访所总结的工作原理。

据 Peter 介绍,信息洗衣房最适合生成调查线索:“它不是为了自动化你的调查工作。”该工具是开源的,可在 ASD 的 GitHub 账户上下载使用。

内容相似性分析

Content vs. Metadata Similarity, Information Laundromat website analysis tool

图:数字调查截图

该工具通过分析链接、标题或文本片段,识别具有相似或相同内容的其他网络资源。在 ASD 的调查中,这一功能尤为有用,因为研究人员需要确定哪些网站频繁复制俄罗斯国家广播公司俄罗斯今日(RT)的内容。研究发现,这些转载RT内容的网站在传播和洗白RT观点方面扮演了重要角色。

工作原理

  • 输入需要检查的URL、标题或文本片段。
  • 系统通过搜索引擎、Copyscape 抄袭检查工具和 GDELT 数据库分析并对比源内容与其他网站的相似度。
  • 结果页面按照与原始内容的相似度百分比对网站进行排序。

我用一篇已知几乎完全复制自他处的新闻文章URL进行了测试。信息洗衣房准确识别出了原始文本来源,并给出了97%的相似度评分。

Content similarity score checker Information Laundromat website analysis tool

网站截图

该工具也明确指出了它无法做到的事情

内容相似性搜索尝试在公开网络上查找相似文章或文本,但不提供文本来源的证据,也不表明发布相似文本的两个实体间存在任何关系。确定特定文本的出处超出了此工具的范围。

如果获得大量结果,Peter建议“将所有内容下载为Excel文件,然后使用数据透视表自行分析”。

Peter 表示,相似度达到70%或更高的网站可能最值得关注。该工具还提供批量上传选项,只需在网站上注册即可。

元数据相似性分析

Content Metadata Similarity URLSCAN Information Laundromat website analysis tool

网站截图

“信息洗衣房”的元数据相似性工具在分析一组网站时效果最佳,也可用于单个网站分析,但效果较差。

工作原理

  • 输入你想分析共享连接的一组域名。
  • 该工具扫描每个域名,包括 IP 地址和源代码等基础设施,提取独特指标并确定域名间的重叠。它会标记 IP 地址的直接匹配,并突出显示网站是否托管在同一IP范围内(这是较弱的连接,但仍值得注意)。除了寻找独特的广告和分析代码外,该工具还会扫描网站的CSS文件查找相似之处。Peter 告诉我,“CSS类必须有90%以上的相似度”才会被标记为值得注意。(点此查看该工具的完整网站指标列表)
  • 元数据页面将结果分为两部分
    • 第一个表格列出每个网站上存在的指标。
    • 第二个表格确定网站间共享的指标。
  • 该工具还根据每个指标的相对强度对结果进行排序。(我会在本文最后一部分详细解释)

“这个工具的目的是尝试找出任何可用于将网站联系在一起的信息,”Peter 表示。

如果你不熟悉通过分析和广告代码连接网站的方法,可以阅读这个基本指南和我最近的文章(建议先阅读指南)。“信息洗衣房”的元数据模块对于熟悉网站基础设施并了解如何使用指标连接网站的人最有用。使用此工具的风险在于,如果不了解各指标和连接的相对强弱,可能会做出错误判断。

Peter 认为,元数据分析工具是寻找网站间连接的绝佳起点。

“如果你有一组网站,想了解它们之间可能的重叠,这是快速获取概览的好方法,无需在多个工具中手动操作,”他说。

我认为这对于可能存在连接的网站组,这是很好的起点。信息洗衣房能提供潜在连接的有用概览。随后,你可以利用这些信息,通过 DNSlyticsBuiltWithSpyOnWeb 等平台进行深入研究。

虽然该工具最适合处理多个域名,但也可用于单个 URL 分析。这对提取分析代码等指标很有用,方便在其他平台上搜索。你还可以查看该URL是否与信息洗衣房数据库中约10000个域名共享任何指标。工具的“关于”页面列出了数据来源

值得注意的是,Peter 表示,目前该工具不会将用户输入的域名添加到数据库中。因此,使用敏感域名进行搜索时,你可以放心,这些网站不会被添加到信息洗衣房数据集中。

技术网站指标排名

了解工具发现的网站指标的相对强弱至关重要,否则可能会夸大网站间的联系。幸运的是,“信息洗衣房”的文档提供了指标的分类。

例如,多个网站使用 WordPress 只是一种弱连接,因为全球有数亿网站使用 WordPress。但如果它们都使用相同的 Google AdSense 代码,网站间的联系就强得多。

理想情况下,你应该识别连接网站的多个技术指标,并结合其他信息来正确评估连接强度。

为帮助分析,信息洗衣房将指标分为三个等级,结果页面使用颜色编码区分强、中、弱指标。你仍需进行自己的分析,但这是一个有用的起点。

使用RT相关域名运行的元数据搜索示例。网站截图

以下是“信息洗衣房”文档中的三个指标等级

    • 第1级:这些指标“通常是独特的或高度指示网站来源的”,包括“用于验证目的的唯一ID和Google、Yandex等网络服务,以及WHOIS信息和认证等网站元数据”。
    • 第2级:此类指标“对网站来源提供中等程度的确定性”,它们“提供有价值的背景”,包括“同一子网内的IP、匹配的元标签以及标准和自定义响应头中的共同点”。
    • 第3级:建议将这些指标与更高级别的指标结合使用,包括“共享的CSS类、UUID和内容管理系统”。

本文最初发表在 ProPublica 记者 Craig Silverman 的 Digital Investigations Substack 上 ,GIJN 经许可翻译转载。


Craig Silverman 是 ProPublica 的记者,报道选举、平台、虚假信息和在线操纵。他之前是 BuzzFeed News 的媒体编辑,开创了数字虚假信息报道。

您可以根据知识共享协议条款免费转载这篇文章

转载


阅读更多

报道工具和技巧

2024年有哪些不可错过的调查工具?

许多调查报道得以实现,很大程度上要归功于好用的调查工具。在这篇文章中,我们精选了8款调查记者们不可错过的工具,内容涵盖 AI、开源调查数据库、调查工具包等不同类型。