辅助功能设置

文字大小

色彩设置

单色 柔和色 dark

阅读工具

底部遮盖 标尺

文章

主题

AI 如何帮助独立记者追踪俄罗斯在战争中的阵亡人数

俄罗斯当局继续隐瞒其在俄乌战争中的军事规模,只有独立记者和研究人员在统计死亡人数。

在俄乌战争三周年之际,独立流亡媒体“重要故事”(IStories)推出了Charon——一个使用其编辑部训练的定制 AI 建立的俄罗斯军事伤亡数据库。

这个算法收集所有公开可获得的关于俄罗斯士兵阵亡或失踪的报告。我们正在与任何对此主题感兴趣的记者或研究人员分享这些数据。目前该项目仅提供俄语版本,英语版正在开发中。

IStories 数据部门编辑卡佳·邦奇-奥斯莫洛夫斯卡娅(Katya Bonch-Osmolovskaya)解释了AI是如何训练的,Charon可以收集什么样的数据,以及为什么记者应该开始学习使用神经网络。

记者如何追踪俄罗斯军事损失

缺乏官方数据在俄罗斯已经是多年的问题。作为记者,我们在新冠疫情期间面临的第一个大问题是:俄罗斯当局未能追踪所有损失并提供真实数字,但独立记者为他们做了这项工作。

当普京开始全面入侵行动时,下一个大问题出现了。从一开始,俄罗斯就一直在隐瞒真实的伤亡人数。因此,独立记者又一次开始为他们统计数据。

在俄乌战争三年后,我们发现了三种方式来了解伤亡情况。IStories 的数据部门正在使用超额死亡率方法进行分析计数,就像我们在疫情期间所做的那样。Meduza 和 Mediazona 正在使用继承记录。此外,Mediazona、BBC 俄语服务和志愿者正在从社交媒体和地方新闻中收集讣告,手动搜索数据。

Chronology of Russian war dead. The date of death or disappearance is known for 56.5 thousand of the dead and 4.9 thousand of the missing. The Russian forces suffered their heaviest losses in January 2023.

通过AI搜索,IStoires 能够找到56500名死亡者和4900名失踪者的死亡或失踪日期。这张图表显示了死亡和失踪人数随时间的变化,表明俄罗斯军队在2023年1月遭受了最大的损失。图:IStories

IStories 从入侵一开始就开始从社交媒体上收集伤亡数据。我们网站上有一个页面最初每天更新,后来改为每周更新。但随着时间推移,讣告数量变得难以应对。我们根本跟不上——即使我们整个团队只专注于这项工作也不够。

同时,我们明白拥有一份死者名单的重要性,包括他们的姓名、地区、年龄、死亡日期等详细信息。这样的数据库对于几乎任何关于战争的研究都至关重要。

在寻找简化流程的方法时,我们决定训练我们的神经网络。项目得到了内部名称Charon,取自希腊神话中将死者灵魂渡过冥河的摆渡人。在神话中,每个灵魂都要经过卡戎,就像我们的AI处理每一条关于在乌克兰战争中阵亡或失踪的俄罗斯士兵的公开信息。

训练AI

我们首先编制了一份关键词列表,解析器将用它来搜索关于阵亡士兵的帖子,这是在审查数百份讣告后通过反复试验建立的。

我们面临的第一个问题是,我们无法仅过滤出明确提到战争的帖子。人们用各种方式提及它——”战争”、”SVO”、”特别军事行动”——或使用委婉语,如”为保卫祖国而牺牲”。

于是,我们决定收集所有的死亡公告,并训练神经网络来区分与战争相关的死亡与无关的死亡。我们的数据团队手动审查了数百份讣告,并将每一份标记为“与战争相关”或“无关”。这个带标签的数据集成为了Charon训练的基础。

在训练初期,AI曾犯下一些非常离谱的错误:例如,Charon误以为演员艾伦·瑞克曼(Alan Rickman)是在乌克兰战争中去世的。

整个训练过程大约花了一年时间。到2024年秋季,我们完成了当前版本的算法。

如今,Charon 不仅能够识别某人是否死于战争,还能区分那些在战斗中阵亡的士兵,以及那些曾在乌克兰服役但后来在俄罗斯境内因与战争无关的原因去世的士兵。

Using the AI Charon tool, IStories has mapped Russian war deaths across regions of the country.

使用AI工具Charon,IStories已经绘制出俄罗斯各地区的战争死亡分布图。

AI 是如何运作的

Charon会搜索公开的死亡公告,并将每条信息标记为“是,与战争相关”或“否,与战争无关”。对于标记为“是”的条目,AI会从文本中提取相关特征——如年龄、部署日期、所在地区等。如果某项信息缺失,相应字段将保留为空。

接下来是人工核查环节。我们会检查AI生成的条目,并补充任何缺失的信息,包括来自泄露数据或其他来源的数据。

当然,错误仍然会发生——有时是名字或日期不正确,有时是自动化流程在某个步骤上失败。我们清楚这些局限性,也鼓励公众报告错误,以便我们及时修正。

花一年时间训练AI值得吗?答案是肯定的,因为在已有数据的基础上进行核实和补充,远比完全依靠人工收集数据要高效得多。

Mapping Russian war dead geographically in Ukraine

对于11000名俄罗斯士兵,IStories 的 Charon 系统成功地将他们在乌克兰境内的死亡或失踪地点精确定位到具体地区。

数据的完整性如何?

据我们的同行估计,只有40%至60%的俄罗斯士兵死亡报告最终会公开。这一点我们无法改变,我们只能处理那些已经公开的信息。

我们相信,在这个比例范围内,Charon 已经捕捉到了相当大的一部分数据。它经常能发现其他项目遗漏的个体。在训练初期,我们大约每识别出100名战争死亡者,就能新增1个此前未被记录的名字。现在,这个比例已经提升到每100个独立发现中约有30个是此前未统计过的。

我们收集哪些类型的数据?

“军事损失”通常包括阵亡、失踪、被俘、重伤或逃兵。但后面三类数据很难估算,因此大多数开源追踪项目都聚焦于死亡人数。

然而,Charon 不仅让我们能够追踪俄罗斯士兵,还包括:

  • 在战争中死亡的被占领乌克兰地区居民,其中许多人在2022年2月后被强制征召入伍;
  • 失踪人员。这类数据更难确认,因为存在诸多不确定性:此人是否还活着但被囚禁?是否已死亡但遗体未被发现?尽管如此,这一类别对于全面了解俄罗斯的战争损失至关重要。根据我们的估算,约有20%的失踪人员最终被确认死亡。一旦确认,我们会将其从“失踪”类别转移至“阵亡”类别——这意味着我们早已统计了这起损失,只是更改了其状态;
  • 为俄罗斯作战的外国公民。

截至2025年2月24日,我们已确认并记录了103,864名阵亡或失踪人员的姓名。而我们仍然面临着庞大的数据积压。

Charon plus other estimates for Russian war casualties

截至2022年入侵乌克兰三周年之际,IStories 已确认了103864名俄罗斯军人阵亡或失踪者的姓名。但来自 Meduza 和 Mediazona 等网站的其他估算,包括继承信息在内,表明实际总数可能还要多出近6万人。

为了让大家了解数据量的规模:目前仍有约50000份失踪报告和10000份已确认死亡的报告尚未被审核。此外,我们还未开始分析最近几周的新报告。这些是信息记录,其中一些名字可能会重复出现。但即便如此,未处理的数据量依然庞大。我们将会在处理过程中持续更新项目页面。

最重要的是,我们承诺将这个数据库分享给其他记者和研究人员。

我们为何要共享这些数据?

考虑到 Charon 所收集信息的规模,这一数据集对研究而言堪称“金矿”。如果我们只把它留给自己,就永远无法挖掘它的全部潜力。

我们相信,越多聪明的人深入挖掘这些数据,我们对这场战争的理解就会越深入。

目前,项目网站和完整数据集仅提供俄语版本。但我们正在开发英文版本。

如果您希望获取数据,请联系:bonchosmolovskaya@istories.media

IStories 关于使用 AI 的经验总结

AI 让我们能够在不需要整个新闻编辑部全职投入的情况下,建立并维护一个关于俄罗斯军事损失的数据库。对我们而言,这就意味着项目的成功。

我认为,现在正是新闻机构——即使不是全速拥抱AI——也至少应该朝这个方向“躺平”的时候。否则,就有被时代抛下的风险。

每个新闻编辑部都有一些重复性高、步骤清晰的任务。将这些技术性环节交给AI处理,我们就能把时间和脑力专注在真正重要的事情上。


katyaKatya Bonch-Osmolovskaya 是 IStories 数据部门的编辑。

您可以根据知识共享协议条款免费转载这篇文章

转载


阅读更多

报道工具和技巧

2024年有哪些不可错过的调查工具?

许多调查报道得以实现,很大程度上要归功于好用的调查工具。在这篇文章中,我们精选了8款调查记者们不可错过的工具,内容涵盖 AI、开源调查数据库、调查工具包等不同类型。

报道工具和技巧

远程办公、在线调查,有哪些不可错过的新工具?

在不久前的 NICAR 数据新闻大会上,专家们分享了几十款特别适合远程办公使用的新闻工具:将你的手机变成外置摄像头、将小屏幕变成双屏显示、测试推特粉丝的性别比例、强化社交分享功能的转写工具……一起来看看吧!