輔助功能設置

文字大小

色彩設置

單色 柔和色 dark

閱讀工具

底部遮蓋 標尺

文章

主題

AI 如何幫助獨立記者追蹤俄羅斯在戰爭中的陣亡人數

俄羅斯當局繼續隱瞞其在俄烏戰爭中的軍事規模,只有獨立記者和研究人員在統計死亡人數。

在俄烏戰爭三周年之際,獨立流亡媒體“重要故事”(IStories)推出了Charon——一個使用其編輯部訓練的定製 AI 建立的俄羅斯軍事傷亡數據庫。

這個算法收集所有公開可獲得的關於俄羅斯士兵陣亡或失蹤的報告。我們正在與任何對此主題感興趣的記者或研究人員分享這些數據。目前該項目僅提供俄語版本,英語版正在開發中。

IStories 數據部門編輯卡佳·邦奇-奧斯莫洛夫斯卡婭(Katya Bonch-Osmolovskaya)解釋了AI是如何訓練的,Charon可以收集什麼樣的數據,以及為什麼記者應該開始學習使用神經網絡。

記者如何追蹤俄羅斯軍事損失

缺乏官方數據在俄羅斯已經是多年的問題。作為記者,我們在新冠疫情期間面臨的第一個大問題是:俄羅斯當局未能追蹤所有損失並提供真實數字,但獨立記者為他們做了這項工作。

當普京開始全面入侵行動時,下一個大問題出現了。從一開始,俄羅斯就一直在隱瞞真實的傷亡人數。因此,獨立記者又一次開始為他們統計數據。

在俄烏戰爭三年後,我們發現了三種方式來了解傷亡情況。IStories 的數據部門正在使用超額死亡率方法進行分析計數,就像我們在疫情期間所做的那樣。Meduza 和 Mediazona 正在使用繼承記錄。此外,Mediazona、BBC 俄語服務和志願者正在從社交媒體和地方新聞中收集訃告,手動搜索數據。

Chronology of Russian war dead. The date of death or disappearance is known for 56.5 thousand of the dead and 4.9 thousand of the missing. The Russian forces suffered their heaviest losses in January 2023.

通過AI搜索,IStoires 能夠找到56500名死亡者和4900名失蹤者的死亡或失蹤日期。這張圖表顯示了死亡和失蹤人數隨時間的變化,表明俄羅斯軍隊在2023年1月遭受了最大的損失。圖:IStories

IStories 從入侵一開始就開始從社交媒體上收集傷亡數據。我們網站上有一個頁面最初每天更新,後來改為每周更新。但隨着時間推移,訃告數量變得難以應對。我們根本跟不上——即使我們整個團隊只專註於這項工作也不夠。

同時,我們明白擁有一份死者名單的重要性,包括他們的姓名、地區、年齡、死亡日期等詳細信息。這樣的數據庫對於幾乎任何關於戰爭的研究都至關重要。

在尋找簡化流程的方法時,我們決定訓練我們的神經網絡。項目得到了內部名稱Charon,取自希臘神話中將死者靈魂渡過冥河的擺渡人。在神話中,每個靈魂都要經過卡戎,就像我們的AI處理每一條關於在烏克蘭戰爭中陣亡或失蹤的俄羅斯士兵的公開信息。

訓練AI

我們首先編製了一份關鍵詞列表,解析器將用它來搜索關於陣亡士兵的帖子,這是在審查數百份訃告後通過反覆試驗建立的。

我們面臨的第一個問題是,我們無法僅過濾出明確提到戰爭的帖子。人們用各種方式提及它——”戰爭”、”SVO”、”特別軍事行動”——或使用委婉語,如”為保衛祖國而犧牲”。

於是,我們決定收集所有的死亡公告,並訓練神經網絡來區分與戰爭相關的死亡與無關的死亡。我們的數據團隊手動審查了數百份訃告,並將每一份標記為“與戰爭相關”或“無關”。這個帶標籤的數據集成為了Charon訓練的基礎。

在訓練初期,AI曾犯下一些非常離譜的錯誤:例如,Charon誤以為演員艾倫·瑞克曼(Alan Rickman)是在烏克蘭戰爭中去世的。

整個訓練過程大約花了一年時間。到2024年秋季,我們完成了當前版本的算法。

如今,Charon 不僅能夠識別某人是否死於戰爭,還能區分那些在戰鬥中陣亡的士兵,以及那些曾在烏克蘭服役但後來在俄羅斯境內因與戰爭無關的原因去世的士兵。

Using the AI Charon tool, IStories has mapped Russian war deaths across regions of the country.

使用AI工具Charon,IStories已經繪製出俄羅斯各地區的戰爭死亡分布圖。

AI 是如何運作的

Charon會搜索公開的死亡公告,並將每條信息標記為“是,與戰爭相關”或“否,與戰爭無關”。對於標記為“是”的條目,AI會從文本中提取相關特徵——如年齡、部署日期、所在地區等。如果某項信息缺失,相應字段將保留為空。

接下來是人工核查環節。我們會檢查AI生成的條目,並補充任何缺失的信息,包括來自泄露數據或其他來源的數據。

當然,錯誤仍然會發生——有時是名字或日期不正確,有時是自動化流程在某個步驟上失敗。我們清楚這些局限性,也鼓勵公眾報告錯誤,以便我們及時修正。

花一年時間訓練AI值得嗎?答案是肯定的,因為在已有數據的基礎上進行核實和補充,遠比完全依靠人工收集數據要高效得多。

Mapping Russian war dead geographically in Ukraine

對於11000名俄羅斯士兵,IStories 的 Charon 系統成功地將他們在烏克蘭境內的死亡或失蹤地點精確定位到具體地區。

數據的完整性如何?

據我們的同行估計,只有40%至60%的俄羅斯士兵死亡報告最終會公開。這一點我們無法改變,我們只能處理那些已經公開的信息。

我們相信,在這個比例範圍內,Charon 已經捕捉到了相當大的一部分數據。它經常能發現其他項目遺漏的個體。在訓練初期,我們大約每識別出100名戰爭死亡者,就能新增1個此前未被記錄的名字。現在,這個比例已經提升到每100個獨立發現中約有30個是此前未統計過的。

我們收集哪些類型的數據?

“軍事損失”通常包括陣亡、失蹤、被俘、重傷或逃兵。但後面三類數據很難估算,因此大多數開源追蹤項目都聚焦於死亡人數。

然而,Charon 不僅讓我們能夠追蹤俄羅斯士兵,還包括:

  • 在戰爭中死亡的被佔領烏克蘭地區居民,其中許多人在2022年2月後被強制徵召入伍;
  • 失蹤人員。這類數據更難確認,因為存在諸多不確定性:此人是否還活着但被囚禁?是否已死亡但遺體未被發現?儘管如此,這一類別對於全面了解俄羅斯的戰爭損失至關重要。根據我們的估算,約有20%的失蹤人員最終被確認死亡。一旦確認,我們會將其從“失蹤”類別轉移至“陣亡”類別——這意味着我們早已統計了這起損失,只是更改了其狀態;
  • 為俄羅斯作戰的外國公民。

截至2025年2月24日,我們已確認並記錄了103,864名陣亡或失蹤人員的姓名。而我們仍然面臨著龐大的數據積壓。

Charon plus other estimates for Russian war casualties

截至2022年入侵烏克蘭三周年之際,IStories 已確認了103864名俄羅斯軍人陣亡或失蹤者的姓名。但來自 Meduza 和 Mediazona 等網站的其他估算,包括繼承信息在內,表明實際總數可能還要多出近6萬人。

為了讓大家了解數據量的規模:目前仍有約50000份失蹤報告和10000份已確認死亡的報告尚未被審核。此外,我們還未開始分析最近幾周的新報告。這些是信息記錄,其中一些名字可能會重複出現。但即便如此,未處理的數據量依然龐大。我們將會在處理過程中持續更新項目頁面。

最重要的是,我們承諾將這個數據庫分享給其他記者和研究人員。

我們為何要共享這些數據?

考慮到 Charon 所收集信息的規模,這一數據集對研究而言堪稱“金礦”。如果我們只把它留給自己,就永遠無法挖掘它的全部潛力。

我們相信,越多聰明的人深入挖掘這些數據,我們對這場戰爭的理解就會越深入。

目前,項目網站和完整數據集僅提供俄語版本。但我們正在開發英文版本。

如果您希望獲取數據,請聯繫:bonchosmolovskaya@istories.media

IStories 關於使用 AI 的經驗總結

AI 讓我們能夠在不需要整個新聞編輯部全職投入的情況下,建立並維護一個關於俄羅斯軍事損失的數據庫。對我們而言,這就意味着項目的成功。

我認為,現在正是新聞機構——即使不是全速擁抱AI——也至少應該朝這個方向“躺平”的時候。否則,就有被時代拋下的風險。

每個新聞編輯部都有一些重複性高、步驟清晰的任務。將這些技術性環節交給AI處理,我們就能把時間和腦力專註在真正重要的事情上。


katyaKatya Bonch-Osmolovskaya 是 IStories 數據部門的編輯。

您可以根據知識共享協議條款免費轉載這篇文章

轉載


閱讀更多

報道工具和技巧

2024年有哪些不可錯過的調查工具?

許多調查報道得以實現,很大程度上要歸功於好用的調查工具。在這篇文章中,我們精選了8款調查記者們不可錯過的工具,內容涵蓋 AI、開源調查數據庫、調查工具包等不同類型。

報道工具和技巧

遠程辦公、在線調查,有哪些不可錯過的新工具?

在不久前的 NICAR 數據新聞大會上,專家們分享了幾十款特別適合遠程辦公使用的新聞工具:將你的手機變成外置攝像頭、將小屏幕變成雙屏顯示、測試推特粉絲的性別比例、強化社交分享功能的轉寫工具……一起來看看吧!