2024年,以倫敦為基地的非營利新聞組織“調查新聞局”(The Bureau of Investigative Journalism,TBIJ)發表了一項震撼性調查 —— 東非、南亞等全球南方地區的一些勞動者受雇從事零散的數據標註工作,例如上傳照片、給圖像打標籤、在監控視頻畫面中為人體勾畫方框等。最終,這些數據被用於驅動人工智能(AI)人臉識別系統,用於監控和拘押俄羅斯異議者,而參與工作的勞動者毫不知情。
在馬來西亞吉隆坡舉行的第14屆全球深度報道大會 #GIJC25 上,一場題為《調查算法》(Investigating Algorithms)的研討會中,多位長期關注 AI 議題的資深記者指出,關於“數據零工”的網絡討論,為挖掘更宏大的報道題材提供了豐富線索,議題涵蓋勞動剝削、政府監控、算法濫用等多個方面。這些線索,正正讓 TBIJ 的這項調查得以展開。
出席研討會的專家講者指出,關於 AI 開發和數據訓練的階段,“勞動剝削”(labor exploitation)只是眾多長期被忽視的議題之一,另一個全新的調查切入方向,是“數據投毒”(data poisoning)帶來的威脅。
“圍繞大型科技企業的勞動權益展開調查,往往能有豐厚的回報。” Transformer(一份關注人工智能議題的新聞信)執行主編 Jasper Jackson 表示:“這類調查不僅能讓你深入了解這些技術系統是如何被製造出來的,還能呈現鮮活的人物故事 —— 這些工作對勞工本身產生了什麼影響?他們的勞動成果往往不為外人所知,對此他們又有何感受?”
出席這場 #GIJC25 研討會的專家講者,還包括 Lighthouse Reports 的調查記者 Gabriel Geiger、Documented 的調查記者 Lam Thuy Vo,以及菲律賓大學迪里曼分校新聞學系主任 Karol Ilagan。
談到調查全球南方地區 AI 勞動剝削問題的參考案例,講者們推薦了《時代》雜誌記者 Billy Perrigo 於2023年發表的一篇調查報道。這篇報道不僅揭示了“倫理 AI”招聘公司的外包運作模式、勞工時薪不足2美元的剝削狀況,還曝光肯尼亞數以千計勞工因參與 AI 數據“去毒”工作(為一款大型 AI 聊天機器人標註大量極度令人不安的網絡內容),而遭受嚴重的心理創傷。
Jasper Jackson 擔任 TBIJ 編輯期間,參與了前面提到的 TBIJ 對全球南方 AI 勞動剝削的調查。他指出,科技巨頭旗下的子公司越來越多從難民營、非正規定居點等“高度不安全的環境”招募數據勞工,而他們的勞動成果往往會被挪用於威懾和打壓異議者。曾有專家消息人士向 Jasper Jackson 的調查團隊披露,接入莫斯科17.8萬台監控攝像頭的人臉識別系統,正被用於所謂的“預防性拘留”,目的是“通過製造恐懼,阻止人們參與未來的抗議活動”。

TBIJ 的這項調查發現,非洲的零工人員在不知情之下,受雇幫助俄羅斯政府訓練人工智能人臉識別系統,以鎖定抗議者。圖:TBIJ 截圖
“這些勞工根本不知道自己正在向什麼系統投喂數據。”Jasper Jackson 解釋:“當我們談論大型的語言模型,往往會以為它們能瘋狂地抓取數據庫和互聯網上的內容,但別忘了,實際上算法和 AI 系統能夠吸取海量數據,並且在正確的語境下理解這些數據,其實是需要人類付出大量勞動力,尤其是對數據進行標註的。”Jackson 續指,大型科技公司由此建立起一個高度分散的勞動力體系:“例如,這類數據輸入工作經常在難民營里執行。這聽起來奇怪,但當你在正常國家無法以這種方式獲取收入,這反而成為了一道賺錢的門路。這隻需要一台電腦,甚至這台電腦經常是由慈善機構捐出的。”
值得一提的,是 TBIJ 的這項調查還凸顯了俄羅斯人權組織 OVD-Info 所建立的一個詳盡數據庫的重大價值。調查團隊依靠對數據庫的分析,發現在2021年抗議俄反對派領袖納瓦爾尼(Alexei Navalny)被囚禁的活動過後,當局在拘捕其中454名抗議者的行動過程中應用了人臉識別技術。更甚者,在2024年有19人僅因參加了納瓦爾尼的葬禮而被拘留,當局在拘捕這19人的過程中,也應用了同樣的人臉識別技術。調查團隊還發現,一些科技公司在被列入制裁名單之後,繼續通過某些途徑在海外招募勞工。這也凸顯了核查 OpenSanctions、Sayari 等制裁數據庫的重要性。
Jasper Jackson 提到,最初開啟這項調查的關鍵線索,是身在菲律賓、土耳其、肯尼亞等地的數據勞工在網絡上形成的一種團結互助意識 —— 他們在各自的偏遠工作環境展開交流,嘗試搞清楚自己被分派的那些怪異的數據任務究竟是做什麼用的。
“我們之所以能夠發現這個新聞故事,全靠這些數據勞工本身。他們在討論如何完成工作任務,跟同伴分享經驗,互相幫助。他們還製作 YouTube 視頻,講解如何輸入數據,又在 Reddit 和 Facebook 上開設論壇,發帖交流。”
TBIJ 的調查記者最終確認,這些數據輸入工作,是在針對該科技公司僱主的制裁令生效過後仍在繼續分派的。記者的查核方法頗具巧思,就像偵探查案一樣 —— 他們仔細比對了工人們發布的眾多教學視頻,查看工人們手機屏幕頂部一閃而過的當日新聞標題,從而確認拍攝視頻的具體時間節點。
Karol Ilagan 指出,新聞媒體有必要對算法系統進行“去神秘化”,即以更為人熟悉的術語和語境去理解它,比如把它當作一道菜的“食譜”。
她解釋:“我們往往知道輸入數據和輸出結果是什麼,但不清楚中間的“配方”,也就是輸入是如何轉化成輸出的。在許多國家,尤其是東南亞地區,因為欠缺成熟的科技報道條線,對算法的調查報道可能會讓人感到陌生,甚至畏懼。”
出席研討會的專家們指出,圍繞“算法勞動”的調查中,一些信息來源仍然被嚴重低估,包括:
- 工會;
- 律師和非政府組織;
- 零工經濟崗位的招聘廣告與信息;
- 政府公共合同;
- 各類聊天群組。
值得一提的,是 Jasper Jackson 近期撰寫的一篇解讀文章,有系統地梳理了威權政權如何越來越多地利用監管薄弱的人臉識別技術產業去實行打壓和控制。這篇文章為理解“算法勞動”等相關議題提供了很好的入門指引。
調查算法輸出結果帶來的危害
Gabriel Geiger 表示,在調查“算法輸出危害”(從網絡偏見到虛假信息等)時,最佳的方法是結合運用公共申索信息、有系統的“黑箱”測試,以及傳統的新聞報道手法。他在 Lighthouse Reports 參與的一項新近調查,聚焦於瑞典政府應用 AI 系統評估社會福利領取者的情況,發現該 AI 模型對女性和少數族裔群體存在歧視。
值得一提的,是儘管瑞典向來以信息公開透明著稱,但 Gabriel Geiger 的團隊在向瑞典社會保險署(SIA)申索公開信息時,依然屢次遭到拒絕。為了證明政府蓄意阻撓民間了解算法數據問題,並為其他同樣被拒諸門外的新聞媒體提供可借鑒的做法,團隊刻意申請了那些 SIA 已經在年度報告中公開過的信息。當申索這些已公開數據也被拒絕時,團隊便能向公眾清楚展示 —— 政府將 AI 相關數據一概標註為“機密”,這種濫權已經到了何種程度。
Gabriel Geiger 提到,當日有一名瑞典官員誤將內部電郵通信“副本抄送”給他,通信中抱怨他那窮追不捨的調查報道,還寫到:“希望我們終於擺脫了他!”這一枝節,引起了 GIJC 研討會與會者哄堂大笑。
最終,Gabriel Geiger 的團隊找到了巧妙的“繞道”方案,突破了 SIA 對信息申索的封鎖 —— 團隊找到了一個此前曾經研究 SIA 風險評分算法的獨立監管機構,成功通過該機構的審計部門取得其掌握的 SIA 原始數據。

Lighthouse Reports 的這項調查,揭示了瑞典社會安全機構應用的檢測算法如何帶着偏見和歧視,對具有某些人口特徵的人群進行了不公平的分類。圖:網絡截圖
談到對算法調查的偏見和刻板印象,Gabriel Geiger 強調,要進行相關調查不一定要有高超的科技能力。他舉例,記者完全可以通過對聊天機器人或平台重複提出大量基礎問題,並將得到的回復結果有系統地記錄在電子表格上,再基於這些結果展開調查。
Gabriel Geiger 舉例解釋,如果你對取得 Facebook 的推薦算法束手無策,仍然可以通過觀察其算法系統在現實中的表現來展開研究。“你甚至毋須進行什麼複雜的統計實驗,只需要找兩個人,用有系統且一致的方法進行比對,就能得出有趣的結論。”
關於社交媒體算法,Lam Thuy Vo 補充:“你不必定要了解它們具體如何運作,更重要的可能是搞清楚它們推送什麼和不推送什麼。概括來說,針對算法系統的調查,不一定要着眼於它是如何運作的,也可以通過建立和運行‘對抗性實驗’,來證明該系統造成了傷害。”
“數據投毒”帶來的新威脅
出席研討會的專家們還推薦大家關注一項來自英國的最新調查研究,該研究揭示了 AI 系統及其用家即將面臨的一個重大威脅 —— 不法份子只需輸入少量“有害”數據,就能對大型語言模型“投毒”,而這些模型正日益主導重要的經濟活動。
這項調查由圖靈研究所(Alan Turing Institute)、Anthropic 及英國人工智能安全研究所(AI Security Institute)聯合完成。研究人員發現,只需要投入有害的訓練數據,修改或製造出少如250份惡意文檔(例如包含觸發短語的偽造維基百科頁面或社交媒體賬號),便足以慫使擁有130億參數的巨型 AI 系統扭曲一些事實,進而對公眾造成傷害。簡言之,這項研究打破了以往認為操控大型 AI 平台需要數百萬份種子文檔的迷思,呈現了即便是“微不足道”的少量數據,都足以為操控任何規模的 AI 系統打開後門。關於這個議題的有用信息來源,包括智庫大西洋理事會(the Atlantic Council)下屬的數位鑒識實驗室(Digital Forensic Research Lab,DFRLab),以及“美國陽光計劃”(American Sunlight Project,ASP)。
Jasper Jackson 提起,2024年當互聯網上突然湧現數以百萬計荒謬至極的、但閱讀點擊率近乎零的政治宣傳文章時,新聞記者們感到有多麼的困惑。不過,研究人員很快發現,這場名為“Pravda Portal Kombat”的虛假信息行動之根本目的並非操縱人類,而是操縱 AI 系統。Jackson 重申,僅用250份文檔便能執行隱蔽的干預,從而扭曲 AI 系統的輸出結果,每位記者都應該對這種威脅有所警惕。
Jasper Jackson 警告:“數據投毒依然是一個幾乎未被探索的領域,但其潛在影響巨大。它可以改變算法和 AI 模型的輸出,而考慮到我們賦予這些 AI 系統的權力,確實有理由讓人感到憂慮。”
Rowan Philp 是 GIJN 的高級記者。他曾是南非《星期日泰晤士報》的首席記者。他曾在全球二十多個國家報道新聞、政治、腐敗和衝突。