2024年,以伦敦为基地的非营利新闻组织“调查新闻局”(The Bureau of Investigative Journalism,TBIJ)发表了一项震撼性调查 —— 东非、南亚等全球南方地区的一些劳动者受雇从事零散的数据标注工作,例如上传照片、给图像打标签、在监控视频画面中为人体勾画方框等。最终,这些数据被用于驱动人工智能(AI)人脸识别系统,用于监控和拘押俄罗斯异议者,而参与工作的劳动者毫不知情。
在马来西亚吉隆坡举行的第14届全球深度报道大会 #GIJC25 上,一场题为《调查算法》(Investigating Algorithms)的研讨会中,多位长期关注 AI 议题的资深记者指出,关于“数据零工”的网络讨论,为挖掘更宏大的报道题材提供了丰富线索,议题涵盖劳动剥削、政府监控、算法滥用等多个方面。这些线索,正正让 TBIJ 的这项调查得以展开。
出席研讨会的专家讲者指出,关于 AI 开发和数据训练的阶段,“劳动剥削”(labor exploitation)只是众多长期被忽视的议题之一,另一个全新的调查切入方向,是“数据投毒”(data poisoning)带来的威胁。
“围绕大型科技企业的劳动权益展开调查,往往能有丰厚的回报。” Transformer(一份关注人工智能议题的新闻信)执行主编 Jasper Jackson 表示:“这类调查不仅能让你深入了解这些技术系统是如何被制造出来的,还能呈现鲜活的人物故事 —— 这些工作对劳工本身产生了什么影响?他们的劳动成果往往不为外人所知,对此他们又有何感受?”
出席这场 #GIJC25 研讨会的专家讲者,还包括 Lighthouse Reports 的调查记者 Gabriel Geiger、Documented 的调查记者 Lam Thuy Vo,以及菲律宾大学迪里曼分校新闻学系主任 Karol Ilagan。
谈到调查全球南方地区 AI 劳动剥削问题的参考案例,讲者们推荐了《时代》杂志记者 Billy Perrigo 于2023年发表的一篇调查报道。这篇报道不仅揭示了“伦理 AI”招聘公司的外包运作模式、劳工时薪不足2美元的剥削状况,还曝光肯尼亚数以千计劳工因参与 AI 数据“去毒”工作(为一款大型 AI 聊天机器人标注大量极度令人不安的网络内容),而遭受严重的心理创伤。
Jasper Jackson 担任 TBIJ 编辑期间,参与了前面提到的 TBIJ 对全球南方 AI 劳动剥削的调查。他指出,科技巨头旗下的子公司越来越多从难民营、非正规定居点等“高度不安全的环境”招募数据劳工,而他们的劳动成果往往会被挪用于威慑和打压异议者。曾有专家消息人士向 Jasper Jackson 的调查团队披露,接入莫斯科17.8万台监控摄像头的人脸识别系统,正被用于所谓的“预防性拘留”,目的是“通过制造恐惧,阻止人们参与未来的抗议活动”。

TBIJ 的这项调查发现,非洲的零工人员在不知情之下,受雇帮助俄罗斯政府训练人工智能人脸识别系统,以锁定抗议者。图:TBIJ 截图
“这些劳工根本不知道自己正在向什么系统投喂数据。”Jasper Jackson 解释:“当我们谈论大型的语言模型,往往会以为它们能疯狂地抓取数据库和互联网上的内容,但别忘了,实际上算法和 AI 系统能够吸取海量数据,并且在正确的语境下理解这些数据,其实是需要人类付出大量劳动力,尤其是对数据进行标注的。”Jackson 续指,大型科技公司由此建立起一个高度分散的劳动力体系:“例如,这类数据输入工作经常在难民营里执行。这听起来奇怪,但当你在正常国家无法以这种方式获取收入,这反而成为了一道赚钱的门路。这只需要一台电脑,甚至这台电脑经常是由慈善机构捐出的。”
值得一提的,是 TBIJ 的这项调查还凸显了俄罗斯人权组织 OVD-Info 所建立的一个详尽数据库的重大价值。调查团队依靠对数据库的分析,发现在2021年抗议俄反对派领袖纳瓦尔尼(Alexei Navalny)被囚禁的活动过后,当局在拘捕其中454名抗议者的行动过程中应用了人脸识别技术。更甚者,在2024年有19人仅因参加了纳瓦尔尼的葬礼而被拘留,当局在拘捕这19人的过程中,也应用了同样的人脸识别技术。调查团队还发现,一些科技公司在被列入制裁名单之后,继续通过某些途径在海外招募劳工。这也凸显了核查 OpenSanctions、Sayari 等制裁数据库的重要性。
Jasper Jackson 提到,最初开启这项调查的关键线索,是身在菲律宾、土耳其、肯尼亚等地的数据劳工在网络上形成的一种团结互助意识 —— 他们在各自的偏远工作环境展开交流,尝试搞清楚自己被分派的那些怪异的数据任务究竟是做什么用的。
“我们之所以能够发现这个新闻故事,全靠这些数据劳工本身。他们在讨论如何完成工作任务,跟同伴分享经验,互相帮助。他们还制作 YouTube 视频,讲解如何输入数据,又在 Reddit 和 Facebook 上开设论坛,发帖交流。”
TBIJ 的调查记者最终确认,这些数据输入工作,是在针对该科技公司雇主的制裁令生效过后仍在继续分派的。记者的查核方法颇具巧思,就像侦探查案一样 —— 他们仔细比对了工人们发布的众多教学视频,查看工人们手机屏幕顶部一闪而过的当日新闻标题,从而确认拍摄视频的具体时间节点。
Karol Ilagan 指出,新闻媒体有必要对算法系统进行“去神秘化”,即以更为人熟悉的术语和语境去理解它,比如把它当作一道菜的“食谱”。
她解释:“我们往往知道输入数据和输出结果是什么,但不清楚中间的“配方”,也就是输入是如何转化成输出的。在许多国家,尤其是东南亚地区,因为欠缺成熟的科技报道条线,对算法的调查报道可能会让人感到陌生,甚至畏惧。”
出席研讨会的专家们指出,围绕“算法劳动”的调查中,一些信息来源仍然被严重低估,包括:
- 工会;
- 律师和非政府组织;
- 零工经济岗位的招聘广告与信息;
- 政府公共合同;
- 各类聊天群组。
值得一提的,是 Jasper Jackson 近期撰写的一篇解读文章,有系统地梳理了威权政权如何越来越多地利用监管薄弱的人脸识别技术产业去实行打压和控制。这篇文章为理解“算法劳动”等相关议题提供了很好的入门指引。
调查算法输出结果带来的危害
Gabriel Geiger 表示,在调查“算法输出危害”(从网络偏见到虚假信息等)时,最佳的方法是结合运用公共申索信息、有系统的“黑箱”测试,以及传统的新闻报道手法。他在 Lighthouse Reports 参与的一项新近调查,聚焦于瑞典政府应用 AI 系统评估社会福利领取者的情况,发现该 AI 模型对女性和少数族裔群体存在歧视。
值得一提的,是尽管瑞典向来以信息公开透明著称,但 Gabriel Geiger 的团队在向瑞典社会保险署(SIA)申索公开信息时,依然屡次遭到拒绝。为了证明政府蓄意阻挠民间了解算法数据问题,并为其他同样被拒诸门外的新闻媒体提供可借鉴的做法,团队刻意申请了那些 SIA 已经在年度报告中公开过的信息。当申索这些已公开数据也被拒绝时,团队便能向公众清楚展示 —— 政府将 AI 相关数据一概标注为“机密”,这种滥权已经到了何种程度。
Gabriel Geiger 提到,当日有一名瑞典官员误将内部电邮通信“副本抄送”给他,通信中抱怨他那穷追不舍的调查报道,还写到:“希望我们终于摆脱了他!”这一枝节,引起了 GIJC 研讨会与会者哄堂大笑。
最终,Gabriel Geiger 的团队找到了巧妙的“绕道”方案,突破了 SIA 对信息申索的封锁 —— 团队找到了一个此前曾经研究 SIA 风险评分算法的独立监管机构,成功通过该机构的审计部门取得其掌握的 SIA 原始数据。

Lighthouse Reports 的这项调查,揭示了瑞典社会安全机构应用的检测算法如何带着偏见和歧视,对具有某些人口特征的人群进行了不公平的分类。图:网络截图
谈到对算法调查的偏见和刻板印象,Gabriel Geiger 强调,要进行相关调查不一定要有高超的科技能力。他举例,记者完全可以通过对聊天机器人或平台重复提出大量基础问题,并将得到的回复结果有系统地记录在电子表格上,再基于这些结果展开调查。
Gabriel Geiger 举例解释,如果你对取得 Facebook 的推荐算法束手无策,仍然可以通过观察其算法系统在现实中的表现来展开研究。“你甚至毋须进行什么复杂的统计实验,只需要找两个人,用有系统且一致的方法进行比对,就能得出有趣的结论。”
关于社交媒体算法,Lam Thuy Vo 补充:“你不必定要了解它们具体如何运作,更重要的可能是搞清楚它们推送什么和不推送什么。概括来说,针对算法系统的调查,不一定要着眼于它是如何运作的,也可以通过建立和运行‘对抗性实验’,来证明该系统造成了伤害。”
“数据投毒”带来的新威胁
出席研讨会的专家们还推荐大家关注一项来自英国的最新调查研究,该研究揭示了 AI 系统及其用家即将面临的一个重大威胁 —— 不法份子只需输入少量“有害”数据,就能对大型语言模型“投毒”,而这些模型正日益主导重要的经济活动。
这项调查由图灵研究所(Alan Turing Institute)、Anthropic 及英国人工智能安全研究所(AI Security Institute)联合完成。研究人员发现,只需要投入有害的训练数据,修改或制造出少如250份恶意文档(例如包含触发短语的伪造维基百科页面或社交媒体账号),便足以怂使拥有130亿参数的巨型 AI 系统扭曲一些事实,进而对公众造成伤害。简言之,这项研究打破了以往认为操控大型 AI 平台需要数百万份种子文档的迷思,呈现了即便是“微不足道”的少量数据,都足以为操控任何规模的 AI 系统打开后门。关于这个议题的有用信息来源,包括智库大西洋理事会(the Atlantic Council)下属的数位鉴识实验室(Digital Forensic Research Lab,DFRLab),以及“美国阳光计划”(American Sunlight Project,ASP)。
Jasper Jackson 提起,2024年当互联网上突然涌现数以百万计荒谬至极的、但阅读点击率近乎零的政治宣传文章时,新闻记者们感到有多么的困惑。不过,研究人员很快发现,这场名为“Pravda Portal Kombat”的虚假信息行动之根本目的并非操纵人类,而是操纵 AI 系统。Jackson 重申,仅用250份文档便能执行隐蔽的干预,从而扭曲 AI 系统的输出结果,每位记者都应该对这种威胁有所警惕。
Jasper Jackson 警告:“数据投毒依然是一个几乎未被探索的领域,但其潜在影响巨大。它可以改变算法和 AI 模型的输出,而考虑到我们赋予这些 AI 系统的权力,确实有理由让人感到忧虑。”
Rowan Philp 是 GIJN 的高级记者。他曾是南非《星期日泰晤士报》的首席记者。他曾在全球二十多个国家报道新闻、政治、腐败和冲突。