辅助功能设置

文字大小

色彩设置

单色 柔和色 dark

阅读工具

底部遮盖 标尺

2019年在南部非洲发生的一场反对性别暴力的抗议活动。图:Shutterstock

文章

主题

如何用数据揭露系统性的性别暴力?

其他语言

这个故事源于一位悲痛欲绝的母亲。在非洲南部小国斯瓦蒂尼(前身为斯威士兰)中部城镇马察法附近,佐德瓦·恩坎布勒(Zodwa Nkambule)的女儿遭到残暴的性侵犯,伤势严重到无法行走,需要频繁就医,最终不幸离世。被指控犯罪的男子虽然被逮捕,但后来获释,并在未受到任何法律制裁的情况下死亡。

这只是众多悲剧故事中的一个。合作调查新闻中心(CCIJ)对斯瓦蒂尼针对女性的系统性暴力进行了调查,题为《正义无处伸张:斯瓦蒂尼体制如何辜负性别暴力受害者》。调查发现,在为期六个月的时间里,“强奸”一词几乎每周都会出现在《斯瓦蒂尼时报》上,该国的强奸案发生率远高于国际平均水平,而且仍有大量案件未被报告。

恩坎布勒的经历引发了一项深入调查。这项调查并不局限于个案或施暴者,而是聚焦造成斯瓦蒂尼性侵害和针对妇女暴力的体制性因素,以及司法系统如何辜负受害者。记者们通过收集分析法庭数据,将个案转化为对这一长期存在却缺乏确切数据的系统性问题的实证研究。

CCIJ 调查团队全面梳理了《斯瓦蒂尼时报》的犯罪报道,访谈了推动变革的活动人士和受害女性,研究了斯瓦蒂尼反虐待行动组织(SWAGAA)近三年的数据,并分析了自1977年来逾4600起高等法院案件,发现其中330多起涉及性别暴力,包括253起强奸指控。

“我们的调查显示,追责过程中存在诸多漏洞,导致受害者无法获得应有的司法保护,”报告指出。这反映出自2018年新《性犯罪和家庭暴力法》(SODV)实施以来,司法系统已在大量案件压力下难以维系。该法案本是为遏制此类犯罪的高发态势而制定。

具体漏洞包括:

  • 受害者因恐惧或压力不敢报案或撤回指控
  • 案件在法院审理过程中被遗漏或因程序问题被驳回
  • 法官对法律适用不当或案件长期拖延未决

随后,CCIJ 时任系列报道编辑汤普森(Carolyn Thompson)和数据编辑西德里斯(Sotiris Sideris)提供了一份十步指南,详细介绍了团队如何获取相关数据、建立分析框架,最终揭示司法系统的整体性缺陷。

CCIJ series editor Carolyn Thompson, with CCIJ Africa Editor A

CCIJ 系列报道编辑汤普森(中)与数据编辑西德里斯(右)和CCIJ非洲编辑阿姆扎特(Ajibola Amzat)在 iMEdDIJF24 合影。图片由汤普森提供

1. 从明确的假设开始

这项调查始于一个简单的假设。汤普森解释说:“我们喜欢用这样的框架:‘某人出于某种原因在做某事’。”在他们的案例中,他们假设斯瓦蒂尼政府因未能有效执行包括《性犯罪和家庭暴力法》在内的相关法律,且未能提高民众对这一问题的认识,从而忽视了预防性暴力案件。为了证实这一假设,他们需要找出具体的证据点。

2. 收集信息:目前掌握了哪些消息?

在调查开始时,需要收集所有已知的证据,并将其整理成一份指导性文件。根据人权观察组织和联合国人口基金等非政府组织的数据,斯瓦蒂尼超过三分之一的女性在18岁之前曾遭受某种形式的性暴力。随后,CCIJ 团队考虑需要收集哪些信息来证实这一点,并思考为什么这些案件难以获得成功的定罪。

3. 信息地图构建

为确定最具价值的调查信息,需要明确搜索方向。汤普森指出:“应该思考基本假设,以及信息的来源和存储位置。”

以性暴力犯罪为例,相关信息可能分布在医疗记录、警方报告、心理健康支持数据和社交媒体的个人分享中。但信息来源的选择需要谨慎。汤普森强调:“重点不是获取所有列出的内容,而是要思考数据可能的分布位置,进而选择最有助于丰富报道的信息。”

4. 获取数据来源

获取数据的途径多样,最基础的是网络搜索。在本案例中,团队通过特定搜索PDF文件,并结合”eswatini”和”court”等关键词进行定向查找。

西德里斯表示:“我们很幸运找到了斯瓦蒂尼最高法院的开放数据库。”但并非总能如此顺利。其他数据获取方式包括:抓取公开网页数据、购买非公开数据、自主收集创建数据、申请信息公开,或与专家直接沟通。

Google search for Eswatini, and court, Image: Screenshot, courtesy of CCIJ

用 Google 搜索 filetype:pdf, Eswatini, and court. 图:CCIJ

5. 数据分析与整理

在发现包含数百万条记录的公共数据库后,记者们需要筛选出最有价值的信息。他们最初采用“强奸”或“性侵”等关键词过滤,并使用爬虫获取数据。但西德里斯建议避免手动筛选,“因为后来发现可以直接使用API接口”。

.更好的方法是使用辅助数据抓取的程序或人工智能工具。数据获取后,团队建立电子表格并录入案件日期等信息。对于无法直接访问的文件,则使用 Amazon Textract 工具将其转换为可用数据。

Scraping the data, Image: Screenshot, Courtesy of CCIJ

图:CCIJ

6. 评估数据

在评估数据时,应先回到原始假设,明确你要证明的观点。你需要思考:最初的研究假设是什么?收集的数据如何帮助验证这些假设?

西德里斯指出,首要的任务是确定所需数据类型,并建立统一的收集方法。团队将简单数据点与定性评估相结合,比如对案件量刑情况的判断。汤普森补充说,最理想的做法是建立清晰的数据基础,再通过整合分析结果添加解释层面,从而回答研究问题。对于日期等简单数据,可用电子表格自动处理;需要解释的数据则手动分析;介于两者之间的半解释性数据可借助AI快速处理。

7. 建立方法论

团队选择使用 Chat GPT-4 来解释数据,为此需要编写详细的提示语,明确指导AI的工作方向。

西德里斯解释说,建立方法论有三大好处:确保团队统一操作标准;方便公开发布供他人审查;便于向AI工具说明需求。但他强调,分析思考的工作仍需记者完成:“AI和自动化只是研究工具或过滤器,不能替代解释工作。”

8. 在采访报道和发稿前与专家核实你的方法论

作为记者而非数据科学家,我们有必要在报道过程中及发布前请专家审核方法。正如汤普森所说,专家们了解记者可能忽视的重要背景,知晓相关研究成果,能够发现数据规律,最重要的是能判断是否存在过度简化或误解数据的情况。

9. 人工核查数据

汤普森警告说:“如果使用自动化或人工智能工具,绝不能在未经人工确认的情况下就发布结果。”记者永远不应完全信任人工智能,必须反复核查是否存在错误或遗漏的数据点。汤普森表示:“使用人工智能工具时,要求它证明所发现的内容,以便于事实核查。有时人工核查是最好的方式。”在他们的调查中,发现 ChatGPT 4遗漏了几个细节。虽然这些遗漏并未改变最终结论,但识别出人工智能的错误有助于使报道更加扎实。西德里斯补充说:“ChatGPT 4只是一个工具,它会产生幻觉(生成虚假或误导性回应)、遗漏信息或缺乏上下文。”

Double checking Chat GPT-4, Image: Screenshot, courtesy of CCIJ

与 ChatGPT 4 检查数据。图:CCIJ

Manual checks of data. Image: Screenshot, Courtesy of CCIJ

人工检查数据。图:CCIJ

10. 找到新闻点

在分析数据并检查错误后,你可以寻找数据所能讲述的故事。不过,汤普森指出,你应该始终保持自省,审视自己在解读数据时可能存在的偏见:“往往基于单个案例的假设,在你看到整体模式时并不准确。”你可以使用标签作为过滤器来理解数据,同时再次寻求专家帮助理解发现并提供可能被忽略的背景信息。

在这项调查中,CCIJ 团队成功证实了斯瓦蒂尼法院系统性地未能为性暴力受害者伸张正义。记者们还使用类似方法报道了来自乌干达、津巴布韦和埃塞俄比亚的故事,调查了对戴卷发人士的歧视童婚与宗教信仰的关联,以及涉及军事合作的被武器化的强奸案件

西德里斯给同行记者的最后建议是“公开发布调查方法和发现,以确保透明度”。这样,其他人可以使用这些数据进行进一步研究,并从你的调查技巧中学习和交叉核查。

编者注:完整数据集可在此处获取,其他几个非洲国家的数字化法院记录也可在此查阅。


Sarah Ulrich 是 GIJN 德语编辑,与调查网络组织(Netzwerk Recherche)合作负责 GIJN 德语工作。她同时也是一名调查记者,主要关注权力滥用、(劳工)剥削以及右翼极端主义和性别暴力等议题。

您可以根据知识共享协议条款免费转载这篇文章

转载


阅读更多

深度报道方法

如何调查暗网和网络犯罪?

任何在数字领域实施的犯罪活动,都可以归入网络犯罪的范畴,它不仅包括了一些黑客行为,还包括贩卖儿童色情制品、盗窃源代码等等。如何对这类犯罪活动进行调查,CNBC 记者 Kate Fazzini 撰写了这份指南。

GIJN 十问

GIJN 十问:再沉重也不能忘记幽默,对话法国调查记者斯特凡妮·奥雷尔

斯特凡妮·奥雷尔是法国调查污染、农药和有毒物质等议题的先驱,在这些问题还没有被足够重视时,她就开始了相关领域的调查。在这篇访谈中,她分享了从事调查新闻的心得,法国调查新闻业面临的挑战,还有自己最喜欢的编辑方法——用幽默的方式来处理沉重的选题。