輔助功能設置

文字大小

色彩設置

單色 柔和色 dark

閱讀工具

底部遮蓋 標尺

2019年在南部非洲發生的一場反對性別暴力的抗議活動。圖:Shutterstock

文章

主題

如何用數據揭露系統性的性別暴力?

其他語言

這個故事源於一位悲痛欲絕的母親。在非洲南部小國斯瓦蒂尼(前身為斯威士蘭)中部城鎮馬察法附近,佐德瓦·恩坎布勒(Zodwa Nkambule)的女兒遭到殘暴的性侵犯,傷勢嚴重到無法行走,需要頻繁就醫,最終不幸離世。被指控犯罪的男子雖然被逮捕,但後來獲釋,並在未受到任何法律制裁的情況下死亡。

這只是眾多悲劇故事中的一個。合作調查新聞中心(CCIJ)對斯瓦蒂尼針對女性的系統性暴力進行了調查,題為《正義無處伸張:斯瓦蒂尼體制如何辜負性別暴力受害者》。調查發現,在為期六個月的時間裡,“強姦”一詞幾乎每周都會出現在《斯瓦蒂尼時報》上,該國的強姦案發生率遠高於國際平均水平,而且仍有大量案件未被報告。

恩坎布勒的經歷引發了一項深入調查。這項調查並不局限於個案或施暴者,而是聚焦造成斯瓦蒂尼性侵害和針對婦女暴力的體制性因素,以及司法系統如何辜負受害者。記者們通過收集分析法庭數據,將個案轉化為對這一長期存在卻缺乏確切數據的系統性問題的實證研究。

CCIJ 調查團隊全面梳理了《斯瓦蒂尼時報》的犯罪報道,訪談了推動變革的活動人士和受害女性,研究了斯瓦蒂尼反虐待行動組織(SWAGAA)近三年的數據,並分析了自1977年來逾4600起高等法院案件,發現其中330多起涉及性別暴力,包括253起強姦指控。

“我們的調查顯示,追責過程中存在諸多漏洞,導致受害者無法獲得應有的司法保護,”報告指出。這反映出自2018年新《性犯罪和家庭暴力法》(SODV)實施以來,司法系統已在大量案件壓力下難以維繫。該法案本是為遏制此類犯罪的高發態勢而制定。

具體漏洞包括:

  • 受害者因恐懼或壓力不敢報案或撤回指控
  • 案件在法院審理過程中被遺漏或因程序問題被駁回
  • 法官對法律適用不當或案件長期拖延未決

隨後,CCIJ 時任系列報道編輯湯普森(Carolyn Thompson)和數據編輯西德里斯(Sotiris Sideris)提供了一份十步指南,詳細介紹了團隊如何獲取相關數據、建立分析框架,最終揭示司法系統的整體性缺陷。

CCIJ series editor Carolyn Thompson, with CCIJ Africa Editor A

CCIJ 系列報道編輯湯普森(中)與數據編輯西德里斯(右)和CCIJ非洲編輯阿姆扎特(Ajibola Amzat)在 iMEdDIJF24 合影。圖片由湯普森提供

1. 從明確的假設開始

這項調查始於一個簡單的假設。湯普森解釋說:“我們喜歡用這樣的框架:‘某人出於某種原因在做某事’。”在他們的案例中,他們假設斯瓦蒂尼政府因未能有效執行包括《性犯罪和家庭暴力法》在內的相關法律,且未能提高民眾對這一問題的認識,從而忽視了預防性暴力案件。為了證實這一假設,他們需要找出具體的證據點。

2. 收集信息:目前掌握了哪些消息?

在調查開始時,需要收集所有已知的證據,並將其整理成一份指導性文件。根據人權觀察組織和聯合國人口基金等非政府組織的數據,斯瓦蒂尼超過三分之一的女性在18歲之前曾遭受某種形式的性暴力。隨後,CCIJ 團隊考慮需要收集哪些信息來證實這一點,並思考為什麼這些案件難以獲得成功的定罪。

3. 信息地圖構建

為確定最具價值的調查信息,需要明確搜索方向。湯普森指出:“應該思考基本假設,以及信息的來源和存儲位置。”

以性暴力犯罪為例,相關信息可能分布在醫療記錄、警方報告、心理健康支持數據和社交媒體的個人分享中。但信息來源的選擇需要謹慎。湯普森強調:“重點不是獲取所有列出的內容,而是要思考數據可能的分布位置,進而選擇最有助於豐富報道的信息。”

4. 獲取數據來源

獲取數據的途徑多樣,最基礎的是網絡搜索。在本案例中,團隊通過特定搜索PDF文件,並結合”eswatini”和”court”等關鍵詞進行定向查找。

西德里斯表示:“我們很幸運找到了斯瓦蒂尼最高法院的開放數據庫。”但並非總能如此順利。其他數據獲取方式包括:抓取公開網頁數據、購買非公開數據、自主收集創建數據、申請信息公開,或與專家直接溝通。

Google search for Eswatini, and court, Image: Screenshot, courtesy of CCIJ

用 Google 搜索 filetype:pdf, Eswatini, and court. 圖:CCIJ

5. 數據分析與整理

在發現包含數百萬條記錄的公共數據庫後,記者們需要篩選出最有價值的信息。他們最初採用“強姦”或“性侵”等關鍵詞過濾,並使用爬蟲獲取數據。但西德里斯建議避免手動篩選,“因為後來發現可以直接使用API接口”。

.更好的方法是使用輔助數據抓取的程序或人工智能工具。數據獲取後,團隊建立電子表格並錄入案件日期等信息。對於無法直接訪問的文件,則使用 Amazon Textract 工具將其轉換為可用數據。

Scraping the data, Image: Screenshot, Courtesy of CCIJ

圖:CCIJ

6. 評估數據

在評估數據時,應先回到原始假設,明確你要證明的觀點。你需要思考:最初的研究假設是什麼?收集的數據如何幫助驗證這些假設?

西德里斯指出,首要的任務是確定所需數據類型,並建立統一的收集方法。團隊將簡單數據點與定性評估相結合,比如對案件量刑情況的判斷。湯普森補充說,最理想的做法是建立清晰的數據基礎,再通過整合分析結果添加解釋層面,從而回答研究問題。對於日期等簡單數據,可用電子表格自動處理;需要解釋的數據則手動分析;介於兩者之間的半解釋性數據可藉助AI快速處理。

7. 建立方法論

團隊選擇使用 Chat GPT-4 來解釋數據,為此需要編寫詳細的提示語,明確指導AI的工作方向。

西德里斯解釋說,建立方法論有三大好處:確保團隊統一操作標準;方便公開發布供他人審查;便於向AI工具說明需求。但他強調,分析思考的工作仍需記者完成:“AI和自動化只是研究工具或過濾器,不能替代解釋工作。”

8. 在採訪報道和發稿前與專家核實你的方法論

作為記者而非數據科學家,我們有必要在報道過程中及發布前請專家審核方法。正如湯普森所說,專家們了解記者可能忽視的重要背景,知曉相關研究成果,能夠發現數據規律,最重要的是能判斷是否存在過度簡化或誤解數據的情況。

9. 人工核查數據

湯普森警告說:“如果使用自動化或人工智能工具,絕不能在未經人工確認的情況下就發布結果。”記者永遠不應完全信任人工智能,必須反覆核查是否存在錯誤或遺漏的數據點。湯普森表示:“使用人工智能工具時,要求它證明所發現的內容,以便於事實核查。有時人工核查是最好的方式。”在他們的調查中,發現 ChatGPT 4遺漏了幾個細節。雖然這些遺漏並未改變最終結論,但識別出人工智能的錯誤有助於使報道更加紮實。西德里斯補充說:“ChatGPT 4隻是一個工具,它會產生幻覺(生成虛假或誤導性回應)、遺漏信息或缺乏上下文。”

Double checking Chat GPT-4, Image: Screenshot, courtesy of CCIJ

與 ChatGPT 4 檢查數據。圖:CCIJ

Manual checks of data. Image: Screenshot, Courtesy of CCIJ

人工檢查數據。圖:CCIJ

10. 找到新聞點

在分析數據並檢查錯誤後,你可以尋找數據所能講述的故事。不過,湯普森指出,你應該始終保持自省,審視自己在解讀數據時可能存在的偏見:“往往基於單個案例的假設,在你看到整體模式時並不準確。”你可以使用標籤作為過濾器來理解數據,同時再次尋求專家幫助理解發現並提供可能被忽略的背景信息。

在這項調查中,CCIJ 團隊成功證實了斯瓦蒂尼法院系統性地未能為性暴力受害者伸張正義。記者們還使用類似方法報道了來自烏干達、津巴布韋和埃塞俄比亞的故事,調查了對戴捲髮人士的歧視童婚與宗教信仰的關聯,以及涉及軍事合作的被武器化的強姦案件

西德里斯給同行記者的最後建議是“公開發布調查方法和發現,以確保透明度”。這樣,其他人可以使用這些數據進行進一步研究,並從你的調查技巧中學習和交叉核查。

編者註:完整數據集可在此處獲取,其他幾個非洲國家的數字化法院記錄也可在此查閱。


Sarah Ulrich 是 GIJN 德語編輯,與調查網絡組織(Netzwerk Recherche)合作負責 GIJN 德語工作。她同時也是一名調查記者,主要關注權力濫用、(勞工)剝削以及右翼極端主義和性別暴力等議題。

您可以根據知識共享協議條款免費轉載這篇文章

轉載


閱讀更多

深度報道方法

如何調查暗網和網絡犯罪?

任何在數字領域實施的犯罪活動,都可以歸入網絡犯罪的範疇,它不僅包括了一些黑客行為,還包括販賣兒童色情製品、盜竊源代碼等等。如何對這類犯罪活動進行調查,CNBC 記者 Kate Fazzini 撰寫了這份指南。