近幾個月來,《印度教徒報》(The Hindu)的記者解析了印度三個邦近2200萬條選民記錄,在無需手動編寫任何代碼的情況下搭建了選舉結果展示界面,並自行組裝了低成本熱量傳感器,用於記錄不同職業工人在極端高溫下的體感差異。
據該報高級編輯拉馬尼(Srinivasan Ramani)介紹,上述工作的推進在很大程度上得益於大型語言模型(LLM)的協助——這些模型並非用於生成文章,而是用於處理文件、編寫代碼、輔助調查報道,他在2026年班加羅爾舉辦的“AI與媒體論壇”上分享了上述實踐經驗。他關注的重點並非寫作自動化,而是低代碼開發與AI輔助開發如何重塑這家老牌媒體內部的數據新聞工作流程。
“AI就像一個極其得力的實習生。你告訴它該做什麼,它就去做。但主導權始終在你手中。”他說。
用 AI 解析2200萬條選民記錄
拉馬尼介紹的最具代表性的項目之一,是針對印度“特別密集修訂”(Special Intensive Revision, SIR)的調查報道。這是選舉委員會定期開展的選民名冊更新工作,最新一輪修訂中,當局公布了被刪除選民的記錄及註銷原因。
然而,這批數據並不適合直接分析——它們以圖片版PDF的形式呈現,實質上是表格照片,且均為印地語。
僅比哈爾邦一地,團隊就處理了約9萬份文件、650萬條記錄;泰米爾納德邦涉及約7.8萬份文件、970萬條記錄;西孟加拉邦約8萬份文件、580萬條記錄。三邦合計,記錄總量約達2200萬條。
團隊首先利用光學字符識別(OCR)技術將圖片文件轉化為可供機器讀取的文本,翻譯成英文後存入數據庫。拉馬尼則通過自然語言提示,藉助大語言模型生成SQL查詢語句,全程無需手動編寫數據庫指令。
分析結果揭示了若干規律性現象,進而引發了更深入的後續報道。例如,在比哈爾邦,儘管男性外出務工現象更為普遍,被從選民名冊中刪除的女性人數卻多於男性;多個投票站中,大量被刪除的選民被標註為“已故”,而其中許多人年齡不足50歲。
隨着印度最高法院下令選舉委員會公開完整刪除記錄,調查範圍進一步擴大。《印度教徒報》隨即建立了可供檢索的被刪除選民數據庫,並發布了分邦深度調查報道。
“這些結論並非由AI得出,”拉馬尼說,“假設是我們提出的,政治和社會背景是我們把握的,AI只是幫助我們處理了這一大規模的數據。”
相關報道引發了議會討論和司法關注,比哈爾邦也在輿論壓力和實地報道的推動下,對選民名冊進行了部分更正。
零代碼構建選舉交互界面
AI的應用不止於文件處理。在印度2019年和2024年兩屆全國大選期間,團隊構建了交互式地圖,允許用戶按地區、邦、城鄉分類及城市聚落進行篩選。
整個應用使用了JavaScript、HTML和D3,但拉馬尼全程未手動編寫一行代碼。“每一行代碼都不是我自己寫的,”他說,“整個應用在兩周內完成,全部通過在ChatGPT、Gemini和Claude中輸入提示詞實現。“
團隊收集公開的選舉數據,將界面拆解為若干組件——篩選器、地圖、列表視圖——再用模型為每個組件生成帶注釋的代碼,便於後續核驗。
印度全國大選涉及近10億名合格選民,在截稿壓力下構建能夠實現選區級別篩選的工具,在技術上極具挑戰性。
過去,這類項目需要內部工程師或外部志願者的支持,AI輔助開發大幅壓縮了這一周期。“截止日期在新聞業中是神聖的,”他說,“現在我們不必再因為等待技術支持而延期交稿了。”
AI 在街頭調查中的應用
並非所有項目都是純數字化的。在夏季酷熱難耐的金奈,團隊調查了高溫壓力在不同體力勞動職業間的差異。
在AI的輔助指導下,編輯團隊自行組裝了基於Arduino的低成本傳感器設備,每隔10秒記錄一次溫度和濕度數據,所有零部件均在當地採購,項目總成本約為1.5萬至2萬盧比(約合180至240美元)。
四台設備分別交給一名廚師、一名漁民、一名工廠工人和一名電動三輪車司機,由他們在24小時內採集真實環境數據。綜合溫度與濕度的體感熱指數,各職業之間差異懸殊,峰值最高達69°C。數據以時間軸形式呈現,直觀揭示出不同群體所承受的高溫暴露程度。
報道發布後,泰米爾納德邦政府宣布推出熱浪管理計劃,並探討將類似設備用於後續研究。拉馬尼將這一項目描述為硬件實驗與數據敘事相結合的典範,AI在設計與問題排查環節發揮了關鍵的輔助作用。
AI融入工作流,人類掌控全局
拉馬尼強調,AI工具嵌入的是一套成熟的數據新聞工作流程:提出假設、採集數據、清洗整理、分析、可視化,最終發布。他將團隊的工作分為五類:簡單趨勢分析、相關性研究、因素分析、因果調查,以及深度問責報道。
目前,AI已在多個環節發揮作用:生成網絡抓取腳本、處理非結構化文檔、提供數據庫查詢建議、構建前端界面。但他強調,人工審核始終是核心所在。
他舉了一個例子:有一次,AI生成的腳本以順序方式處理文件,導致分析效率低下,直到一位技術人員提出引入多線程並行處理的建議,模型才輸出了更高效的版本。“你需要人類的洞察力來告訴它該優化什麼。”
他同時提醒,不應讓AI主導編輯判斷。在結構化任務中——提取數據、生成代碼——“幻覺”風險相對較低,因為輸出結果可以直接驗證;但新聞判斷的邊界,必須由人類來守護。
從圖表到深度調查
拉馬尼回顧了《印度教徒報》數據新聞過去十年的演進歷程:從作為傳統報道點綴的可視化圖表,逐步成長為由數據記者、設計師和編輯型程序員共同參與、獨立運作的專業部門,承擔應用開發與深度調查工作。
其重要項目之一,是新冠疫情期間的超額死亡分析。該團隊通過民事登記數據估算,官方公布的新冠死亡人數被低估了五到六倍。
這一結論在當時遭到質疑,但世界衛生組織後來的分析及隨後官方數據的修訂,均印證了死亡人數存在大幅低報。
“如今,數據驅動的報道已全面融入紙質版和數字版的運營,而非作為專業小組單獨運作。許多此類調查以付費內容形式發布,”拉馬尼說,並表示此類報道為編輯部帶來了更高的訂閱量和讀者參與度。
“我們希望培養一個更有判斷力的受眾群體,這類報道幫助我們朝這個方向前進。縱觀所有項目,AI並不取代新聞判斷,它拓展的是新聞判斷所能觸及到的規模。”他說。
本文最初由世界新聞出版協會(WAN-IFRA)發表,全球深度報道網經授權翻譯轉載。
Neha Gupta 是世界新聞出版協會(WAN-IFRA)的研究編輯,專註於分析新聞業發展趨勢,並報道新聞領域的商業與技術動態。
