輔助功能設置

文字大小

色彩設置

單色 柔和色 dark

閱讀工具

底部遮蓋 標尺

文章

主題

如何將AI融入新聞工作流程?來自《印度教徒報》的經驗

其他語言

近幾個月來,《印度教徒報》(The Hindu)的記者解析了印度三個邦近2200萬條選民記錄,在無需手動編寫任何代碼的情況下搭建了選舉結果展示界面,並自行組裝了低成本熱量傳感器,用於記錄不同職業工人在極端高溫下的體感差異。

據該報高級編輯拉馬尼(Srinivasan Ramani)介紹,上述工作的推進在很大程度上得益於大型語言模型(LLM)的協助——這些模型並非用於生成文章,而是用於處理文件、編寫代碼、輔助調查報道,他在2026年班加羅爾舉辦的“AI與媒體論壇”上分享了上述實踐經驗。他關注的重點並非寫作自動化,而是低代碼開發與AI輔助開發如何重塑這家老牌媒體內部的數據新聞工作流程。

“AI就像一個極其得力的實習生。你告訴它該做什麼,它就去做。但主導權始終在你手中。”他說。

用 AI 解析2200萬條選民記錄

拉馬尼介紹的最具代表性的項目之一,是針對印度“特別密集修訂”(Special Intensive Revision, SIR)的調查報道。這是選舉委員會定期開展的選民名冊更新工作,最新一輪修訂中,當局公布了被刪除選民的記錄及註銷原因。

然而,這批數據並不適合直接分析——它們以圖片版PDF的形式呈現,實質上是表格照片,且均為印地語。

僅比哈爾邦一地,團隊就處理了約9萬份文件、650萬條記錄;泰米爾納德邦涉及約7.8萬份文件、970萬條記錄;西孟加拉邦約8萬份文件、580萬條記錄。三邦合計,記錄總量約達2200萬條。

團隊首先利用光學字符識別(OCR)技術將圖片文件轉化為可供機器讀取的文本,翻譯成英文後存入數據庫。拉馬尼則通過自然語言提示,藉助大語言模型生成SQL查詢語句,全程無需手動編寫數據庫指令。

分析結果揭示了若干規律性現象,進而引發了更深入的後續報道。例如,在比哈爾邦,儘管男性外出務工現象更為普遍,被從選民名冊中刪除的女性人數卻多於男性;多個投票站中,大量被刪除的選民被標註為“已故”,而其中許多人年齡不足50歲。

隨着印度最高法院下令選舉委員會公開完整刪除記錄,調查範圍進一步擴大。《印度教徒報》隨即建立了可供檢索的被刪除選民數據庫,並發布了分邦深度調查報道。

“這些結論並非由AI得出,”拉馬尼說,“假設是我們提出的,政治和社會背景是我們把握的,AI只是幫助我們處理了這一大規模的數據。”

相關報道引發了議會討論和司法關注,比哈爾邦也在輿論壓力和實地報道的推動下,對選民名冊進行了部分更正。

零代碼構建選舉交互界面

AI的應用不止於文件處理。在印度2019年和2024年兩屆全國大選期間,團隊構建了交互式地圖,允許用戶按地區、邦、城鄉分類及城市聚落進行篩選。

整個應用使用了JavaScript、HTML和D3,但拉馬尼全程未手動編寫一行代碼。“每一行代碼都不是我自己寫的,”他說,“整個應用在兩周內完成,全部通過在ChatGPT、Gemini和Claude中輸入提示詞實現。“

團隊收集公開的選舉數據,將界面拆解為若干組件——篩選器、地圖、列表視圖——再用模型為每個組件生成帶注釋的代碼,便於後續核驗。

印度全國大選涉及近10億名合格選民,在截稿壓力下構建能夠實現選區級別篩選的工具,在技術上極具挑戰性。

過去,這類項目需要內部工程師或外部志願者的支持,AI輔助開發大幅壓縮了這一周期。“截止日期在新聞業中是神聖的,”他說,“現在我們不必再因為等待技術支持而延期交稿了。”

AI 在街頭調查中的應用

並非所有項目都是純數字化的。在夏季酷熱難耐的金奈,團隊調查了高溫壓力在不同體力勞動職業間的差異。

在AI的輔助指導下,編輯團隊自行組裝了基於Arduino的低成本傳感器設備,每隔10秒記錄一次溫度和濕度數據,所有零部件均在當地採購,項目總成本約為1.5萬至2萬盧比(約合180至240美元)。

I圖片來自《印度教徒報》

四台設備分別交給一名廚師、一名漁民、一名工廠工人和一名電動三輪車司機,由他們在24小時內採集真實環境數據。綜合溫度與濕度的體感熱指數,各職業之間差異懸殊,峰值最高達69°C。數據以時間軸形式呈現,直觀揭示出不同群體所承受的高溫暴露程度。

報道發布後,泰米爾納德邦政府宣布推出熱浪管理計劃,並探討將類似設備用於後續研究。拉馬尼將這一項目描述為硬件實驗與數據敘事相結合的典範,AI在設計與問題排查環節發揮了關鍵的輔助作用。

AI融入工作流,人類掌控全局

拉馬尼強調,AI工具嵌入的是一套成熟的數據新聞工作流程:提出假設、採集數據、清洗整理、分析、可視化,最終發布。他將團隊的工作分為五類:簡單趨勢分析、相關性研究、因素分析、因果調查,以及深度問責報道。

目前,AI已在多個環節發揮作用:生成網絡抓取腳本、處理非結構化文檔、提供數據庫查詢建議、構建前端界面。但他強調,人工審核始終是核心所在。

他舉了一個例子:有一次,AI生成的腳本以順序方式處理文件,導致分析效率低下,直到一位技術人員提出引入多線程並行處理的建議,模型才輸出了更高效的版本。“你需要人類的洞察力來告訴它該優化什麼。”

他同時提醒,不應讓AI主導編輯判斷。在結構化任務中——提取數據、生成代碼——“幻覺”風險相對較低,因為輸出結果可以直接驗證;但新聞判斷的邊界,必須由人類來守護。

從圖表到深度調查

拉馬尼回顧了《印度教徒報》數據新聞過去十年的演進歷程:從作為傳統報道點綴的可視化圖表,逐步成長為由數據記者、設計師和編輯型程序員共同參與、獨立運作的專業部門,承擔應用開發與深度調查工作。

其重要項目之一,是新冠疫情期間的超額死亡分析。該團隊通過民事登記數據估算,官方公布的新冠死亡人數被低估了五到六倍。

這一結論在當時遭到質疑,但世界衛生組織後來的分析及隨後官方數據的修訂,均印證了死亡人數存在大幅低報。

“如今,數據驅動的報道已全面融入紙質版和數字版的運營,而非作為專業小組單獨運作。許多此類調查以付費內容形式發布,”拉馬尼說,並表示此類報道為編輯部帶來了更高的訂閱量和讀者參與度。

“我們希望培養一個更有判斷力的受眾群體,這類報道幫助我們朝這個方向前進。縱觀所有項目,AI並不取代新聞判斷,它拓展的是新聞判斷所能觸及到的規模。”他說。

本文最初由世界新聞出版協會(WAN-IFRA)發表,全球深度報道網經授權翻譯轉載。


Neha Gupta 是世界新聞出版協會(WAN-IFRA)的研究編輯,專註於分析新聞業發展趨勢,並報道新聞領域的商業與技術動態。

您可以根據知識共享協議條款免費轉載這篇文章

轉載


閱讀更多

數據新聞

數據新聞中最常見的10個錯誤

在今年的 NICAR 會議上,GIJN 與幾位數據新聞專家交談,詢問他們在數據新聞中最常見的10個錯誤,包括忽視空白行、混淆百分比和百分點、在圖表中使用錯誤的刻度尺等等。

數據新聞

過去一年,有哪些不可錯過的數據新聞?

在過去一年中,來自全球各地的數據記者們用數字、圖表,甚至音符來呈現新冠疫情、氣候變化、地區衝突等新聞議題。在這篇文章中,我們精選了過去一年中最值得一讀的數據新聞報道。

數據新聞

數據新聞精選:蝙蝠為什麼會成為病毒的理想宿主?

3月,以亞裔為目標的暴力事件在美國點燃了新一輪的抗議潮;長賜號因擱淺卡在蘇伊士運河,導致了全球航運的堵塞;歐洲新一波疫情反彈,關於病毒源頭、傳播以及疫苗接種的討論仍在繼續。對於這些重要的新聞議題,數據記者們採取了怎樣的視角、使用了怎樣的手法來呈現?如果你也想以數據作為切入點製作相關報道,有哪些好用的開源工具或資料庫能夠助你一臂之力?全球深度報道網精選了這些本月值得一看的數據新聞與實用資源。