近几个月来,《印度教徒报》(The Hindu)的记者解析了印度三个邦近2200万条选民记录,在无需手动编写任何代码的情况下搭建了选举结果展示界面,并自行组装了低成本热量传感器,用于记录不同职业工人在极端高温下的体感差异。
据该报高级编辑拉马尼(Srinivasan Ramani)介绍,上述工作的推进在很大程度上得益于大型语言模型(LLM)的协助——这些模型并非用于生成文章,而是用于处理文件、编写代码、辅助调查报道,他在2026年班加罗尔举办的“AI与媒体论坛”上分享了上述实践经验。他关注的重点并非写作自动化,而是低代码开发与AI辅助开发如何重塑这家老牌媒体内部的数据新闻工作流程。
“AI就像一个极其得力的实习生。你告诉它该做什么,它就去做。但主导权始终在你手中。”他说。
用 AI 解析2200万条选民记录
拉马尼介绍的最具代表性的项目之一,是针对印度“特别密集修订”(Special Intensive Revision, SIR)的调查报道。这是选举委员会定期开展的选民名册更新工作,最新一轮修订中,当局公布了被删除选民的记录及注销原因。
然而,这批数据并不适合直接分析——它们以图片版PDF的形式呈现,实质上是表格照片,且均为印地语。
仅比哈尔邦一地,团队就处理了约9万份文件、650万条记录;泰米尔纳德邦涉及约7.8万份文件、970万条记录;西孟加拉邦约8万份文件、580万条记录。三邦合计,记录总量约达2200万条。
团队首先利用光学字符识别(OCR)技术将图片文件转化为可供机器读取的文本,翻译成英文后存入数据库。拉马尼则通过自然语言提示,借助大语言模型生成SQL查询语句,全程无需手动编写数据库指令。
分析结果揭示了若干规律性现象,进而引发了更深入的后续报道。例如,在比哈尔邦,尽管男性外出务工现象更为普遍,被从选民名册中删除的女性人数却多于男性;多个投票站中,大量被删除的选民被标注为“已故”,而其中许多人年龄不足50岁。
随着印度最高法院下令选举委员会公开完整删除记录,调查范围进一步扩大。《印度教徒报》随即建立了可供检索的被删除选民数据库,并发布了分邦深度调查报道。
“这些结论并非由AI得出,”拉马尼说,“假设是我们提出的,政治和社会背景是我们把握的,AI只是帮助我们处理了这一大规模的数据。”
相关报道引发了议会讨论和司法关注,比哈尔邦也在舆论压力和实地报道的推动下,对选民名册进行了部分更正。
零代码构建选举交互界面
AI的应用不止于文件处理。在印度2019年和2024年两届全国大选期间,团队构建了交互式地图,允许用户按地区、邦、城乡分类及城市聚落进行筛选。
整个应用使用了JavaScript、HTML和D3,但拉马尼全程未手动编写一行代码。“每一行代码都不是我自己写的,”他说,“整个应用在两周内完成,全部通过在ChatGPT、Gemini和Claude中输入提示词实现。“
团队收集公开的选举数据,将界面拆解为若干组件——筛选器、地图、列表视图——再用模型为每个组件生成带注释的代码,便于后续核验。
印度全国大选涉及近10亿名合格选民,在截稿压力下构建能够实现选区级别筛选的工具,在技术上极具挑战性。
过去,这类项目需要内部工程师或外部志愿者的支持,AI辅助开发大幅压缩了这一周期。“截止日期在新闻业中是神圣的,”他说,“现在我们不必再因为等待技术支持而延期交稿了。”
AI 在街头调查中的应用
并非所有项目都是纯数字化的。在夏季酷热难耐的金奈,团队调查了高温压力在不同体力劳动职业间的差异。
在AI的辅助指导下,编辑团队自行组装了基于Arduino的低成本传感器设备,每隔10秒记录一次温度和湿度数据,所有零部件均在当地采购,项目总成本约为1.5万至2万卢比(约合180至240美元)。
四台设备分别交给一名厨师、一名渔民、一名工厂工人和一名电动三轮车司机,由他们在24小时内采集真实环境数据。综合温度与湿度的体感热指数,各职业之间差异悬殊,峰值最高达69°C。数据以时间轴形式呈现,直观揭示出不同群体所承受的高温暴露程度。
报道发布后,泰米尔纳德邦政府宣布推出热浪管理计划,并探讨将类似设备用于后续研究。拉马尼将这一项目描述为硬件实验与数据叙事相结合的典范,AI在设计与问题排查环节发挥了关键的辅助作用。
AI融入工作流,人类掌控全局
拉马尼强调,AI工具嵌入的是一套成熟的数据新闻工作流程:提出假设、采集数据、清洗整理、分析、可视化,最终发布。他将团队的工作分为五类:简单趋势分析、相关性研究、因素分析、因果调查,以及深度问责报道。
目前,AI已在多个环节发挥作用:生成网络抓取脚本、处理非结构化文档、提供数据库查询建议、构建前端界面。但他强调,人工审核始终是核心所在。
他举了一个例子:有一次,AI生成的脚本以顺序方式处理文件,导致分析效率低下,直到一位技术人员提出引入多线程并行处理的建议,模型才输出了更高效的版本。“你需要人类的洞察力来告诉它该优化什么。”
他同时提醒,不应让AI主导编辑判断。在结构化任务中——提取数据、生成代码——“幻觉”风险相对较低,因为输出结果可以直接验证;但新闻判断的边界,必须由人类来守护。
从图表到深度调查
拉马尼回顾了《印度教徒报》数据新闻过去十年的演进历程:从作为传统报道点缀的可视化图表,逐步成长为由数据记者、设计师和编辑型程序员共同参与、独立运作的专业部门,承担应用开发与深度调查工作。
其重要项目之一,是新冠疫情期间的超额死亡分析。该团队通过民事登记数据估算,官方公布的新冠死亡人数被低估了五到六倍。
这一结论在当时遭到质疑,但世界卫生组织后来的分析及随后官方数据的修订,均印证了死亡人数存在大幅低报。
“如今,数据驱动的报道已全面融入纸质版和数字版的运营,而非作为专业小组单独运作。许多此类调查以付费内容形式发布,”拉马尼说,并表示此类报道为编辑部带来了更高的订阅量和读者参与度。
“我们希望培养一个更有判断力的受众群体,这类报道帮助我们朝这个方向前进。纵观所有项目,AI并不取代新闻判断,它拓展的是新闻判断所能触及到的规模。”他说。
本文最初由世界新闻出版协会(WAN-IFRA)发表,全球深度报道网经授权翻译转载。
Neha Gupta 是世界新闻出版协会(WAN-IFRA)的研究编辑,专注于分析新闻业发展趋势,并报道新闻领域的商业与技术动态。
