

在 GIJN 的“我最喜愛的工具”系列中,我們採訪了彭博社數據記者萊昂納多·尼科萊蒂(Leonardo Nicoletti)。他近期的項目深入探討了社交媒體上的極端主義、生成式 AI 中的種族和性別刻板印象,以及美國的阿片類藥物危機。
尼科萊蒂進入新聞業的道路頗為曲折——他曾在學術界工作多年。但即使在學生時代,他就對視覺表達有着敏銳的洞察力。
“我在學生時期熱衷於攝影,主要是街頭攝影,這份熱情至今未減,”他說。“那時我意識到自己對講故事、尤其是人文故事非常感興趣。”
畢業後,他繼續在學術界深耕,利用開源技術衡量城市中的不平等,並量化與環境脆弱性相關的挑戰。“那段時間,我對數據可視化以及如何用它向更廣泛的受眾傳達複雜理念產生了濃厚興趣,並開始在網絡上構建應用程序。”
在與他人合作為《The Pudding》撰寫的一篇關於新聞中女性代表性的視覺文章後,尼科萊蒂開始全職進入新聞領域,並於同年晚些時候加入彭博社。此後,他的工作獲得了全球認可,特別是他對生成式 AI 和文本到圖像模型在放大種族和性別刻板印象方面的影響的研究。他與同事合作撰寫的文章《人類有偏見,但生成式 AI 更甚》(Humans Are Biased. Generative AI Is Even Worse)獲得了 2024 年 Sigma 獎。
“這是新聞領域首個數據驅動的調查,關注圖像生成器,並大規模量化其中存在的性別和種族偏見,”他解釋道。
尼科萊蒂的工作還獲得了其他許多榮譽,如新聞設計學會的認可。他的研究,特別是關於生成式 AI 風險的研究,被聯合國和國際貨幣基金組織引用。
他在彭博社的工作讓他深入研究了技術問責的問題,將技術對人的影響放在首位。
“彭博社報道不一定都是金融故事,但總有商業視角或某種金融角度,”尼科萊蒂指出。“這看似有局限性,但我發現並非如此,幾乎任何故事都能與某家公司、經濟趨勢或資金流動關聯起來。”
近期,他製作了各種各樣的報道,從探討 OpenAI 的 GPT 如何導致招聘中的種族偏見,到 AI 如何“擾亂”全球電力系統的調查,再到深入研究隱藏的芬太尼如何將美國阿片類藥物死亡推向新階段。以下是他最喜歡的一些工具。
Python
“我的工作涉及數據分析、調查、可視化和交互圖形,主要使用Python和R這類數據科學工具,其中以Python為主,”尼科萊蒂說。
“我使用 Jupyter Notebook 上使用 pandas 和 geopandas 等 Python 庫”他補充道。Pandas 通過構建、操作和轉換數據來分析大型數據集;geopandas則簡化了Python中地理空間數據的處理流程。
他還使用 spaCy 這個開源Python庫,用於處理大量文本並構建自然語言處理應用,比如根據情感分析對演講等文本進行分類,判斷表達的語氣或觀點。
“有時我們需要進行自然語言處理,這時會用到 spaCy 等工具,具體使用什麼要看項目需求。但主要還是用Python做數據分析,網頁抓取也經常用到,”他說。
D3.js and Svelte
D3.js 是一個用於在網絡上創建自定義圖形的 JavaScript 庫,能夠對可視化進行全面定製。
“在網絡上構建數據可視化和交互式圖形都是用網絡語言完成的,所以都是 JavaScript、HTML、CSS,還有像 D3 這樣非常有用的 JavaScript 庫,”尼科萊蒂指出。
“在網絡上構建數據可視化和交互式圖形都需要用到網絡語言,也就是 JavaScript、HTML、CSS,還有像 D3 這樣非常實用的JavaScript庫,”尼科萊蒂指出。
Svelte 是一個開源JavaScript框架,用於構建具有交互設計的網絡應用程序,當底層數據發生變化時,它會自動更新用戶界面。
“它讓你能夠創建響應迅速的網頁,用簡潔的方式實現豐富的交互,而無需處理繁瑣的網絡基礎問題。這些都由它來處理,”尼科萊蒂說。
“它讓過渡效果變得容易實現。比如,你有一個散點圖,每個點代表一個國家,你想將這些點移動到實際的國家位置,再轉換成條形圖。在關於 Stable Diffusion 的文章中——或者看看我參與的大多數作品,都有大量動畫和過渡效果。這些基本上都是通過 D3 來計算位置,然後用 Svelte 實現數據點的平滑過渡,比如當用戶滾動到頁面特定位置時。”
QGIS
QGIS 是一款開源軟件,是想要在不購買專有軟件的情況下進行製圖的人們的首選工具。
“我的理念是儘可能使用開源軟件,這樣你可以重複使用,不必擔心服務的API是否會改變。這樣可以減少依賴,獲得更多自由,”尼科萊蒂解釋道。
QGIS 可用於使用矢量和柵格數據來分析和編輯幾乎所有形式的地圖和空間數據。
尼科萊蒂的一個個人項目使用 QGIS 繪製了全球範圍內的城市,這些城市為居民提供了在 15 分鐘步行範圍內可達的服務。City Access Map 使用了 Mapbox,但尼科萊蒂的大部分數據探索都是在 QGIS 中完成的。“我寫了一個 Python 腳本,利用了 QGIS 的功能,因為它有許多非常強大的地理空間功能,這些功能並不總是在 Python 中實現。我處理了全球約 11000 個城市,數據量巨大,而 QGIS 的效率最高,”尼科萊蒂說。
“我經常使用 QGIS 來探索數據,有時我只是想把數據放在地圖上,看看它的樣子並進行放大,所以這非常有用,”他補充道。“QGIS 中也有很多插件,有時在 QGIS 腳本中做一些事情比在 Python 中更容易。”
HTML Canvas
HTML的 <canvas> 功能使在網絡上生成動態交互式圖形成為可能。由於它基於柵格,通常用於更複雜的可視化和動畫。使用JavaScript可以直接將圖形繪製到網站上。
“大多數可視化使用SVG(可縮放矢量圖形),但它處理大量數據點的效果不夠理想,”尼科萊蒂說。“在我參與的許多項目中,我一直在使用 canvas 這種網絡技術,它不是矢量的,而是像素的。它可以直接繪製形狀,能處理更多的數據點。雖然在編程上使用和理解都有點難度,但功能非常強大。”
跨學科的思維方式
除了尼科萊蒂使用的傳統數據分析和可視化工具外,他還提倡在構思和製作故事時採用跨學科的方法。
“我認為擁有社會科學背景很有幫助,掌握一些數據科學和編程知識對於使用這些工具來說很重要,”他說。“但作為一個學習過其他學科的人,比如城市規劃和城市中的社會技術挑戰,我覺得這很有價值,因為你會接觸到很多複雜的問題,這在想出創意和更深入地了解世界方面是一個優勢。”
Hanna Duggal 是 @AJLabs 的數據記者,AJLabs 是半島電視台的數據、視覺講故事和實驗團隊。她曾使用數據報道警務、監控和抗議等問題。