輔助功能設置

文字大小

色彩設置

單色 柔和色 dark

閱讀工具

底部遮蓋 標尺

文章

數據新聞精選| R語言和網絡圖:數據敘事好幫手

R語言能挖掘、整理數據,網絡圖可以呈現故事脈絡,兩者各顯神通。深度君精選數據網站FiveThirtyEight的R語言應用心得,數據新聞網絡圖敘事的類型,還可參考《處理數據、製作可視化:數據記者利器推薦》

1.了解五大優勢,巧用R做數據新聞

FiveThirtyEight是專註於做民意調查分析、政經新聞和體育報道的數據新聞網站,由數據分析師Nate Silver 於2008年建立,屬於娛樂與體育節目電視網
ESPN。其優秀作品包括Uber對紐約交通的影響探究恐怖事件發生頻率分析等。他們做數據作品的利器,就是R。

FiveThirtyEight數據編輯Andrew Flowers道出了他們的作品秘訣:數據新聞中,最重要的是故事,其次才是數據。此外,做數據新聞須嚴謹縝密,簡單易懂,保證信息準確、講述故事,以及數據分析過程的透明。

FiveThirtyEight之所以青睞R語言,是因為R有以下五點優勢:
1)R屬開源工具
FiveThirtyEight支持信息開源,他們眾多報道用到的數據和R代碼都分享於GitHub,供讀者參考和改進。

538

2) ggplot2繪圖功能強大
R語言擴展包ggplot2可繪製多種個性化統計圖表。

ggplot2

3) R整理數據更快捷
數據挖掘是做數據新聞的第一步,但通常而言,你挖的數據格式並不理想,還有可能雜亂無章。R語言的dplyr, tidyr, lubridate, stringr, readr等擴展包是你的好幫手。

FOIAgov

Flowers提到從FOIA.gov上獲取的數據通常都需要重新整理

 

4)便於協作
Git/GitHub社區使程序員更易分享與整合信息、互相協作,避免代碼出錯。
githubediting

5. 可製作交互圖表
Shiny擴展包,R也可以製作網頁呈現的互動圖表。
shiny

更多細節,請參見Flowers在2016年國際R語言用戶大會上的演講:FiveThirtyEight’s data journalism workflow with R

2. 用網絡圖講故事?五種類型要學會

畫個圖,勾勒人物和事物聯繫,是理解複雜關係的常用方法。網絡圖在數據新聞里有何敘事功能?分為幾類?阿姆斯特丹大學研究員Jonathan Gray和他人合著論文《敘事型網絡圖:探索網絡圖新聞敘事的能力》(Narrating Networks: Exploring the affordances of networks as storytelling devices in journalism),做了探究,總結了以下五種新聞敘事類型:

googlebd
谷歌圖片搜索“大數據”和“可視化”結果

1)探索單個主體的關聯網絡(Exploring Associations Around Single Actors)

論文把這種以單個主體為中心、向外發散形成的關聯網絡稱為“自我網絡”(ego-network)。在敘事中運用“自我網絡”,能夠清晰呈現某個特定社會單位和與其他單位或個體的關係,適於製作交互式動態圖表。

tsusa例如,《華盛頓郵報》的交互式新聞作品“美國最高機密”(Top Secret America)展示了美國 45種政府機構的工程類型與其外部供應商形成的系統網絡,以文字和動態圖表互相補充。讀者只需點擊機構名稱,圖表上方就會顯示其業務範圍和供應商信息。圖表中的“自我”,也即作為中心的任意一個單個個體,在圖表中的位置和大小、每一塊顏色,也都包含着不同的信息,是敘事的一部分。

 

2)查找關鍵角色(Detecting Key Players)

指以網絡聯繫的緊密程度來確定網絡的關鍵角色。

stemcell國際科學周刊New Scientist的《幹細胞之戰》(The Stem Cell War)曾用此法,圖解國際幹細胞研究領域的生物學家在權威學術期刊的引用情況,分析生物學界論文引述的公平性。

如圖所示,網絡的每個圓點代表一位生物學家,美國和其他國家生物學家分列圓弧的左右兩半,以墨綠色和橙色區分。由圓點發散的箭頭指向被引用者,箭頭越粗表明引用次數越多。

網絡中最大的圓點、也即著作被引用次數最多的是京都大學的日本生物學家S Yamanaka,幾乎每個人都借鑒過他的研究。但,這是否說明日本科學家在此領域最有發言權呢?New Scientist發現,美國科學家在該領域仍佔主導,因為從網絡左半部分密集的箭頭來看,美國科學家之間相互論文引用次數更多,研究之間的聯繫也更緊密。反觀其他國家的科學家,除了幾乎一致引用Yamanaka以外,少數幾個還引用了美國科學家的研究,但借鑒非美國同行研究的情況較少。

 

3)劃分敵友界限(Mapping Alliances and Oppositions)

此類網絡結構同時展示點與點之間和點群之間的遠近,以此揭示個體之間、個體所處的集體之間的雙重關係。

範例之一,是加拿大環球新聞網(Global News)的可視化作品《分裂中的多倫多市議會》(Visualizing the Split on Toronto City Council)。作品用紅藍兩種點分別代表市長支持方和反對方,以代表中立/獨立議員的紫色點連接兩方,投票意見一致的議員會在網絡中距離更近。

trtcitycouncil


4)探索關聯網絡的演變(Exploring the Evolution of Associations Over Time)

一般用於時間敘事,注重呈現聯繫演變。上面提到的多倫多市議會故事,以交互式圖表展現議會分歧的演變。讀者可通過導航菜單,查看歷次分歧變化,深入了解政治角力 。

evotrt

5)揭示隱藏的聯繫(Revealing Hidden Ties)

此種網絡結構通常描述隱藏的、潛在的系列犯罪聯繫。每個點代表一位疑犯或同夥(疑犯可為個人、公司或其他團體),每條線代表潛在的犯罪聯繫。

《洛杉磯時報》曾調查南加州勢力龐大的卡爾德倫家族,發表了可視化報道《卡爾德倫家族的關係網》(the Calderon family’s connections),堪稱美國版《周永康的人與財》(財新數據可視化實驗室作品,曾獲國際新聞設計協會多媒體設計獎特稿(單一報道)優秀獎),解密這一家族四大掌門人縱橫商、法、學界的犯罪斂財網絡。

這一網絡的主體是家族四成員以及被他們控制的四個公司或組織,兩者之間的箭頭代表涉嫌違法的事件和行為,以顏色區分所涉領域。

calderon

論文內含豐富的數據新聞案例,詳情請閱讀原文:Narrating Networks: Exploring the affordances of networks as storytelling devices in journalism

編譯/梁思然
編輯/周煒樂

您可以根據知識共享協議條款免費轉載這篇文章

轉載


閱讀更多