輔助功能設置

文字大小

色彩設置

單色 柔和色 dark

閱讀工具

底部遮蓋 標尺

文章

每周數據新聞精選 | 數據新手“八步走” 快速入門就靠這些資源

近年,數據新聞的熱潮有增無減,吸引着無數行業內外的弄潮兒。傳統記者如何在數據時代轉型?毫無新聞基礎的數據愛好者如何躋身炙手可熱的數據新聞行列?數據科學在線教育平台DataCamp的記者Karlijn Willems,最近在DataCamp發表博文,詳解了數據新聞的概念,並分享了豐富的學習資源與建議,以供有志從事數據新聞、尤其是從零基礎開始希望通過自學成才的人士參考。以下,深度君為你編譯整理了Willems提到的“八步”自學計劃與各類資源。


ProPublica副總編Scott Klein說過,一個好的數據記者應該具備這三點素質:新聞學技巧,設計才能,以及編程頭腦。聽起來很簡單。那麼,對記者的教育背景有何要求嗎?“新聞學技巧”、“設計才能”和“編程頭腦”的具體含義又是什麼呢?

Klein表示,在ProPublica的數據團隊里,大多數人的確是有新聞學位的,但那並不是必要條件。來自數學或計算機科學背景的數據記者也比比皆是。“對一個想讓世界變成更好地方的數學精英來說,新聞業可以說是最好的歸宿。”Klein說。

無論你來自任何教育背景,只要具備或煉得Klein所提到的三種技能,你都有機會成為一名數據記者。

ddj但這些技能並不那麼容易掌握。事實上,沒有幾個大學課程會教你那些技能,大部分情況下你只能依靠自學。除了MOOC大數據大學課程(Big Data University)或一些數據記者開設的個人工作坊,很多數據技能培訓都價格不菲,並且有的培訓只對媒體里的職業數據記者或數據團隊開放。

因此,如何自學,決定成敗。

這裡主要為數據新聞入門者整理一份自學計劃,總結為八個步驟,下文還有更細緻的計劃分解和相關資源介紹。需謹記,這份計劃只是入門貼士,每個人應當根據自己的教育背景和學習習慣再作調整。

  1. 建立廣泛的知識儲備;
  2. 堅持寫作;
  3. 學習一些編程語言;
  4. 了解數據新聞的操作流程;
  5. 建立個人工具箱;
  6. 開始建立你的個人網絡;
  7. 堅持學習;
  8. 去追求你夢想中的數據工作!

 

1.建立一個廣泛的知識儲備

建立知識儲備的辦法因人而異,其中一條路徑是廣泛涉獵,通過各種渠道了解未知知識。同時,保持一份好奇心,以激發你發現和學習新鮮事物動力。

廣泛的知識儲備不僅意味着要對時事熱點有全面了解,還包括掌握數學與統計方面的基礎知識。Willems建議數據記者和編輯都應該上一些統計課程。OpenIntroDataCamp就有相關課程可參考。

若想積累數據新聞方面的背景知識,Willems推薦了以下學習材料:kleinhistory

— Scott Klein講數據新聞史,視頻地址在此

–數據新聞佳作推薦,從數據同行的經驗中學習:

 

2.不斷寫作

瞄準特定的受眾,結合不同媒介的特點,快速準確地表達主題思想,傳遞數據的信息——這些都是數據新聞寫作的難點。Willems整理了一些在線課程,為你的寫作指點迷津(針對英文寫作):

EdX:EdX上有很多新聞學方面的內容。“Journalism for Social Change”和 “English for Journalists: Key Concepts”都是入門好課。

Coursera:不僅有一般的新聞入門課程,還細分到不同的新聞專題。

Mediabistro和《衛報》的大師班

 

3.學習一些編程語言

學習簡單的編程並不僅僅是為了挖掘信息,而更重於呈現信息。選擇何種編程語言,需看你要做哪一種數據故事,或是哪一方面的數據工作。網頁製作,信息挖掘,還是建立數據模型?對於編程入門者來說,或許最好的方式是先每一項都淺嘗,再根據自己的興趣深入學習某一種技能。codeschool

網頁製作方面,精通JavaScript、CSS和HTML人才當下最吃香。EdXJournocode都有相關教程。

另外一門市場需求很高的技術就是Django(Python)和RubyCodeSchool上關於這兩門語言的課程不能更全了。

數據記者入門清單上也絕對少不了R、SAS、SPSS和Python 。較以上介紹的語言,這幾種更適合用來做數據分析與建模。DataCamp的R入門Python入門課程,比較適合初學者。SASSPSS則可分別通過點擊鏈接獲取。


4.了解數據新聞的操作流程

與一般的數據科學研究無異,數據新聞的操作流程也包括數據挖掘、數據整理、數據分析、數據可視化和報道。然而,數據新聞會更偏重於報道和敘事,而非建立數據模型。

–可視化方面的好書推薦:

耶魯教授、數據科學家Edward Tufte的著作;

The Functional Art: An Introduction to Information Graphics and Visualization (《不只是美:信息圖表設計原理與經典案例》,已翻譯為中文),作者 Alberto Cairo23619128-1_u_2

Information Dashboard Design, 作者Stephen Few

–數據分析:

The Signal and the Noise: Why So Many Predictions Fail—But Some Don’t,作者Nate Silver

–數據挖掘、整理與可視化:

R和Python學習資源整理


5.建立個人工具箱

數據工具層出不窮,讓人眼花繚亂。如何選擇適合的工具?Willems表示,記者不必十八般武藝樣樣精通,但需具備快速學習的能力和意願。

根據以上流程,Willems推薦了一些工具,讓你的數據工作事半功倍。

–建立個人工作空間

開始編程的第一步,一個方便易用的代碼編輯器必不可少。你可以先在VIMTextMateSublime Text,或者像RstudioSpyder這樣設計較完善的集成開發系統上初試身手。還可以考慮安裝Git或其他版本控制系統(versioning control system)來管理你的源代碼。

–獲取數據

數據是展開任何工作的基礎,因此你必須知道從哪些渠道獲取數據。

第一種渠道是通過記者的人際網絡。

信源對於收集數據至關重要,因為通常記者會更容易發現故事而非數據。有了故事,就意味着有了尋找數據的方向。

其次是通過公開數據平台。undata

較為突出的一些資源包括聯合國世界銀行的數據網站。

另外,推薦數據門戶(Data Portals)和數據中心(Data Hub),這兩者共收錄了11,000多個全球公開數據庫。

政府數據方面有美國政府公開數據英國政府公開數據網站。

《衛報》的數據博客也尤其值得入門數據記者參考。

想更多了解如何利用公開數據,公開數據研究院課程(Open Data Institute Courses)和歐洲數據門戶(European Data Portal)的e-learning上有很多不錯的項目。

獲取數據庫,還可以通過郵件訂閱,如美國調查記者編輯協會的NICAR數據庫。

掌握SQL對進行數據庫檢索大有幫助。去學習使用MySQL, PostgreSQL或者SQL Server吧。TutorialsPoint上有詳細教程。

除了現有的數據庫,記者還可以抓取網頁信息,以獲得數據。這時就需要用到Python和R技能了。

最後一招,別忘了還可利用FOI(Freedom of Information“信息自由”)請求權,來獲取政府公共部門與機構的相關記錄。

–將得到的數據儲存到個人空間

import儲存數據,最基本的就是使用Excel。進階級別的,可以使用編程語言,把數據上傳並保存成.csv、.txt或其他格式的文件。Python和R的兩款爬蟲:scrapyrvest,還有import.io,都用於從網頁上抓取數據。如果要抓取PDF文件上的數據,Tabula是所需工具。

–數據處理

數據處理的意思是以更好地分析為目的,對數據做適當的改動、清理和重構。Python的numpypandas程序包,R的dplyrc  和didyr程序包都是數據處理的神器。在清理結構冗雜的數據集方面,OpenRefine可謂功能強大而又易於上手。也推薦DataWranglerCSVKit

–數據分析

R和Python的statsmodelsstatmod可以建模。另外,DataRobotKnimeRapidMiner這三個在線平台也能幫你發掘數據的聯繫,建立相關模型以便分析。

–數據可視化

信息呈現,是敘事的重要一環,一些數據可視化技能必不可少。不太會編程也能“玩”起來的的可視化工具有TableauOlikviewTileMillinfogr.am、 Google Fusion、QGIS, ArcGIS等。如果你是JavaScript、Python或R語言大牛,那麼使用D3.jsplotlymatplotlib 或者ggplot製圖對你來說就不在話下了。

–記錄你的發現

Tableau或者Qlikview都可以創建儀錶盤。信息圖表方面,Adobe Illustrator、Adobe Indesign或者Adobe Photoshop都是常用製圖工具。對於Python和R使用者,你可以把代碼和可視化存於“筆記本”,如JupyterR Markdown文檔。

 

6.開始建立個人網絡

想成為一名數據記者,建立個人網絡有助於找故事靈感和各種指導。

以下是數據新聞界“大咖”的推特名單,值得關註:

datascientist

點擊圖片可查看原文,獲取大咖推特鏈接

此外,你還可以加入Reddit群組或者LinkedIn,以便跟進最新的數據新聞。推薦Reddit上的小群/r/theydidthemath和/r/datasets。

再者,可以在這個Meetup網頁上留意你所在地區附近的數據群組線下活動。通過Data Driven JournalismEuropean Journalism Center,你也可以了解你所在地區的一些數據比賽或大會。

meetupKnight-Mozilla Open News在線社群聚集了不少創新新聞開發者、設計師和數據記者,同樣推薦。

 
7.堅持學習

–關注一些有趣的數據網站

政治和新聞博客類:FiveThirtyEight,《紐約時報》的The UpshotProPublica Nerd Blog

blog數據可視化:EagereyesFlowingData

數據記者和專家的個人網站:Maarten LambrechtsAlberto Lucas LopezJohn Burn-Murdoch等。

–聽聽相關播客

這個名叫Data Stories 的播客網站專門講數據可視化;ProPublica總編Scott Klein曾分享過他們團隊如何做數據新聞;Partially DerivativeFiveThirtyEight的播客都不錯。

閱讀相關書籍

數據新聞相關書籍有很多,在此推薦兩本:

Getting Started with Data Journalism,作者 Claire Miller

Numbers in the Newsroom: Using Math and Statistics in News,作者Sarah Cohen

–其他學習資料

美國明尼蘇達大學數據新聞教授MaryJo Webster的教學材料整理;

R,Python在線教程

–動手嘗試

drivendata先開始獨立做一些小項目:找一些數據,嘗試分析,製作可視化,並寫下你的發現。在KaggleDrivenData這兩個網站上,除了能找到許多學習資源,還可以發掘有意思的數據項目,或投稿加入數據競賽,大展身手。

下一步,嘗試建立個人博客,發表作品,展示你的能力。這還會成為你簡歷上亮眼的一筆。

 

8.去追求你夢想中的數據工作吧!

完成了上述幾個步驟,是時候考慮正式申請數據記者這份工作了。

幾個找工作的網站推薦:News Nerd JobsIndeed.comNICAR listervMediabistro Job ListingsLinkedin,還有Journajobs

 

最後的建議:

對所有數據新聞入門者的最佳建議,就是如Maarten Lambrechts所說,“開始動手做數據新聞吧!”

最後送上幾條小貼士:

不要氣餒。萬事開頭難。剛起步時必定會遇到各種各樣的問題,但千萬不要放棄。要從實踐中學習,而這需要一段過程。

從小地方起步也不要緊。有些媒體的數據團隊是很小,可是又有什麼關係呢,“小處”也有大學問。

慢慢來。要能判斷出某些項目的價值需要經驗的積累。有時你可能會花很長時間在一些數據上,到頭來卻沒有發現任何故事。同樣,建立個人網絡、熟悉整套操作流程都需要長時間的積累。

 

 

編譯/梁思然

編輯/Ivan Zhai

 


想了解更多數據新聞資源,敬請繼續關注深度網分享。

推薦閱讀:

實用信息——數據新聞

《數據新聞精選(可視化特輯)》

 

您可以根據知識共享協議條款免費轉載這篇文章

轉載


閱讀更多