輔助功能設置

文字大小

色彩設置

單色 柔和色 dark

閱讀工具

底部遮蓋 標尺

文章

主題

從PDF中提取數據表

你一定有過類似經歷:試圖從PDF中提取數據表,發現command C 加 command V 只帶來一堆胡亂排列、不知所云的的數據和心中飛馳而過的千萬隻草泥馬。

來自調查報道媒體公司Kaas & Mulvad的資深調查記者Nils Mulvad在大會上推薦下列工具,用於從PDF中提取數據表。他提醒到:PDF很難搞,不要指望一個工具就能搞定所有表格,多知道幾個總沒壞處。

cometdocs

在線轉換,提供免費和收費服務。大多數時候很好用,但你最好註冊,上傳你的PDF文件,轉換後下載。免費賬戶每周限制使用5次,收費賬戶無限制,30天/10美元,花130美元就可終身使用。

 

Able2extract

7天免費試用。MacOS, Window和Linux適用,30天使用版35美元,完整版100美元。

 

PDF2XL

7天免費試用。Window適用。

 

Xpdf

Xpdf是一個開源項目,可將PDF文件轉換text文件,但之後需要再將text文件轉換為電子表格。Xpdf必須在命令行處理。

 

Tabula 

Tabula由一群記者和開發人員共同創建,是一個開源免費程序,可將PDF中的表格轉換成CSV文件。目前尚不支持多頁文件。適用於任何平台,不過目前還不太穩定。

 

上述工具用於提取數據表。另一個方法是使用OCR工具。OCR能夠“讀取”PDF,甚至還能讀取jpg, tiff和png格式的圖片。它可提取打字機或電腦打印出來的內容,並將它們轉換成機器編碼文本或計算機可讀文本。基本運行無礙,但質量不一。

維基百科創建了一個專門頁面,對比各光學字符識別軟件的優劣。

 

如果你不需要轉換大文件,這個免費的OCR工具用得還算順手.

 

ABBYY FineReader很不錯,不妨試試30天試用版——最多可轉換100頁。購買完整版要129美元。

 

其他工具

Adobe Acrobat XI

XI Reader 

你可以在這個免費閱讀器上打開並閱讀PDF文件。你不能進行修改,但可以從PDF文件里複製文本(除非它們是被掃描的)並粘貼在電子表格里。在鍵盤上按下Alt-key,可在數據區通過鼠標選中單列,並同時複製多列。

 

Adobe Acrobat XI Standard (or Pro)

完整版提供多種功能,有一個特別適合數據記者:當你在圖上選中一張表格並右擊,可直接以電子表格形式打開並存儲。通常情況下出來的成果都很接近你想要的。它還可以合併或拆分PDF文件。

 

如果你只需要拆分文件或提取其中一頁,可以使用免費工具ilovepdfPDF mergy

 

解鎖PDF的工具

對付一些加了密的PDF文件。可以下載試用版(只能解鎖兩頁),購買完整版也不貴——9美元。

 

 

 

您可以根據知識共享協議條款免費轉載這篇文章

轉載


閱讀更多

2025 全球亮光獎

2025年全球亮光獎決賽入圍名單:中小型媒體類別

來自11個國家的13個調查項目獲評選入圍2025年全球亮光獎(GSLA)決賽,在這篇文章中,我們和你分享6個入圍決賽(中小型媒體類別)的作品,它們分別聚焦於移民、野生動物販運、貪污、濫用刑事司法系統等新聞議題。

2025 全球亮光獎

2025年全球亮光獎決賽入圍名單:大型媒體類別

來自11個國家的13個調查項目獲評選入圍2025年全球亮光獎(GSLA)決賽,在這篇文章中,我們和你分享7個入圍決賽(大型媒體類別)的作品。它們分別就移民、有組織犯罪、戰區侵犯人權行為等主題進行了有力的調查。