你一定有过类似经历:试图从PDF中提取数据表,发现command C 加 command V 只带来一堆胡乱排列、不知所云的的数据和心中飞驰而过的千万只草泥马。
来自调查报道媒体公司Kaas & Mulvad的资深调查记者Nils Mulvad在大会上推荐下列工具,用于从PDF中提取数据表。他提醒到:PDF很难搞,不要指望一个工具就能搞定所有表格,多知道几个总没坏处。
在线转换,提供免费和收费服务。大多数时候很好用,但你最好注册,上传你的PDF文件,转换后下载。免费账户每周限制使用5次,收费账户无限制,30天/10美元,花130美元就可终身使用。
7天免费试用。MacOS, Window和Linux适用,30天使用版35美元,完整版100美元。
7天免费试用。Window适用。
Xpdf是一个开源项目,可将PDF文件转换text文件,但之后需要再将text文件转换为电子表格。Xpdf必须在命令行处理。
Tabula由一群记者和开发人员共同创建,是一个开源免费程序,可将PDF中的表格转换成CSV文件。目前尚不支持多页文件。适用于任何平台,不过目前还不太稳定。
上述工具用于提取数据表。另一个方法是使用OCR工具。OCR能够“读取”PDF,甚至还能读取jpg, tiff和png格式的图片。它可提取打字机或电脑打印出来的内容,并将它们转换成机器编码文本或计算机可读文本。基本运行无碍,但质量不一。
维基百科创建了一个专门页面,对比各光学字符识别软件的优劣。
如果你不需要转换大文件,这个免费的OCR工具用得还算顺手.
ABBYY FineReader很不错,不妨试试30天试用版——最多可转换100页。购买完整版要129美元。
其他工具
Adobe Acrobat XI
你可以在这个免费阅读器上打开并阅读PDF文件。你不能进行修改,但可以从PDF文件里复制文本(除非它们是被扫描的)并粘贴在电子表格里。在键盘上按下Alt-key,可在数据区通过鼠标选中单列,并同时复制多列。
Adobe Acrobat XI Standard (or Pro)
完整版提供多种功能,有一个特别适合数据记者:当你在图上选中一张表格并右击,可直接以电子表格形式打开并存储。通常情况下出来的成果都很接近你想要的。它还可以合并或拆分PDF文件。
如果你只需要拆分文件或提取其中一页,可以使用免费工具ilovepdf或PDF mergy
解锁PDF的工具
对付一些加了密的PDF文件。可以下载试用版(只能解锁两页),购买完整版也不贵——9美元。