在网页404之前,BBC专家告诉你如何保存网上信息
在信息时代,网页内容常遭删改。无论追踪线索还是查阅资料,保存网上信息已成为必备技能。BBC互联网研究专家Paul Myers告诉我们网上信息的存储妙招和好用工具,大家还可参考《邮件+网页+硬件:新闻记者信息保护技巧分享》和《BBC搜索专家:十款强力“人肉”搜索工具》。
为何要保存网上信息?
信息修改
网上的内容常会被删改,说不定马上404。网站人员一点鼠标就能删除争议的内容,社交媒体上的帖子也会被删和改动。如果没保存,后面就用不了。对新闻报道来说,说清楚内容在不同时间上的变化也很有帮助。例如,记者可以记录某人推特账户粉丝增加或减少的数量。
查阅权限变动
无论是微信、微博还是脸书、推特,帖子都可以编辑分组、设成私密,起初公开发布的照片和文本也可标记成“仅供朋友查看”。趁着帖子还公开,得抓紧保存。
法律原因
如果你要根据某人网上的文章或照片提出指责, 而网上内容又被对方删除的话,你将失去文本证据。备份可让你在有需要时发给律师团队,这样邮件上会有发邮日期的纪录。
那么如何才能保存网上信息呢?以下是专家的建议,从基础讲起:
复制黏贴
这是人人都会的基础技能。做法:选中文本,按住Control+c(Mac用户按Command+c),打开一个文档或相关应用,然后按Control+v (Mac用户按Command+v)就可黏贴,或选中——右键——“另存为”。
常见问题是:复制黏贴下来的文本还是套用原格式。若想调整,专家使用的PureText和其他类似软件都能帮你搞定。
保存网页图片
网络图片是独立于其所在网页的,它们有自己的链接和文件名,通常是JPEG, PNG 或GIF三种格式之一。最傻瓜的办法就是右键——“保存图片”。
小贴士:尽量在电脑上存储尺寸最大的图片版本,以便日后可能需要聚焦图片上的一小部分。
存了图片,但还想知道是在哪里拍摄、用什么参数?Jeffrey’s Exif & Metadata Viewer可以帮我们依据关键线索锁定时间地点。只需黏贴图片地址或上传图片,图片基本信息(大小、像素等),包括拍摄地点和时间、具体参数(快门、光圈、镜头型号等等)都能查出。最神的是,你还能知道Google Map图像和当时的定位,放大缩小随你看。同类型的平台还有Gbimg.org,不妨对比一试。这对记者查找线索非常有用。
截图
你可以直接将屏幕上可见的内容截图保存,会用几个键盘键即可:在Mac上,按住Command+Control+Shift+3;如果是PC,按住Print Screen(截图)按钮(通常标注为“Prt Scr”)。截活动窗口,就同时按下 “Alt Gr”和“Prt Scr”。
现在你计算机剪贴板里已经有了截图备份,按住Control+v就可以黏贴到邮件、Word文档或图片编辑系统里。
用截图快捷键的一大缺点是只能截可见区域,而在有些时候,当要截的区域多于一屏的时候,我们就不得不一边下拉、一边截图,结果是要截好几幅。这个问题的答案之一是用截图软件。
你可以在浏览器添加插件,在Chrome网上商店或火狐浏览器的插件页面里都能找到。很多软件现在都免费了,方便浏览器安装。
如果你要截多个图片,不妨试试Techsmith出品的软件 Snagit,可以截网页不同区域,还可加注释,甚至能截视频。要想演示网站操作、保存流式内容、视频和动画,你绝对用得上它。只要选中想录制的区域,再设定期望的时间长短即可,轻松易得。软件目前只能存mp4格式,存其他格式得用转格式软件。
另一个好用工具是Chrome插件Fuskr。安装,右键点击图片,可找到图片链接隐藏的众多类似图片。Fuskr支持下载,能排除受损照片,以及重新调整图片大小以适应网页等功能,非常实用。
截图的一个缺点是你只能保存数码图像,无法点击链接访问相关网页,也不能选择文本或剔除照片。你存的就是看到的图像。解决办法之一是保存网页,把完好无损的网页码代和图像存到硬盘里。
保存网页
在大部分浏览器里,你可以直接按住Control+s保存网页,会有选项框弹出让你设置文件名和保存位置。
你也可以存储网站基本版本,没有图片、仅含部分功能,选择“网页,仅HTML”即可。但是大部分人都存成了“网页,全部”的版本。这一选项会将图片和一些内嵌技术文件存到一个单独文件夹,可供日后浏览并继续使用大部分在线功能。
虽然这种保存方法也有缺点——没法存网页视频或搜索内容,但就大多数情况来说,这样保存网站证据也够用了。
如果你已经存了网页,记得找到路径、打开文件看看。如果文件看起来不太对,就要试用另一个浏览器存储。IE浏览器通常会把网页存成.mht格式文件——像Word文档,但在IE上浏览就和网页一样。当然,你也可以存成PDF格式。
小贴士:别光存储你感兴趣的网页,还要把与它有关的链接一并存下来。同时考虑一下要不要保存域名注册信息和关联的社交媒体页面。
要存网站的域名信息,首先得查好域名。此前Myers曾推荐过域名搜索工具Domaintools和Whatismyip.com,能马上检索目标IP所处的国家、城市、城区、邮政编码、网络提供商、时区和经纬度等信息,定位也相当准确。详情可查看《BBC搜索专家:十款强力“人肉”搜索工具》。
除了以上保存网页方法,专家还推荐好用软件Black Widow,让你不懂编程也能抓取信息。该软件能抓取网站上的信息,下载Youtube视频、PDF、PHP、CGI和其他格式的文件,在加密保护网页上也适用。
从移动端设备和app保存信息
在大部分移动端设备和app上存储信息都不太容易。iPhone没法让你从屏幕截取视频,Instagram没法让你拉大、缩小或保存图片。
不过,一些app有网页版,例如,一些第三方的app和网页可以帮你从Instagram上保存信息;聊天软件Telegram有网页版可以截取信息;而对Skype来讲,最简便的方法是在电脑上用屏幕记录程序。在不同的平台上,app的设计和特点可能大不一样,所以可以试着换台手机存储信息。同时,记得社交媒体上有些内容也会涉及版权问题。
附加资源:
1. 5款保存信息的APP推荐
除了上述专家分享,还有一些方便保存网络信息的app可供大家一试:
1) Spool
Spool是一家新创业公司的产品,可让你离线查看存储文件。目前不但有网页版、Chrome和火狐浏览器的插件版,还有适合iOS和安卓系统的app、方便所有浏览器和移动端使用的书签版。同时,你还能连接Dropbox账户,保存网页和其他格式的文件。
保存页面后,用户默认可在联网状态下在网页、app查看所存页面。如果想用手机离线查看文件,打开Spool app——选择“设置”(Settings)——检查“自动下载”(Autodownload),可以设置在连到Wifi或移动网络时自动下载文件,同步的文件将会自动存在移动端。
2) Pocket
拥有1千万用户的免费应用 Pocket也是好选择,它提供邮件、移动端、网页存储,方法很简单:发网址到add@getpocket.com。Pocket的功能可用于300多种第三方app(包括推特和聚合新闻应用Flipboard等),无需离开app即可保存内容。你也可以用Chrome、Safari和火狐的Pocket插件,点选浏览器书签,或手动存储。保存后,就可以离线阅读啦。
3) Instapaper
深度君也强烈推荐Instapaper,它能兼容150款iOS App。
只要复制网页连接,打开app,就能存储全文和部分图片,还能建文件夹区分内容。Instapaper的阅读体验也很棒,支持包括简体中文在内的13种语言文本,可调节字体、背景颜色,还支持搜索、归档,分享功能。最妙的是,存储的文章还能显示预期阅读时间。
要想了解Instapper更多设计细节?不妨看看他们团队的博客吧。
4) Readability
类似的还有设计精良的Readability,他们提供Chrome插件和适用于安卓和iOS的app。
用户需要先在官网注册,再下载使用。它的功能和Pocket、Instapper类似,可保存其他app的内容,保存网页,支持离线阅读。
相信大家已经非常熟悉这款应用。现在微信上也有印象笔记公号,保存和分享文章更加方便。最棒的是,你可以用它免费提供的存储空间和朋友、同事协作编辑、演示笔记。
先在官网注册账户,下载APP。若想离线阅读,点击“设置”(Settings)——“离线笔记本”(Offline notebook)——选择任何需要离线使用的文件夹或文本。
2. 网站404救星:archive.org
要是网站真的404了怎么办?你还可以去archive.org碰碰运气。不过这招只有在你知道网站URL的情况下才管用。问题是网站失踪了,URL链接也就找不着了。这时想找回看似消失的URL,该怎么办呢?
我们有办法!假设要找已逝女演员Lana Clarkson的个人主页。
第一步:找到索引网页
找一个跟消失网页相关的消息源。这里我们就用她的维基百科页。
第二步:把索引网页放到“时光机”里去
登陆archive.org,输入维基百科页的URL: http://en.wikipedia.org/wiki/Lana_Clarkson
选中最老的版本:2004年3月10日。这个版本显示的个人主页地址为:http://www.lanaclarkson.com
第三步:找到原始网页
再把这个链接输入archive.org,加一个反斜线和一个星号,如下所示:
URL: https://web.archive.org/web/*/http://www.lanaclarkson.com/*
咻,现在所有的链接都蹦出来啦。但在这个例子里,你找不到很多她的信息。因为Clarkson在死后才出名。她于2003年2月被著名音乐制作人Phil Spector枪杀。现在方法到手了,快找一些头疼不已的例子试试吧。
Paul Myers是BBC的互联网研究专家,同时运营网站“互联网搜索诊所”(The Research Clinic),致力于引导记者们找到最好的网络搜索平台、应用和其他资源。他在BBC学院(BBC Academy)负责的培训课程包括网上调查、数据新闻、社交媒体、统计学以及网页设计。Myers还曾培训过《卫报》、《每日电讯报》、《泰晤士报》、CNN、世界银行及联合国开发计划署的工作人员。
主文How to Save Online Evidence, Part One&Part Two首发于BBC学院,全球深度报道网经授权编译转载。
参考文章:1. 5 Best Read-It-Later Apps, Mashable
2. 5 Ways to Read Your Favorite Website Offline, Hongkiat
3. 《BBC搜索专家:十款强力“人肉”搜索工具》,全球深度报道网
4. 《实用贴:如何用网络搜索搞定新闻要素?》,全球深度报道网编译/周炜乐
编辑/Ivan Zhai