

互聯網檔案館(The Internet Archive)是一個非營利的在線圖書館,它已成立了25周年,使命是“普及所有知識”(universal access to all knowledge)。它最出名的服務是“網站時光機”(Wayback Machine),它每天收到的請求數(包括查閱請求和存檔請求)超過了10億次,我目前也在管理着這項服務。
記者、研究人員、事實核查人員和公眾每天都可以通過多種方式訪問免費使用“網站時光機”。網上已經有不少文章介紹了這項服務,事實上,在 GIJN 的2020年年度調查工具盤點中,不少記者都將“網站時光機”列為他們最喜歡的工具之一。
以下我就簡單介紹一下如何使用“網站時光機”進行調查。
將網址存檔
如果你發布的文章引用了另一篇文章,而那篇文章被作者刪除了或因為網站本身的問題導致無法訪問,你又沒有對這篇文章進行存檔的話,它可能就再也找不到了——可千萬不要讓這種事發生在你的身上。
每天都有許多用戶通過“網站時光機”的“保存頁面”服務存檔上億個網址。任何人都可以提交想要保存的網址,如果你註冊了免費賬戶,還可以要求抓取相關頁面中的“外部鏈接”(outlinks),並通過電子郵件接收抓取情況的報告。另一個有用的功能是,你可以將抓取的 URL 下載到 WACZ 文件中,然後用自己的工具進行檢視/處理。
這裡有個小技巧:如果你想批量保存網址,可以將這些網址都放在 Google 表格的 A 列,然後通過這裡提交這份 Google 表格,之後這份表格的 B 列、C 列和 D 列將會自動被填上存檔狀態、存檔後的地址還有這個網址之前是否已經被存檔過。
還有一個存檔網頁的方法,是將相關網址發送郵件到 spn@archive.org,如果你在郵件主題中寫上“capture outlinks”,那麼這個網址的外部鏈接也會被保存。同樣的,在抓取完成後,你會收到一封關於保存情況的電子郵件報告。
最後,對於精通技術的人,“網站時光機”也提供了應用程序接口(API),方便你集成到現有的軟件工作流中,或者是新開發的應用程序中。例如,總部位於舊金山的技術非營利組織米丹(Meedan)就將“網站時光機”的服務整合到了它的“檢查”服務中。米丹是一家通過開發軟件來支持新聞業的非營利組織。
比較不同存檔版本
你是否曾想比較兩個不同網頁存檔之間的差異——也許是為了看看一個公司或個人是如何改變改變網頁上的措辭的?您可以使用“網站時光機”的“查閱改動”(Change)功能來實現這一點。
要使用這項功能,只要在“網頁時光機”的搜索框中輸入任何已存檔的網址,然後選擇“查閱改動”就可以看到不同日期和時間的存檔版本列表,我們會用不同的顏色等級來表示從一個存檔網址到另一個存檔的網址的變化程度。
接下來,你可以選擇任意兩個時間戳版本的網址,它們將會被並排呈現,有差異的文本會被藍色或黃色突出顯示。例如,以下案例就展示了一個英國前首相顧問多米尼克·卡明斯(Dominic Cummings)是如何試圖重寫歷史的。
更深入的檔案搜索
你可以使用“網站時光機”的 URLs 選項,通過關鍵詞和/或MIME類型來搜索任何捕獲URL的子URL。你可以輕鬆地過濾和排序結果,以找到有趣的 URL。
我們的工程師已經對特定的文件和網站集合進行了索引,並且“網站時光機”為它們提供了全文搜索接口。請查看“網站時光機”首頁底部的“集合搜索”(Collection Search)。亮點包括失落的網站,如 poetry.com,俄羅斯獨立媒體和包含749M PDFs 的集合。你還可以在互聯網檔案館首頁看到關於集合的可用服務。如果你希望我們索引特定的存檔材料集合(例如,匹配各種 URL 模式),請通過info@archive.org聯繫我們。
使用 API
除了“保存頁面”的 API(應用程序接口),“網站時光機”還有一些其他的API,例如查詢網址是否已經被存檔的 API。你可以在這裡了解更多信息。
像大多數服務一樣,“網站時光機”沒有對API的使用頻率設置正式的上限,但我們可能偶爾會採取節流措施。如果您在使用“網站時光機”時遇到任何問題,都可以發郵件或者在 Twitter 上發私信告訴我們,支持記者的工作是我們的優先事項。
了解存檔網頁的信息
我們意識到,背景和出處等信息對於更完整地理解相關網頁的信息至關重要。因此,我們已經開始為存檔網頁添加處境橫幅(context banner),以幫助用戶更好地理解相關存檔的信息。在存檔網頁已經被刪除,或是它被一個知名研究機構提及的時候,這個橫幅就會很有用。
存檔網頁的相關信息對於理解它的十分重要。例如,網頁上一些圖片是否和其他元素在同一時間被抓取?你可以通過點擊每個存檔網頁右上角的“關於此存檔”(About this capture)來了解存檔頁的相關信息。
我們一直都很重視存檔網頁的完整性以及存檔頁信息的透明度,這也增強了人們對“網站時光機”的信心——目前,世界各地的多個法院都接受“網站時光機”的信息作為證據。
瀏覽器擴展
我們有適用於 Safari、Firefox 和 Chrome 的瀏覽器擴展,以及適用於 iOS 的應用程序。我們也與搜索引擎 Brave 合作,在他們的瀏覽器中建立了 404(和其他錯誤條件)檢測功能。
除了對大部分公共網絡資源進行存檔之外,互聯網檔案館還保存了其他資料,包括通過互聯網學術檔案(Internet Archive Scholar)服務提供的2500多萬份學術論文;近3000萬本可以預覽、借閱或下載的電子書和文件;數百萬小時的電視新聞存檔,並且這些新聞的字幕已經被索引,可以進行全文檢索。
如果你想更多了解“網站時光機”,非常歡迎你在 Twitter 上@internetarchive 或@waybackmachine,以及閱讀我們的官方博客。
Mark Graham 已經管理了五年多“網站時光機”。在此之前,他是NBC的高級副總裁,負責數字新聞相關業務。Graham 還幫助運營了第一個連接美國與前蘇聯的電子郵件服務,並協助建立過一家針對女性的在線服務機構——iVillage。