輔助功能設置

文字大小

色彩設置

單色 柔和色 dark

閱讀工具

底部遮蓋 標尺

文章

主題

使用網站時光機的4個必備技巧

English

tips techniques using wayback machine

圖:Shutterstock

ProPublica 的克雷格·西爾弗曼(Craig Silverman)在這篇文章中分享了如何批量存檔網頁,比較更改以及查看頁面元素何時被存檔。

在上一期的《數字調查》(Digital Investigations,一份由西爾弗曼運營的新聞信)為如何充分利用 Wayback Machine(網站時光機) 提供了建議。在今天這篇文章中,我又帶來了更多使用 Wayback Machine 的使用技巧,這得益於我對 Wayback Machine 負責人馬克· 格雷厄姆(Mark Graham)的採訪。

他指出了我在上一篇文章中忘記提及的一些功能,以及一個我不知道的功能。我們還討論了存檔社交媒體內容的挑戰。

Wayback Machine互聯網檔案館(Internet Archive)運行,這是一個成立 27 年的非營利組織,致力於為所有知識提供普遍訪問。 “我們是一個數字圖書館,”格雷厄姆說。

他說,作為一個圖書館,Wayback Machine 所擁有的是贊助者而不是用戶。讓我們看看 Wayback Machine 中一些對於記者和研究人員最有用的功能。

1. 查看並比較更改

“更改”功能讓你可以比較同一存檔頁面的不同版本,並看到其中的差異。

“可能有一位新聞記者正在寫一篇報道,展示網頁上的內容是如何隨着時間的推移而變化的,”格雷厄姆說,“在這種情況下,他們需要了解 Wayback Machine 的‘更改’(Changes)功能,你可以比較同一 URL 在兩個不同時間點上的內容。”

“更改”功能可以從你在 Wayback Machine 中瀏覽的任何存檔頁面的頂部菜單中訪問:

wayback machine track website changes

圖:Wayback Machine 截圖


你也可以直接通過這種URL格式加載它: https://web.archive.org/web/changes/https://www.nytco.com/journalism/

將你想要進行查看的網址放在 https://web.archive.org/web/changes/  後面,它將顯示一個按年歸檔的網格頁面:

wayback machine website archive calendar

圖:Wayback Machine 截圖


每個陰影方塊都對應一個網頁快照,顏色圖例表示哪些天可能網頁內容出現了重大變化。選擇兩個截圖,然後點擊頁面頂部的“比較”(Compare)按鈕,你就會到到一個並排顯示的網頁快照。

我選擇了2023年3月初的一頁(左)和2022年1月初的一頁(右)。“比較”結果顯示,《紐約時報》關於其新聞業務的頁面更新了底部菜單選項和文本:

Wayback Machine side-by-side comparison website archive

圖:Wayback Machine 截圖


2. 使用“關於此捕獲”來驗證網頁元素

Wayback Machine 的基本功能是捕捉和儲存網頁快照,但實際它的用途更為微妙。

“網絡是混亂的,網絡在不斷變化,”格雷厄姆說。“當我說不斷變化時,指的是它也可以是動態的。”

我問他,我們如何確認網頁快照顯示的正是 Wayback Machine 中列出的日期和時間的頁面內容。簡單的答案是,是,你可以有這個信心。但歸檔頁面的元素可以從不同的歸檔材料中獲取,每個都有自己的時間戳。這就是 Wayback Machine 的微妙之處。

Wayback Machine 有一個功能,可讓您查看網頁上不同元素的時間戳。您可以通過點擊頁面網頁快照右上角的“關於此捕獲”(About this capture)按鈕來訪問它:

Wayback Machine About this capture function

Image: Screenshot

以 https://www.nytco.com/journalism/ 為例,我們得到以下結果:

Wayback Machine saved URLS

圖:Wayback Machine


儘管該頁面在2021年10月20日被存檔,但 Wayback Machine 會從較新的網頁快照中提取一些元素。上面列出的大部分網頁元素都是靜態圖像,還有幾個 JavaScript 和 CSS 文件。格雷厄姆解釋說,當你在查看一個網頁時,Wayback Machine 會從不同的圖像、JavaScript 和 CSS 文件中提取內容以生成頁面。

“當我們重現一個頁面時,我們實際上是把每個具有自己的URL和自己的存檔的頁面要求收集起來,然後把它們放在一起,”他說。“其中一個挑戰是,這些對象中的每一個可能在不同的時間和日期被存檔。”

“當我們‘回放’一個頁面時,我們實際上會將收集到的每個網頁快照和這個 URL 的實時訪問狀態放到了一起,”他說。“其中的一個挑戰是,每個靜態對象可能會在不同的時間被歸檔。”

例如,網頁頂部的主照片(“17XP-PULITZERS2-superJumbo-article.jpg”)是從我加載歸檔 8 天前抓取的。如果那張照片/文件對你的調查很重要,你可能需要檢查當時的歸檔頁面,看看它是否隨着時間的推移發生了變化,或者尋找一個更接近目標日期的快照。但只要那個文件在每個時間點都保持不變,就沒有問題。

New York Times corporate page archived

圖:《紐約時報》網站

作為一條普遍但並非絕對的規則,典型網頁的正文通常不會從另一個頁面或文件中提取。因此,它不太可能受到這種動態性的影響。但最安全的做法還是檢查“關於此捕獲”,並確保你引用的頁面捕獲中的文本、圖片或其他元素與你想要查閱的日期一致。

3. 使用 Google 表格對網址進行批量存檔

格雷厄姆提醒我,可以使用 Google 表格上傳 URL 進行批量歸檔。這個過程相當簡單。首先創建一個 Google 表格,在其中只有一列,列出你想要存檔的 URL。然後在這裡將你的 Google 賬戶連接到你的 archive.org 賬戶。

圖:互聯網檔案館


一旦完成,您將看到下圖,這個時候點擊“歸檔網址”(Archive URLs)。

圖:互聯網檔案館

現在,你可以將 Google 表格的鏈接複製粘貼到相應位置。

圖:互聯網檔案館

從你將 Google 賬戶和 archive.org 賬戶連接起來後,你所捕捉的所有網頁快照都將存儲在你的 archive.org 賬戶中,方便你查閱。

他說:“這個功能的出現是因為有一天我的妻子問我,‘馬克,我怎樣才能輕鬆地歸檔一堆 URL?’?”

格雷厄姆與互聯網檔案館的工程師們合作,讓 Wayback Machine 實現了這個功能。

4. 發送你的反饋和建議

“由於用戶的要求、提問或建議,如今的 Wayback Machine 有了許多的功能,”格雷厄姆說。“我們非常感謝這些反饋和建議。現在很多功能都是因為用戶的請求才開發的。我們非常歡迎用戶的反饋和建議。”

他鼓勵人們發送郵件到 info@archive.org 進行反饋和建議 。

“我們每天收到數百封電子郵件,我們有一個團隊專門負責查閱和回復這些郵件,”格雷厄姆說。“我個人會回復那些無法由這個團隊直接處理的郵件。”他也特別鼓勵記者們在有問題或請求時主動和他們聯繫。

額外內容:歸檔社交媒體信息

Wayback Machine 的資深用戶會知道,在上面存檔社交媒體內容的難度非常高,這和 Wayback Machine 自身的功能和限制關係不大,而是與像 Meta 這樣的公司阻止內容抓取有關。

這是格雷厄姆關於為什麼很難從社交媒體存檔內容的原因的解釋:

就像一些網站比另一些網站更難存檔一樣,特別是 Facebook 和 Instagram 帶來了挑戰。他們採取積極措施試圖阻止各種自動化腳本,包括爬取內容的腳本。例如,如果你去 Facebook 網站,那裡有一個關於網絡爬取的部分,他們談到了他們為防止網絡爬取和網絡歸檔所投入的人力資源。

我們尊重互聯網,這些不是我們的材料。作為一個圖書館,我們努力使材料普遍可用。因此,我們也在努力使得 Facebook 和 Instagram 的信息可以被存檔,而且我們認為我們完全有權存檔公開可訪問的信息。

一個令人鼓舞的消息是,格雷厄姆表示,Wayback Machine 正在“積極與幾家媒體合作”,以改善進社交媒體內容的存檔,希望這件事很快得到改善。

本文最初發表在克雷格·西爾弗曼(Craig Silverman)的新聞信《數字調查》(Digital Investigations)上,全球深度報道網獲授權翻譯轉載

附加資源

識別虛假信息,事實核查專家 Craig Silverman 會用到哪些工具?

5個讓記者更輕鬆的搜索工具

如何使用“網站時光機”進行在線調查?


Craig Silverman是ProPublica的記者,負責報道投票、平台、虛假信息和在線操縱。他曾是BuzzFeed News的媒體編輯,在那裡他率先報道了數字虛假信息。

您可以根據知識共享協議條款免費轉載這篇文章

轉載


閱讀更多

GIJN 十問 深度報道技巧

面對專制與民族主義升溫的印度,調查記者可以做什麼?

我們推出了一個新的系列訪談,將向世界各地在艱難環境中工作的調查記者提出十個問題。在第一篇訪談中,我們訪問了印度深度調查媒體《大篷車》的執行編輯何塞,請他分享了在印度做調查報道的挑戰、喜歡的工具/數據庫和自己曾犯過的錯誤。

深度報道技巧

跨境調查遠洋漁業,《Ocean Inc.》是如何做到的?

“環境報道聯盟”的跨境調查《海洋有限公司》獲得了2022年SOPA卓越環境報道獎,這組報道由14間新聞機構和來自13個國家的記者合作進行。他們是如何協調來自不同文化和背景的記者?又有什麼調查經驗值得借鑒?全球深度報道網採訪了參與項目的記者和編輯。

深度報道技巧

一個 TikTok,兩重世界:他們如何調查俄烏衝突中的“社媒摺疊”?

在俄烏衝突中,身處不同國家的用戶在 TikTok 中看到的是完全不同的世界:當俄羅斯的用戶看到的是貓狗視頻時,烏克蘭用戶看到的則是戰爭的硝煙。社交媒體算法會在多大程度左右人們的認知?為了回答這個問題,這個挪威新聞團隊對俄烏衝突中的 TikTok 展開了調查。

深度報道技巧

《紐約時報》團隊如何調查戰爭中的平民傷亡?

今年普利策獎國際報道獎得主是《紐約時報》關於美軍空襲造成敘利亞平民傷亡的報道,在這篇文章中,這組報道的參與者分享了他們是如何想到這個選題,以及如何利用開源工具、數據庫和公開信息申索而最終完成了這篇重磅調查的。