Internet Archive Wayback Machine 遭 23 媒體網站封鎖網頁爬蟲

Internet Archive 的 Wayback Machine 是網絡世界最寶貴資源之一,能讓用戶存取網頁及網站的早期版本。它在保存網站下線後可能消失的資訊方面發揮關鍵作用,同時提供實用工具追蹤網頁更新的變化。然而,該組織表示,目前面臨嚴重威脅,因為多家媒體機構封鎖其網絡爬蟲存取權限——儘管這些出版商自身故事亦依賴此工具。

23 家主流新聞網站封鎖爬蟲

Wired 報導指出,23 家主流新聞網站現正封鎖 Internet Archive 用以填充 Wayback Machine 的網絡爬蟲 ia_archiverbot,其中包括 USA Today。該報早前刊登優秀報導,揭露美國移民及海關執法局(ICE)延遲披露拘留政策影響的關鍵資訊。作者利用 Internet Archive 的 Wayback Machine 彙整及分析 ICE 拘留統計,並追蹤特朗普政府時期該機構的變化。

然而,營運 USA Today 及其他逾 200 家媒體的 USA Today Co.(前稱 Gannett)卻禁止 Wayback Machine 存檔其內容。「他們能彙整故事研究,全因 Wayback Machine 存在,同時卻封鎖存取,」Wayback Machine 主管 Mark Graham 表示。人工智慧檢測初創 Originality AI 的分析亦確認此情況,連社交平台 Reddit 亦加入封鎖行列。

USA Today 回應指,為阻擋刮取機械人而採取行動,並非針對 Internet Archive。但記者界強調,Wayback Machine 是不可或缺工具,需予保護。一個聯盟收集逾 100 名現職記者簽名,包括電視名嘴 Rachel Maddow、獨立記者如 Spitfire News 的 Kat Tenbarge 及 User Mag 的 Taylor Lorenz,向 Internet Archive 提交支持信。

「以往世代,記者會求助當地報紙或公共圖書館的實體檔案,追蹤歷史報導,」信中寫道。「隨多間報紙結業,地方圖書館難以保存純數碼報導,保障新聞記錄的重任日益落在 Internet Archive 肩上。」

AI 內容聲明:本文由 AI 工具輔助撰寫初稿,經 TechRitual 編輯團隊審閱、修訂及事實查核後發佈。如有任何錯誤或需要更正,歡迎聯絡我們

Henderson
Henderson 是 TechRitual Hong Kong 科技編輯,專注報導智能手機、消費電子產品、SIM 卡及流動通訊市場。自加入 TechRitual 以來,累計撰寫數千篇科技報導及產品評測,內容同步發佈至 SINA 及 Yahoo Tech 等主要平台。部分文章由 AI 工具輔助撰寫,經編輯團隊審閱及事實查核後發佈。