根據 WIRED 發佈的消息,目前美國已有不少網站開始屏蔽互聯網檔案館(Wayback Machine)的快照功能,即不再允許網站時光機擷取這些新聞網站的頁面並將其存檔。原來這些主要是 AI 爬蟲用來擷取數據訓練模型。現時人工智能熱潮已令大量網站的流量出現大幅下滑,而 AI 公司則設法繞過限制非法擷取網站內容,最終將擷取到的數據用於 AI 對話機械人或訓練後續的人工智能模型。
對於網站來說,這種行為屬於未經許可的擷取和使用內容,同時會導致網站流量下滑,因此不少網站已在 robots.txt 明確禁止來自人工智能的搜尋爬蟲擷取網站數據。
新聞媒體與用戶均受誤擊
基於保護自身合法權益和利益,包括今日美國、紐約時報等多家知名新聞媒體已開始屏蔽互聯網檔案館的網站時光機,這些新聞網站將 ia_archiverbot 爬蟲排除在外,這是互聯網檔案館使用的爬蟲。除了新聞媒體外,像 Reddit 這類網絡論壇亦同樣禁止互聯網檔案館擷取內容,Reddit 已與 Google 和 OpenAI 等簽署授權協議,允許這些公司擷取數據並用於訓練人工智能模型,至少對 Reddit 來說,如果允許互聯網檔案館擷取數據,AI 公司再擷取互聯網檔案館的數據,那就有可能導致自己無法繼
續賣數據。 問題在於很多內容並非永遠存在,網站時光機的意義在於可以查看網頁內容的變化,以及在網頁被刪除時繼續透過快照瀏覽內容,這對不少用戶來說非常重要。因此在 AI 熱潮下,新聞媒體屏蔽互聯網檔案館擷取數據實則也是對互聯網檔案館和用戶的誤擊:為了屏蔽 AI 公司進而屏蔽正常使用相關功能的用戶。 今日美國公司發言人表示,屏蔽互聯網檔案館擷取內容亦並非專門針對互聯網檔案館,這是該公司廣泛屏蔽所有網絡爬蟲的正常計劃。
檔案業服務和授權總監則表示,該公司正與互聯網檔案館溝通,就人工智能公司能否用於保存在目的而擷取內容問題進行討論(但尚未有明確結果)。 從這種情況來看,未來可能會有越來越多的媒體屏蔽互聯網檔案館,避免自己的內容被 AI 公司透過互聯網檔案館擷取,究竟源頭還是這些 AI 公司。這些 AI 公司未經授權擷取內容、高頻率擷取內容等行為屢見不鮮,最終這或許會改變開放互聯網的格局,讓更多網站由公司開放訪問轉向注重登入訪問乃至付費訪問。




