Cloudflare 指出 Perplexity 的 AI 機器人正在隱秘爬行被封鎖的網站

根據 Cloudflare 的報告,人工智能搜尋創業公司 Perplexity 被指控繞過限制,以便讓其 AI 網路爬蟲訪問某些網站。報告中提到,當 Perplexity 遇到封鎖時,該公司會隱藏其爬蟲身份,以試圖繞過網站的偏好設定。這一報告引發了對 Perplexity 在未經許可的情況下收集內容的擔憂,因為該公司去年曾被發現闖過付費牆並忽視網站的 robots.txt 文件。當時,Perplexity 的首席執行官 Aravind Srinivas 將這一行為歸咎於網站使用的第三方爬蟲。

Cloudflare 作為全球最大的互聯網架構供應商之一,表示已收到客戶的投訴,這些客戶宣稱即使在其網站的 robots.txt 文件中設置了偏好,並通過創建 Web 應用防火牆(WAF)規則來限制訪問,Perplexity 的機器人仍然能夠訪問其網站。為了驗證這一點,Cloudflare 創建了新的域名,並對 Perplexity 的 AI 爬蟲設置了類似的限制。結果發現,該創業公司首先會嘗試通過自我識別為其爬蟲的名稱「PerplexityBot」或「Perplexity-User」來訪問這些網站。

然而,如果網站對 AI 爬蟲設置了限制,Cloudflare 宣稱 Perplexity 會改變其用戶代理,這是一個告訴網站訪問者所使用的瀏覽器和設備類型的資訊,或者指示訪問者是否為機器人的信息,並偽裝成「macOS 上的 Google Chrome」。Cloudflare 表示,這種「未申報的爬蟲」使用的是「輪換」的 IP 地址,而這些地址並不在其機器人使用的 IP 地址列表中。此外,Cloudflare 還聲稱 Perplexity 會改變其自治系統網路(ASN),這是一個用來識別由單一運營商控制的 IP 網路組的編號,從而繞過封鎖。Cloudflare 指出,這種活動在數萬個域名和每天數百萬個請求中都有觀察到。

Perplexity 的發言人 Jesse Dwyer 對 The Verge 表示,Cloudflare 的報告是一場「宣傳噱頭」,並補充說,「該博客文章中存在很多誤解」。隨後,Cloudflare 已將 Perplexity 列為非認證的爬蟲,並推出了阻止 Perplexity 進行「隱蔽爬行」的方法。Cloudflare 的首席執行官 Matthew Prince 對人工智能對出版商的「生存威脅」發表了激烈的看法。上個月,該公司開始允許網站要求人工智能公司支付爬取其內容的費用,並開始默認阻止 AI 爬蟲。這些步驟顯示出對於網絡內容保護的日益重視,而 Perplexity 的行為則引發了廣泛的討論,關於在不侵犯版權的情況下如何合理使用人工智能技術。


Henderson
Henderson 主要擔任「炒稿記者」的職責,以翻譯最新科技,手機 電動車等消息為每天的工作。