Reddit 正在對 Perplexity 及三家「數據抓取服務提供商」提起訴訟,目的是「阻止一群不法分子以工業規模非法繞過數據保護措施,這些人不擇手段地想要獲取 Reddit 上有價值的版權內容」,根據訴狀所述。該公司將這些數據抓取公司——SerpApi、Oxylabs 和 AWMProxy——比喻為「潛在的銀行搶劫犯」,因為他們「明知無法進入銀行保險庫,因此選擇闖入運送現金的盔甲卡車」。
Reddit 指控 Perplexity 是「至少一家」數據抓取公司的客戶,表示 Perplexity「顯然會不擇手段地獲取 Reddit 數據,以推動其『回答引擎』,即除了與 Reddit 直接簽訂協議外,什麼都願意做,這是一些競爭對手所採取的做法」。根據訴訟,Reddit 在 2024 年 5 月向 Perplexity 發送了停止函,「要求其停止抓取 Reddit 數據」。儘管 Perplexity 當時告訴 Reddit,他們未使用 Reddit 的內容來訓練 AI 模型,並表示會尊重 Reddit 的 robots.txt,但在收到該函後,Perplexity 上對 Reddit 的引用量實際上增加了。Reddit 還創建了一個只能被 Google 爬取的帖子,而「幾小時內」,Perplexity 就「產出了該帖子的內容」,該公司表示。
Reddit 寫道:「Perplexity 唯一能獲得該 Reddit 內容並將其用於其『回答引擎』的方法,就是它和/或其共同被告從 Google 搜索結果中抓取該 Reddit 內容,然後 Perplexity 迅速將該數據整合進其回答引擎中。」Reddit 的數據——由人類撰寫並排名的各類主題帖子——對於訓練 AI 模型非常有幫助,該公司也深知這一點;引發 2023 年抗議的 API 變更被視為該公司為其數據獲得補償的方式。Reddit 已與包括 OpenAI 和 Google 在內的 AI 公司達成協議,並據報導希望獲得更好的交易。此外,Reddit 之前也曾對 Anthropic 提起法律行動,指控其機器人即使在 Anthropic 表示不會這樣做的情況下仍然訪問了 Reddit 平台。
Reddit 的首席法律官 Ben Lee 在一份聲明中表示:「AI 公司正陷入對高質量人類內容的軍備競賽——這種壓力促成了一個工業規模的『數據洗錢』經濟。」他指出,抓取者繞過技術保護措施來竊取數據,然後將其出售給渴望培訓材料的客戶。




