Reddit 控告 Perplexity 涉嫌盜用內容供 AI 使用

Reddit 正在對 Perplexity 及三家「數據抓取服務提供商」提起訴訟，目的是「阻止一群不法分子以工業規模非法繞過數據保護措施，這些人不擇手段地想要獲取 Reddit 上有價值的版權內容」，根據訴狀所述。該公司將這些數據抓取公司——SerpApi、Oxylabs 和 AWMProxy——比喻為「潛在的銀行搶劫犯」，因為他們「明知無法進入銀行保險庫，因此選擇闖入運送現金的盔甲卡車」。

Reddit 指控 Perplexity 是「至少一家」數據抓取公司的客戶，表示 Perplexity「顯然會不擇手段地獲取 Reddit 數據，以推動其『回答引擎』，即除了與 Reddit 直接簽訂協議外，什麼都願意做，這是一些競爭對手所採取的做法」。根據訴訟，Reddit 在 2024 年 5 月向 Perplexity 發送了停止函，「要求其停止抓取 Reddit 數據」。儘管 Perplexity 當時告訴 Reddit，他們未使用 Reddit 的內容來訓練 AI 模型，並表示會尊重 Reddit 的 robots.txt，但在收到該函後，Perplexity 上對 Reddit 的引用量實際上增加了。Reddit 還創建了一個只能被 Google 爬取的帖子，而「幾小時內」，Perplexity 就「產出了該帖子的內容」，該公司表示。

Reddit 寫道：「Perplexity 唯一能獲得該 Reddit 內容並將其用於其『回答引擎』的方法，就是它和/或其共同被告從 Google 搜索結果中抓取該 Reddit 內容，然後 Perplexity 迅速將該數據整合進其回答引擎中。」Reddit 的數據——由人類撰寫並排名的各類主題帖子——對於訓練 AI 模型非常有幫助，該公司也深知這一點；引發 2023 年抗議的 API 變更被視為該公司為其數據獲得補償的方式。Reddit 已與包括 OpenAI 和 Google 在內的 AI 公司達成協議，並據報導希望獲得更好的交易。此外，Reddit 之前也曾對 Anthropic 提起法律行動，指控其機器人即使在 Anthropic 表示不會這樣做的情況下仍然訪問了 Reddit 平台。

Reddit 的首席法律官 Ben Lee 在一份聲明中表示：「AI 公司正陷入對高質量人類內容的軍備競賽——這種壓力促成了一個工業規模的『數據洗錢』經濟。」他指出，抓取者繞過技術保護措施來竊取數據，然後將其出售給渴望培訓材料的客戶。

想睇更深入嘅 AI 模型與工程科技報道？

前往 The Base Principle 繁體中文 AI 新聞 →

Reddit 控告 Perplexity 涉嫌盜用內容供 AI 使用

Henderson

搜尋文章

相關文章

Henderson

搜尋文章