紐約時報 禁止 AI 使用內容來做訓練

紐約時報已採取預防措施,禁止使用其內容來訓練人工智能模型。根據 Adweek 的報導,紐約時報於 8 月 3 日更新了其服務條款,禁止將其內容(包括文字、照片、圖像、音視頻剪輯、外觀、元數據或編輯成的內容)用於開發「任何軟件程序,包括但不限於訓練機器學習或人工智能(AI)系統」。

更新後的條款還明確指出,未經出版社書面許可,不能使用設計用於使用、訪問或收集該內容的自動化工具,如網站爬蟲。紐約時報表示,拒絕遵守這些新限制可能導致不明確的罰款或處罰。儘管對其政策引入了新規定,但該出版社似乎沒有對其 robots.txt 文件進行任何更改,該文件通知搜索引擎爬蟲可以訪問哪些 URL。

谷歌最近獲得了使用從網絡收集的公共數據來訓練其人工智能服務的許可。此舉可能是對谷歌隱私政策的最新更新的回應,該政策披露搜索巨頭可能從網絡上收集公共數據以訓練其各種人工智能服務,如 Bard 或 Cloud AI。許多支持 OpenAI 的 ChatGPT 等熱門人工智能服務的大型語言模型是通過包含侵犯版權或受保護材料的廣泛數據集進行訓練的,而這些數據集可能是未經原創者許可從網絡上抓取的。

值得一提的是,紐約時報在今年 2 月還與谷歌簽署了一項價值 1 億美元的協議 ,允許這家搜索巨頭在未來三年內在其平台上展示時報的內容。該出版社表示,兩家公司將共同合作開發內容分發、訂閱、營銷、廣告和「實驗」工具,因此紐約時報的服務條款變更可能是針對像 OpenAI 或 Microsoft 等其他公司。

OpenAI 最近宣布,網站運營商現在可以阻止其 GPTBot 網絡爬蟲對其網站進行抓取。Microsoft 也對其自身的服務條款進行了一些新限制,禁止用戶使用其人工智能產品「直接或間接地創建、訓練或改進任何其他人工智能服務」,並禁止用戶從其人工智能工具中抓取或提取數據。

本月初,包括 The Associated Press 和歐洲 Publishers’ Council 在內的多家新聞機構簽署了一封公開信,呼籲全球立法者制定規則,要求在使用數據進行訓練之前,透明公開訓練數據集並徵得權利持有者的同意。