一項新研究支持了對 OpenAI 在其某些 AI 模型上使用版權內容進行訓練的指控。
OpenAI 正面臨來自作家、程序員及其他權利擁有者的訴訟,這些原告指控該公司在未經許可的情況下使用他們的作品,包括書籍和程式碼庫,來開發其模型。OpenAI 長期主張其行為符合合理使用的防禦,但原告辯稱,美國版權法並未為訓練數據提供例外。
這項研究由華盛頓大學、哥本哈根大學和斯坦福大學的研究人員共同撰寫,提出了一種新方法來識別由 API 背後的模型(如 OpenAI 的模型)所「記憶」的訓練數據。
模型作為預測引擎,經過大量數據的訓練後學會模式,因此能夠生成文章、照片等。大多數輸出並不是訓練數據的逐字拷貝,但由於模型的學習方式,某些輸出不可避免地會與訓練數據相似。影像模型已被發現會重複其訓練過的電影截圖,而語言模型則被觀察到有效地抄襲新聞文章。
該研究的方法依賴於共同作者所稱的「高意外性」詞彙,即在更大作品體系中顯得不尋常的詞彙。例如,在句子「Jack 和我靜靜地坐著,雷達發出嗡嗡聲」中,「雷達」這個詞被認為是高意外性,因為它在統計上比「引擎」或「收音機」更不可能出現在「嗡嗡聲」之前。
共同作者對多個 OpenAI 模型進行了檢測,包括 GPT-4 和 GPT-3.5,通過移除小說書籍和《紐約時報》文章中的高意外性詞彙,讓模型嘗試「猜測」被遮蔽的詞彙。如果模型能正確猜測,則可能表明它們在訓練過程中記憶了該片段。
根據測試結果,GPT-4 顯示出記憶了部分流行小說書籍的跡象,包括一個名為 BookMIA 的數據集中的版權電子書樣本。結果還表明,該模型記憶了《紐約時報》文章的部分內容,但比例相對較低。
華盛頓大學的博士生 Abhilasha Ravichander 及該研究的共同作者表示,這些發現揭示了模型可能訓練所用的「有爭議數據」。
Ravichander 認為:「為了擁有值得信賴的大型語言模型,我們需要能夠科學地探查和審計這些模型。我們的工作旨在提供一個工具來探查大型語言模型,但整個生態系統中對數據透明度的需求是真實存在的。」
OpenAI 長期以來主張對使用版權數據開發模型的限制應更為寬鬆。儘管該公司已經有某些內容授權協議,並提供選擇退出機制,讓版權擁有者標記希望公司不使用的內容,但它仍在多個政府中遊說,以確立有關 AI 訓練方法的「合理使用」規則。
【教學】免費使用 ChatGPT-4 的 6 個方法 /
【說明】4 個方法,讓你的 iPhone / Android 在香港無需 VPN 就能用 ChatGPT