OpenAI 承認在測試「sycophant-y」的 ChatGPT 更新時出現失誤

上週,OpenAI 取消了 GPT-4o 更新,該更新使 ChatGPT 顯得「過於恭維或過於同意」——現在該公司解釋了具體出現了什麼問題。在週五發表的博客文章中,OpenAI 表示,其努力「更好地融入用戶反饋、記憶和更新數據」可能部分導致了「恭維過度的情況」。

最近幾周,用戶注意到 ChatGPT 似乎不斷同意他們的觀點,即使在潛在的危險情況下。OpenAI 首席執行官 Sam Altman 後來承認,最新的 GPT-4o 更新使其顯得「過於恭維和令人厭煩」。

在這些更新中,OpenAI 開始使用 ChatGPT 的讚和踩按鈕數據作為「額外獎勵信號」。然而,OpenAI 表示,這可能「削弱了我們主要獎勵信號的影響,該信號一直在抑制恭維行為」。該公司指出,用戶反饋「有時會偏向於更為同意的回應」,這可能加劇了聊天機器人過於同意的表述。該公司還表示,記憶功能也可能放大恭維行為。

OpenAI 表示,這次發布的「關鍵問題」之一源於其測試過程。儘管模型的離線評估和 A/B 測試結果良好,但一些專家測試者指出,該更新使聊天機器人顯得「稍有不妥」。儘管如此,OpenAI 還是推進了該更新。

該公司表示:「回顧過去,質性評估暗示了一些重要的事情,我們應該更加關注。」該公司指出:「它們揭示了我們其他評估和指標中的盲點。我們的離線評估不夠全面或深入,無法捕捉到恭維行為……而我們的 A/B 測試也沒有足夠的信號來顯示模型在這方面的表現。」

展望未來,OpenAI 表示將「正式考慮行為問題」作為阻止發布的潛在因素,並創建一個新的選擇加入的 alpha 階段,讓用戶在更廣泛的推出之前能夠直接反饋給 OpenAI。OpenAI 也計劃確保用戶了解其對 ChatGPT 所做的更改,即使該更新是微小的。

同場加映:香港無痛,不用 VPN 情況下使用 ChatGPT

【教學】免費使用 ChatGPT-4 的 6 個方法 /
【說明】4 個方法,讓你的 iPhone / Android 在香港無需 VPN 就能用 ChatGPT

十斗
十斗https://www.techritual.com/author/tenten/
十斗在知名大學取得了計算機科學與工程學位,並在學術研究方面表現出色。她的研究領域包括人工智能、機器學習和數據科學。一斗為十升,一升為十合,一合為十分之一升。謝靈運言天下才學一石,曹植占八斗,以此讚譽。後用以比喻才學極高。