OpenAI 承認在測試「sycophant-y」的 ChatGPT 更新時出現失誤

上週，OpenAI 取消了 GPT-4o 更新，該更新使 ChatGPT 顯得「過於恭維或過於同意」——現在該公司解釋了具體出現了什麼問題。在週五發表的博客文章中，OpenAI 表示，其努力「更好地融入用戶反饋、記憶和更新數據」可能部分導致了「恭維過度的情況」。

最近幾周，用戶注意到 ChatGPT 似乎不斷同意他們的觀點，即使在潛在的危險情況下。OpenAI 首席執行官 Sam Altman 後來承認，最新的 GPT-4o 更新使其顯得「過於恭維和令人厭煩」。

在這些更新中，OpenAI 開始使用 ChatGPT 的讚和踩按鈕數據作為「額外獎勵信號」。然而，OpenAI 表示，這可能「削弱了我們主要獎勵信號的影響，該信號一直在抑制恭維行為」。該公司指出，用戶反饋「有時會偏向於更為同意的回應」，這可能加劇了聊天機器人過於同意的表述。該公司還表示，記憶功能也可能放大恭維行為。

OpenAI 表示，這次發布的「關鍵問題」之一源於其測試過程。儘管模型的離線評估和 A/B 測試結果良好，但一些專家測試者指出，該更新使聊天機器人顯得「稍有不妥」。儘管如此，OpenAI 還是推進了該更新。

該公司表示：「回顧過去，質性評估暗示了一些重要的事情，我們應該更加關注。」該公司指出：「它們揭示了我們其他評估和指標中的盲點。我們的離線評估不夠全面或深入，無法捕捉到恭維行為……而我們的 A/B 測試也沒有足夠的信號來顯示模型在這方面的表現。」

展望未來，OpenAI 表示將「正式考慮行為問題」作為阻止發布的潛在因素，並創建一個新的選擇加入的 alpha 階段，讓用戶在更廣泛的推出之前能夠直接反饋給 OpenAI。OpenAI 也計劃確保用戶了解其對 ChatGPT 所做的更改，即使該更新是微小的。

同場加映：香港無痛，不用 VPN 情況下使用 ChatGPT

【教學】免費使用 ChatGPT-4 的 6 個方法 /
【說明】4 個方法，讓你的 iPhone / Android 在香港無需 VPN 就能用 ChatGPT

OpenAI 承認在測試「sycophant-y」的 ChatGPT 更新時出現失誤

同場加映：香港無痛，不用 VPN 情況下使用 ChatGPT

十斗

搜尋文章