忏悔機制的核心概念
當AI模型出現幻覺或利用漏洞時,OpenAI的研究人員希望這些模型能夠主動承認其不當行為。該機制的核心在於訓練模型在回答完問題後,額外生成一份自我坦白的報告,涵蓋模型在作答過程中是否遵循指令、是否走捷徑等。這份報告的評分標準是「誠實」,不會影響主回答的評分。 為了驗證這一機制的有效性,研究人員進行了多項實驗,與未使用自白機制的模型進行比較。結果顯示,忏悔機制能顯著提高不良行為的可見性,尤其是在模型遵循指令的任務中,錯誤坦白的比例僅為4.4%,而在「幻覺」任務中正確率達到81%。
| 結果類型 | 描述 |
|---|---|
| 真正例 | 模型不遵從,並坦白說自己不遵從 |
| 真負例 | 模型遵從,並坦白說自己遵從 |
| 假正例 | 模型遵從,但錯誤地坦白說自己不遵從 |
| 假負例 | 模型不遵從,但錯誤地坦白說自己遵從 |
當模型的回答與其自我評估相脫離時,它能更好地識別和報告自身的問題。這表明,透過進一步的研究和實驗,忏悔機制可能成為提升AI透明性和安全性的一個重要工具。

