ChatGPT 智能提升,卻出現日益嚴重的錯誤認知問題

OpenAI 最新的 AI 模型 GPT o3 和 o4-mini 的錯誤認知問題顯著增加。模型的複雜性可能導致更高的錯誤率,這引發了對 AI 在實際應用中可靠性的擔憂。根據 OpenAI 的調查,與虛構中的聰明但不可信的人物類似,AI 也可能存在相似的情況。自 AI 聊天機器人問世以來,錯誤認知、虛構事實和明顯的謊言一直是其特徵。理論上,模型的改進應該能減少這些問題的出現頻率。

OpenAI 的最新旗艦模型 GPT o3 和 o4-mini 旨在模擬人類邏輯。與主要專注於流暢文本生成的前身不同,OpenAI 將 GPT o3 和 o4-mini 設計為逐步思考。OpenAI 曾聲稱,o1 模型在化學、生物學和數學方面的表現可與博士生相媲美或超越。然而,OpenAI 的報告顯示,對於那些將 ChatGPT 回應視為真實的用戶來說,結果令人擔憂。

OpenAI 發現,GPT o3 模型在涉及公共人物的基準測試中出現錯誤認知的比例達到三分之一,這是去年 o1 模型錯誤率的兩倍。更緊湊的 o4-mini 模型表現更差,在類似任務中出現錯誤認知的比例高達 48%。在 SimpleQA 基準測試中,GPT o3 在一般知識問題上的錯誤認知比例達到 51%,而 o4-mini 則高達 79%。這不僅僅是系統中的小噪音,而是徹底的身份危機。理論上,作為推理系統的 AI 應該至少在編造答案之前進行自我檢查,但實際上並非如此。

AI 研究界的一種理論認為,模型越是試圖進行推理,就越容易偏離正軌。與簡單模型僅進行高信心預測不同,推理模型則需要評估多種可能的路徑,連接不同的事實,並進行即興創作。而即興創作事實也被稱為編造事物。儘管 OpenAI 向《紐約時報》表示,錯誤認知的增加可能並非因為推理模型本質上較差,而是因為它們在回答時更冗長和冒險。新模型不僅僅是重複可預測的事實,而是對可能性的推測,這使得理論與虛構事實之間的界限變得模糊。不幸的是,其中一些可能性完全脫離現實。

然而,更多的錯誤認知與 OpenAI 或其競爭對手 Google 和 Anthropic 所期望的相反。稱 AI 聊天機器人為助手和副駕駛意味著它們應該是有幫助的,而不是有害的。律師們已經因為使用 ChatGPT 而遭遇麻煩,未能注意到虛構的法庭引用;在較低風險的情況下,類似的錯誤又會造成多少問題呢?

隨著 AI 系統開始在課堂、辦公室、醫院和政府機構中推廣,錯誤認知造成問題的機會迅速增加。雖然高級 AI 可能有助於撰寫求職信、解決帳單問題或分析電子表格,但矛盾在於,AI 越有用,出錯的空間就越小。如果用戶需要花費同樣的時間來核對 AI 的每一個回答,便無法聲稱能為人們節省時間和精力。這些模型無疑令人印象深刻,GPT o3 在編碼和邏輯方面展現了驚人的能力,甚至在某些方面超越了許多人。但問題是,當它聲稱亞伯拉罕·林肯主持了一個播客,或是水在 80°F 沸騰時,可靠性的幻覺便會破滅。

在這些問題得到解決之前,任何 AI 模型的回應都應該謹慎對待。ChatGPT 有時就像我們都參加過的那些會議中,充滿自信卻言之無物的那位煩人的人。

同場加映:香港無痛,不用 VPN 情況下使用 ChatGPT

【教學】免費使用 ChatGPT-4 的 6 個方法 /
【說明】4 個方法,讓你的 iPhone / Android 在香港無需 VPN 就能用 ChatGPT

十斗
十斗https://www.techritual.com/author/tenten/
十斗在知名大學取得了計算機科學與工程學位,並在學術研究方面表現出色。她的研究領域包括人工智能、機器學習和數據科學。一斗為十升,一升為十合,一合為十分之一升。謝靈運言天下才學一石,曹植占八斗,以此讚譽。後用以比喻才學極高。