Anthropic 官方宣布推出 Claude 3.7 Sonnet,這款新版本具備「擴展思考模式」,用戶可以選擇啟用或關閉此模式,以指導模型更深入地思考複雜問題。此外,開發者還可以設置「思考預算」,精確控制 Claude 在解決問題上花費的時間。
擴展思考模式的運作方式
根據官方說法,擴展思考模式並不是切換到另一個模型,而是允許同一模型花更多時間和精力來得出答案。這一新功能使 Claude 的智能水平有顯著提升,並引發了對 AI 模型運作、評估及安全性的多個重要問題。
「擴展思考模式讓 Claude 能夠更長時間地思考,從而回答更具挑戰性的問題。」
Anthropic
可見的思考過程
除了加強思考能力,Anthropic 還決定讓 Claude 的思考過程以原始形式可見,這樣做有助於提高用戶對其答案的信任度,並促進對其思考過程的理解。這樣的透明度可以幫助用戶獲得更好的輸出結果。
「能夠觀察 Claude 的思考方式,使理解和檢查其答案變得更容易。」
Anthropic
然而,這一可見性也帶來了幾個潛在的問題,例如用戶可能會發現這種思考過程較為冷漠,缺乏個性化。這是因為在思考過程中,Claude 沒有經過標準的角色訓練,導致其思考內容有時會出現錯誤或誤導性想法。
新測試的思考能力
Claude 3.7 Sonnet 還具備所謂的「行動擴展」能力,這使其能夠迭代調用功能,響應環境變化,並持續進行開放式任務。這一改進使其在執行計算機任務時,能夠分配更多的回合及計算資源,從而獲得更佳的結果。
「Claude 3.7 Sonnet 在 OSWorld 評估中表現出色,隨著與虛擬計算機的互動增多,其性能差距逐漸擴大。」
Anthropic
此外,Claude 3.7 Sonnet 在玩遊戲方面的能力也得到了提升,例如它能夠持續玩《寶可夢紅版》,並成功擊敗多位寶可夢道館館主,顯示出其在多任務處理和策略調整方面的優勢。
計算能力的提升
在使用擴展思考能力時,Claude 3.7 Sonnet 受益於「串行測試時間計算」,這意味著它在生成最終輸出之前,會進行多個連續的推理步驟。此外,研究人員還在探索使用「並行測試時間計算」來進一步提升模型性能。
「這些策略在多個 AI 模型的評估結果中顯示出顯著的改進。」
Anthropic
總的來說,Claude 3.7 Sonnet 的擴展思考和代理訓練使其在多個標準評估中表現更佳,並為未來的 AI 應用奠定了基礎。
資料來源:Anthropic 官方公告

