Anthropic 公布 Claude 3.7 Sonnet 擴展思考模式

Anthropic 官方宣布推出 Claude 3.7 Sonnet,這款新版本具備「擴展思考模式」,用戶可以選擇啟用或關閉此模式,以指導模型更深入地思考複雜問題。此外,開發者還可以設置「思考預算」,精確控制 Claude 在解決問題上花費的時間。

擴展思考模式的運作方式

根據官方說法,擴展思考模式並不是切換到另一個模型,而是允許同一模型花更多時間和精力來得出答案。這一新功能使 Claude 的智能水平有顯著提升,並引發了對 AI 模型運作、評估及安全性的多個重要問題。

「擴展思考模式讓 Claude 能夠更長時間地思考,從而回答更具挑戰性的問題。」

Anthropic

可見的思考過程

除了加強思考能力,Anthropic 還決定讓 Claude 的思考過程以原始形式可見,這樣做有助於提高用戶對其答案的信任度,並促進對其思考過程的理解。這樣的透明度可以幫助用戶獲得更好的輸出結果。

「能夠觀察 Claude 的思考方式,使理解和檢查其答案變得更容易。」

Anthropic

然而,這一可見性也帶來了幾個潛在的問題,例如用戶可能會發現這種思考過程較為冷漠,缺乏個性化。這是因為在思考過程中,Claude 沒有經過標準的角色訓練,導致其思考內容有時會出現錯誤或誤導性想法。

新測試的思考能力

Claude 3.7 Sonnet 還具備所謂的「行動擴展」能力,這使其能夠迭代調用功能,響應環境變化,並持續進行開放式任務。這一改進使其在執行計算機任務時,能夠分配更多的回合及計算資源,從而獲得更佳的結果。

「Claude 3.7 Sonnet 在 OSWorld 評估中表現出色,隨著與虛擬計算機的互動增多,其性能差距逐漸擴大。」

Anthropic

此外,Claude 3.7 Sonnet 在玩遊戲方面的能力也得到了提升,例如它能夠持續玩《寶可夢紅版》,並成功擊敗多位寶可夢道館館主,顯示出其在多任務處理和策略調整方面的優勢。

計算能力的提升

在使用擴展思考能力時,Claude 3.7 Sonnet 受益於「串行測試時間計算」,這意味著它在生成最終輸出之前,會進行多個連續的推理步驟。此外,研究人員還在探索使用「並行測試時間計算」來進一步提升模型性能。

「這些策略在多個 AI 模型的評估結果中顯示出顯著的改進。」

Anthropic

總的來說,Claude 3.7 Sonnet 的擴展思考和代理訓練使其在多個標準評估中表現更佳,並為未來的 AI 應用奠定了基礎。

資料來源:Anthropic 官方公告

想睇更深入嘅 AI 模型與工程科技報道?
前往 The Base Principle 繁體中文 AI 新聞 →
十斗
十斗

十斗是 TechRitual Hong Kong 科技記者,擁有計算機科學與工程學位,專注報導 AI 人工智能、Google、機器學習及數據科學領域。持續追蹤全球 AI 產業動態,為讀者提供深入淺出的科技分析。

友情網站:日本語版 / TechNipponThe Base Principle(AI・工程)