Anthropic 公布 Claude 3.7 Sonnet 擴展思考模式

Anthropic 官方宣布推出 Claude 3.7 Sonnet，這款新版本具備「擴展思考模式」，用戶可以選擇啟用或關閉此模式，以指導模型更深入地思考複雜問題。此外，開發者還可以設置「思考預算」，精確控制 Claude 在解決問題上花費的時間。

擴展思考模式的運作方式

根據官方說法，擴展思考模式並不是切換到另一個模型，而是允許同一模型花更多時間和精力來得出答案。這一新功能使 Claude 的智能水平有顯著提升，並引發了對 AI 模型運作、評估及安全性的多個重要問題。

「擴展思考模式讓 Claude 能夠更長時間地思考，從而回答更具挑戰性的問題。」
Anthropic

除了加強思考能力，Anthropic 還決定讓 Claude 的思考過程以原始形式可見，這樣做有助於提高用戶對其答案的信任度，並促進對其思考過程的理解。這樣的透明度可以幫助用戶獲得更好的輸出結果。

「能夠觀察 Claude 的思考方式，使理解和檢查其答案變得更容易。」
Anthropic

然而，這一可見性也帶來了幾個潛在的問題，例如用戶可能會發現這種思考過程較為冷漠，缺乏個性化。這是因為在思考過程中，Claude 沒有經過標準的角色訓練，導致其思考內容有時會出現錯誤或誤導性想法。

Claude 3.7 Sonnet 還具備所謂的「行動擴展」能力，這使其能夠迭代調用功能，響應環境變化，並持續進行開放式任務。這一改進使其在執行計算機任務時，能夠分配更多的回合及計算資源，從而獲得更佳的結果。

「Claude 3.7 Sonnet 在 OSWorld 評估中表現出色，隨著與虛擬計算機的互動增多，其性能差距逐漸擴大。」
Anthropic

此外，Claude 3.7 Sonnet 在玩遊戲方面的能力也得到了提升，例如它能夠持續玩《寶可夢紅版》，並成功擊敗多位寶可夢道館館主，顯示出其在多任務處理和策略調整方面的優勢。

在使用擴展思考能力時，Claude 3.7 Sonnet 受益於「串行測試時間計算」，這意味著它在生成最終輸出之前，會進行多個連續的推理步驟。此外，研究人員還在探索使用「並行測試時間計算」來進一步提升模型性能。

「這些策略在多個 AI 模型的評估結果中顯示出顯著的改進。」
Anthropic

總的來說，Claude 3.7 Sonnet 的擴展思考和代理訓練使其在多個標準評估中表現更佳，並為未來的 AI 應用奠定了基礎。

想睇更深入嘅 AI 模型與工程科技報道？