智譜發佈 Ling-2.6-flash 模型 104B 參數僅用 1/10 Token 消耗達 Agent SOTA

Henderson
22/04/2026

百凌（Baichuan）正式發佈 Ling-2.6-flash，這是一款總參數量 104B、激活性參數 7.4B 的 Instruct 模型。該模型主打「Token 效率（Token Efficiency）」，在維持競爭力智能力水準的同時，實現更快、更省以及更適合大規模實際應用。

規格參數一覽

項目	規格
總參數量	104B
激活性參數	7.4B
推理速度（4 張 H20）	最高 340 tokens/s
Prefill 速度	Nemotron-3-Super 的 2.2 倍
Output Speed	215 tokens/s（同參數級別第一）
API 定價（輸入）	每百萬 tokens US$0.10 (約 HK$0)
API 定價（輸出）	每百萬 tokens US$0.30 (約 HK$2)

根據第三方評測 Artificial Analysis 數據，Ling-2.6-flash 展現出色的 Token Efficiency 優勢，以 15M output tokens 實現 26 分的 Intelligence Index，在維持較強智能力水準的同時，將輸出消耗控制在相對較低位置。該模型沿用 Ling 2.5 的混合專家（MoE）架構設計，這種高度稀疏化的 MoE 架構在硬體表現上優勢明顯。

從 Token 消耗來看，Ling-2.6-flash 的智效比顯著提升。在 Artificial Analysis 完整評測中，Ling-2.6-flash 總消耗 15M tokens，而 Nemotron-3-Super 等模型達或超過 110M tokens，意味著 Ling-2.6-flash 只用約 1/10 的 token 消耗完成同類評測任務。

Ling-2.6-flash 針對 Agent 場景進行定向強化，在控制 Token 消耗的前提下，依舊維持極強的任務執行力，模型在 BFCL-V4、TAU2-bench、SWE-bench Verified、Claw-Eval、PinchBench 等 Agent 相關基準上達到同量級 SOTA 水準。同時，Ling-2.6-flash 在通用知識、數學推理、指令遵循及長文本分析等維度維持優異水準。

API 定價方面，Ling-2.6-flash 輸入每百萬 tokens US$0.10 (約 HK$0)，輸出 US$0.30 (約 HK$2)。目前，Ling-2.6-flash 的 API 已正式向用戶開放，並提供為期一週的限時免費試用。用戶可透過 OpenRouter 或百凌大模型 tbox 獲取對應服務。據了解，該模型後續將透過百凌數科發佈商用版 LingDT，服務全球開發者及中小的企業。

Henderson

Henderson 是 TechRitual Hong Kong 科技編輯，專注報導智能手機、消費電子產品、SIM 卡及流動通訊市場。自加入 TechRitual 以來，累計撰寫數千篇科技報導及產品評測，內容同步發佈至 SINA 及 Yahoo Tech 等主要平台。