百凌(Baichuan)正式發佈 Ling-2.6-flash,這是一款總參數量 104B、激活性參數 7.4B 的 Instruct 模型。該模型主打「Token 效率(Token Efficiency)」,在維持競爭力智能力水準的同時,實現更快、更省以及更適合大規模實際應用。
規格參數一覽
| 項目 | 規格 |
|---|---|
| 總參數量 | 104B |
| 激活性參數 | 7.4B |
| 推理速度(4 張 H20) | 最高 340 tokens/s |
| Prefill 速度 | Nemotron-3-Super 的 2.2 倍 |
| Output Speed | 215 tokens/s(同參數級別第一) |
| API 定價(輸入) | 每百萬 tokens US$0.1,約 HK$0.78 |
| API 定價(輸出) | 每百萬 tokens US$0.3,約 HK$2.34 |
根據第三方評測 Artificial Analysis 數據,Ling-2.6-flash 展現出色的 Token Efficiency 優勢,以 15M output tokens 實現 26 分的 Intelligence Index,在維持較強智能力水準的同時,將輸出消耗控制在相對較低位置。該模型沿用 Ling 2.5 的混合專家(MoE)架構設計,這種高度稀疏化的 MoE 架構在硬體表現上優勢明顯。
從 Token 消耗來看,Ling-2.6-flash 的智效比顯著提升。在 Artificial Analysis 完整評測中,Ling-2.6-flash 總消耗 15M tokens,而 Nemotron-3-Super 等模型達或超過 110M tokens,意味著 Ling-2.6-flash 只用約 1/10 的 token 消耗完成同類評測任務。
Ling-2.6-flash 針對 Agent 場景進行定向強化,在控制 Token 消耗的前提下,依舊維持極強的任務執行力,模型在 BFCL-V4、TAU2-bench、SWE-bench Verified、Claw-Eval、PinchBench 等 Agent 相關基準上達到同量級 SOTA 水準。同時,Ling-2.6-flash 在通用知識、數學推理、指令遵循及長文本分析等維度維持優異水準。
API 定價方面,Ling-2.6-flash 輸入每百萬 tokens US$0.1,約 HK$0.78,輸出 US$0.3,約 HK$2.34。目前,Ling-2.6-flash 的 API 已正式向用戶開放,並提供為期一週的限時免費試用。用戶可透過 OpenRouter 或百凌大模型 tbox 獲取對應服務。據了解,該模型後續將透過百凌數科發佈商用版 LingDT,服務全球開發者及中小的企業。




