華為盤古718B模型於SuperCLUE基準測評中獲得開源第二名佳績

根據最新一期的 SuperCLUE 中文大模型通用基準測評,華為盤古718B模型在開源領域中獲得了第二名的佳績。

此次測評涵蓋了數學推理、科學推理、代碼生成、智能體 Agent、幻覺控制和精確指令遵循六個維度,共計 1,260 道題目,全面檢驗了大模型的綜合實力。在綜合開源和國產兩個維度的排名中,前三名分別為:DeepSeek-V3.1-Terminus-Thinking、openPangu-Ultra-MoE-718B 和 Qwen3-235B-A22B-Thinking-2507。其中,擁有 7180 億參數的華為盤古718B模型,並未僅依賴於簡單的數據堆砌,而是憑藉其獨特的“思考”能力脫穎而出。

報導指出,openPangu 團隊在後訓練數據構建中,嚴格遵循質量優先、多樣性覆蓋和複雜度適配三個核心原則,並建立了一套涵蓋“數據生成-科學篩選-精確增強”的全流程方案。在質量優先方面,團隊構建了指令數據質量評估體系,結合規則、模型和人工三重審核機制,有效清理低質量樣本。在多樣性覆蓋上,從領域和任務類型兩個維度進行設計,運用去重和壓縮選樣算法,確保數據覆蓋廣度且避免冗餘。在複雜度適配環節,通過推理步驟、概念抽象度、計算複雜度等指標量化任務難度,並利用自迭代拒絕採樣策略,重點訓練中高難度任務。這種對數據質量的嚴格把控,成為了提升模型在複雜場景下推理能力的關鍵因素之一。


Henderson
Henderson 主要擔任「炒稿記者」的職責,以翻譯最新科技,手機 電動車等消息為每天的工作。