研究人員推出新型語言模型 HRM-Text 訓練成本僅需 1500 美元

研究人員近日公佈了一種名為 HRM-Text 的新型語言模型訓練方案,稱其從零開始訓練一個 10 億參數的基礎模型,估算計算成本約為 US$1,500 (約 HK$11,700),訓練時長為 1.9 天,使用 16 塊 GPU 完成。研究人員表示,這一方案能夠降低基礎大模型預訓練對高算力和海量互聯網文本的依賴。

HRM-Text 語言模型的創新訓練方法

HRM-Text 並未採用常見的 Transformer 架構,而是基於分層循環模型 HRM 構建,將計算分為變化較慢的策略層和變化較快的執行層。與傳統大模型通過“下一個詞預測”學習原始文本不同,HRM-Text 僅使用“指令-回覆”數據進行訓練,訓練目標也從逐詞預測改為任務完成,即主要根據最終回答質量進行優化。研究團隊稱,這種方式更接近企業實際使用場景,因為用户通常是圍繞具體任務提出問題並期待明確答覆。

在數據規模上,HRM-Text 訓練時使用了約 400 億個標記,顯著少於主流模型常見的更大規模訓練語料。數據由通用指令、數學、符號邏輯、教材練習和改寫知識等“指令-回覆”樣本組成。研究人員還在訓練中移除了展示中間推理過程的相關標記,以促使模型更多依賴內部層級推理結構。

測試結果顯示,這一 10 億參數模型在多項基準上取得了與更大開源模型接近的表現,包括 MMLU 得分 60.7%、GSM8K 得分 84.5%、MATH 得分 56.2%。研究人員稱,該模型訓練時使用的標記數量比部分 Qwen、Gemma 和 Llama 模型少 100 倍至 900 倍,估算計算量低 96 倍至 432 倍。

為解決循環結構在語言訓練中容易出現梯度爆炸或消失的問題,研究團隊引入了名為 MagicNorm 的歸一化方法,並採用逐步增加推理深度的預熱訓練策略。研究人員認為,這表明基礎模型預訓練不一定只能由高資源機構完成,企業未來可以圍繞自身業務數據和外部知識庫,訓練更緊湊的推理核心模型。

不過,研究團隊也指出,HRM-Text 目前更接近概念驗證,並非現成的通用聊天產品替代方案,在多輪對話、推理模式控制和工程適配方面仍需要進一步完善。

Henderson
Henderson

Henderson 是 TechRitual Hong Kong 科技編輯,專注報導智能手機、消費電子產品、SIM 卡及流動通訊市場。自加入 TechRitual 以來,累計撰寫數千篇科技報導及產品評測,內容同步發佈至 SINA 及 Yahoo Tech 等主要平台。