Meta 的一名高層在週一否認有關該公司為其新 AI 模型進行訓練,以便在特定基準上表現良好,同時隱藏模型弱點的傳聞。
這位高層,Meta 的生成 AI 副總裁 Ahmad Al-Dahle,在 Twitter 上的帖子中表示,這種說法“根本不是真的”。他指出,Meta 並未在“測試集”上訓練其 Llama 4 Maverick 和 Llama 4 Scout 模型。在 AI 基準中,測試集是用來評估模型訓練後性能的數據集合。若在測試集上進行訓練,可能會誤導性地提高模型的基準分數,使模型看起來比實際更具能力。
在週末,有關 Meta 人為提高其新模型基準結果的無根據傳聞開始在 Twitter 和 Reddit 上流傳。該傳聞似乎源於一名用戶在中國社交媒體上發表的帖子,該用戶聲稱因對公司的基準實踐表示抗議而辭職。
有報導指出,Maverick 和 Scout 在某些任務上的表現不佳,這加劇了傳聞的流傳。此外,Meta 決定使用一個實驗性、未發佈的 Maverick 版本來在基準 LM Arena 上獲得更好的分數。研究人員在 Twitter 上觀察到,公眾可下載的 Maverick 與在 LM Arena 上托管的模型之間存在明顯的行為差異。
Al-Dahle 承認,一些用戶在不同的雲服務提供商上使用 Maverick 和 Scout 時,確實看到了“質量不一”的情況。
他表示:“由於我們在模型準備好後立即發布,因此預計所有公共實現需要幾天時間來調整到位。我們將繼續解決問題並與合作夥伴進行上線。”
台灣電話卡推介 / 韓國電話卡推介
一㩒即做:香港網速測試 SpeedTest HK