Meta 高層否認公司在基準評測中操控 Llama 4 成績

Meta 的一名高層在週一否認有關該公司為其新 AI 模型進行訓練,以便在特定基準上表現良好,同時隱藏模型弱點的傳聞。

這位高層,Meta 的生成 AI 副總裁 Ahmad Al-Dahle,在 Twitter 上的帖子中表示,這種說法“根本不是真的”。他指出,Meta 並未在“測試集”上訓練其 Llama 4 Maverick 和 Llama 4 Scout 模型。在 AI 基準中,測試集是用來評估模型訓練後性能的數據集合。若在測試集上進行訓練,可能會誤導性地提高模型的基準分數,使模型看起來比實際更具能力。

在週末,有關 Meta 人為提高其新模型基準結果的無根據傳聞開始在 Twitter 和 Reddit 上流傳。該傳聞似乎源於一名用戶在中國社交媒體上發表的帖子,該用戶聲稱因對公司的基準實踐表示抗議而辭職。

有報導指出,Maverick 和 Scout 在某些任務上的表現不佳,這加劇了傳聞的流傳。此外,Meta 決定使用一個實驗性、未發佈的 Maverick 版本來在基準 LM Arena 上獲得更好的分數。研究人員在 Twitter 上觀察到,公眾可下載的 Maverick 與在 LM Arena 上托管的模型之間存在明顯的行為差異。

Al-Dahle 承認,一些用戶在不同的雲服務提供商上使用 Maverick 和 Scout 時,確實看到了“質量不一”的情況。

他表示:“由於我們在模型準備好後立即發布,因此預計所有公共實現需要幾天時間來調整到位。我們將繼續解決問題並與合作夥伴進行上線。”

台灣電話卡推介 / 韓國電話卡推介

一㩒即做:香港網速測試 SpeedTest HK

十斗
十斗https://www.techritual.com/author/tenten/
十斗在知名大學取得了計算機科學與工程學位,並在學術研究方面表現出色。她的研究領域包括人工智能、機器學習和數據科學。一斗為十升,一升為十合,一合為十分之一升。謝靈運言天下才學一石,曹植占八斗,以此讚譽。後用以比喻才學極高。