研究指人工智能測試方法存在缺陷或高估實際表現

根據牛津互聯網研究院最新發佈的一項研究,目前用於評估人工智能系統能力的方法常因缺乏科學嚴謹性而「高估」了 AI 的實際表現。該研究由牛津互聯網研究院牽頭,聯合三十多位學者,對 445 項主流 AI 測試(即「基準測試」)進行了審查。研發者和研究人員常以這些基準測試來評價模型性能,並據此宣稱技術進步。然而,此項研究認為這些基礎測試本身的可靠性存在疑問,呼籲重新審視相關基準的有效性。

研究發現,許多頂級基準測試未能明確界定評測目標,頻繁複用已有數據和測試方法,且很少採用可靠的統計方法比較不同模型結果。有作者指出,AI 在被要求完成特定任務時,實際測量對象常常與預期目標並不一致。例如常用的 GSM8K 數學基準測試,雖然正確答案能顯示模型基本算術能力,但未必能代表其真正的數學或推理水平。

研究還指出,半數基準未清晰定義所測量的概念,使測試結果難以真實反映 AI 模型在現實中的表現。作者建議,基準制定者應更清楚界定測試範疇,開發更具代表性的任務集,並以統計分析方式比較性能表現。

作為改善措施,論文提出八項建議,包括增加透明度和可信度的檢查清單。目前已有人提出以更貼合現實需求的測試方式,如 OpenAI 推出的面向 44 種真實職業任務的新測試;中心安全團隊也制定了用於評估遠程工作自動化任務能力的新基準。該研究認為,AI 測試仍處於科學評估的初期階段,需持續探索更有效的評測路徑,推動 AI 實際能力的客觀判斷。


十斗https://www.techritual.com/author/tenten/
十斗在知名大學取得了計算機科學與工程學位,並在學術研究方面表現出色。她的研究領域包括人工智能、機器學習和數據科學。一斗為十升,一升為十合,一合為十分之一升。謝靈運言天下才學一石,曹植占八斗,以此讚譽。後用以比喻才學極高。