美國 NIST 評估 DeepSeek V4 落後頂級 AI 模型 8 個月

Henderson
03/05/2026

快科科技 5 月 3 日消息，4 月 24 日 DeepSeek V4 系列大模型正式發佈，距離去年的 DeepSeek R1 更新已經過去了 15 個月的時間，V4 的性能究竟如何也引發了國內外的討論，美國人也非常關注。評估 DeepSeek V4 的能力已經有很多測試了，美國外僑關係委員會組織了 3 個高級研究員之前的報告顯示其落後美國頂級大模型約 7 個月。

現在美國國家標準與技術研究院（NIST）下屬人工智慧標準與創新中心（CAISI）也來評估 DeepSeek V4，他們的結論是 DeepSeek V4 落後美國約 8 個月，跟之前的差距差不太多。在他們的 AI 能力評估結果中，DeepSeek V4 得分在 800 分，而目前最強的是 GPT-5.5，分數超過 1200 分，GPT-5.4 及 Opus 4.6 也在 1000 分以上。

DeepSeek V4 在特定領域表現出色

DeepSeek V4 整體性能跟 8 個月前的 GPT-5 差不太多，但 DeepSeek 官方之前在發佈報告中認為跟 GPT-5.4 差不太多。不過 CAISI 也承認 DeepSeek V4 是他們評測過的中國最強 AI 大模型，在網絡、軟件工程、自治科學、抽象推理和數學這五個領域名 9 項測試能力很強。更重要的是，DeepSeek V4 的性價比更強，即便與美國最有成敗勢的 GPT-5.4 mini 大模型相比，DeepSeek V4 在 7 個基準測試中 4 個測試性能更優，高出 41% 到 53% 不等。

Henderson

Henderson 是 TechRitual Hong Kong 科技編輯，專注報導智能手機、消費電子產品、SIM 卡及流動通訊市場。自加入 TechRitual 以來，累計撰寫數千篇科技報導及產品評測，內容同步發佈至 SINA 及 Yahoo Tech 等主要平台。