中國 DeepSeek 發佈 V4 模型 具 100 萬 token 上下文窗口挑戰美國對手

人工智能競賽步伐加快。OpenAI 本週發佈 GPT-5.5,同時白宮指控中國大規模抄襲美國 AI 系統。此際,DeepSeek 推出 V4 模型預覽版,直接挑戰美國頂尖平台。DeepSeek 發佈 V4 Flash 及 V4 Pro 系列,在編碼、推理及代理任務方面取得顯著進展。這些模型融入架構升級及優化改進,強調效率以應對系統運作成本上升。主要特色為 DeepSeek 稱之為 Hybrid Attention Architecture 的技術,此方法提升模型在長對話中保留上下文的能力,並減少

長互動時的記憶遺失。系統支援 100 萬 token 上下文窗口,用戶可一次輸入完整程式碼庫或長文件。這可能重塑軟件開發及企業分析的工作流程。DeepSeek 表示,其基準測試表現優於 Anthropic、Google 及 OpenAI 的系統。不過,它承認 V4 仍落後最先進模型 3 至 6 個月,同時強調成本及部署靈活性。

成本與晶片策略

DeepSeek 持續以效率作為競爭優勢。其萬億參數系統採用 Mixture-of-Experts 方法,每項任務僅激活部分參數,相比傳統模型全面激活所有參數,大幅降低推理成本。這些模型設計用於國內硬件運行。DeepSeek 預期,今年稍後華為科技的 Ascend 950 晶片集群上線後,成本將進一步下降。此舉可減少對美國晶片製造商依賴,並強化中國 AI 基礎設施。

市場迅速反應,中芯國際及華虹半導體股價上漲,對手 AI 企業股價下跌。投資者押注中國製晶片需求增加。DeepSeek 表示,V4 Pro 系列服務容量受限於計算資源不足,正與騰訊控股及阿里巴巴集團洽談首輪融資,顯示擴建基礎設施計劃。 V4 發佈繼承早前 R1 模型,後者曾震撼 AI 市場,促使重新評估前沿系統投資。DeepSeek 聲稱 R1 以美國領先模型成本一小部分,提供競爭性能。

此辯論再度轉向。美國科技企業預計 2026 年投資約 US$650 billion(約 HK$5,070 billion)於 AI 基礎設施及數據中心,平衡性能提升與長期成本。DeepSeek 表示 V4 在規模及效率上均有改善,持續定位開源模型為封閉系統替代品,吸引開發者及企業追求更大控制權。不過,此發佈備受審視。美國官員指控 DeepSeek 使用受限晶片,Anthropic 則指其濫用 Claude 系統。

DeepSeek 未披露 V4 訓練成本或硬件細節。此發佈凸顯全球競爭加劇,DeepSeek 以低成本、可擴展性能及硬件靈活性挑戰 AI 系統建構方式及領導權。

AI 內容聲明:本文由 AI 工具輔助撰寫初稿,經 TechRitual 編輯團隊審閱、修訂及事實查核後發佈。如有任何錯誤或需要更正,歡迎聯絡我們

Henderson
Henderson 是 TechRitual Hong Kong 科技編輯,專注報導智能手機、消費電子產品、SIM 卡及流動通訊市場。自加入 TechRitual 以來,累計撰寫數千篇科技報導及產品評測,內容同步發佈至 SINA 及 Yahoo Tech 等主要平台。部分文章由 AI 工具輔助撰寫,經編輯團隊審閱及事實查核後發佈。