中國 DeepSeek 發佈 V4 模型具 100 萬 token 上下文窗口挑戰美國對手

人工智能競賽步伐加快。OpenAI 本週發佈 GPT-5.5，同時白宮指控中國大規模抄襲美國 AI 系統。此際，DeepSeek 推出 V4 模型預覽版，直接挑戰美國頂尖平台。DeepSeek 發佈 V4 Flash 及 V4 Pro 系列，在編碼、推理及代理任務方面取得顯著進展。這些模型融入架構升級及優化改進，強調效率以應對系統運作成本上升。主要特色為 DeepSeek 稱之為 Hybrid Attention Architecture 的技術，此方法提升模型在長對話中保留上下文的能力，並減少

長互動時的記憶遺失。系統支援 100 萬 token 上下文窗口，用戶可一次輸入完整程式碼庫或長文件。這可能重塑軟件開發及企業分析的工作流程。DeepSeek 表示，其基準測試表現優於 Anthropic、Google 及 OpenAI 的系統。不過，它承認 V4 仍落後最先進模型 3 至 6 個月，同時強調成本及部署靈活性。

成本與晶片策略

DeepSeek 持續以效率作為競爭優勢。其萬億參數系統採用 Mixture-of-Experts 方法，每項任務僅激活部分參數，相比傳統模型全面激活所有參數，大幅降低推理成本。這些模型設計用於國內硬件運行。DeepSeek 預期，今年稍後華為科技的 Ascend 950 晶片集群上線後，成本將進一步下降。此舉可減少對美國晶片製造商依賴，並強化中國 AI 基礎設施。

市場迅速反應，中芯國際及華虹半導體股價上漲，對手 AI 企業股價下跌。投資者押注中國製晶片需求增加。DeepSeek 表示，V4 Pro 系列服務容量受限於計算資源不足，正與騰訊控股及阿里巴巴集團洽談首輪融資，顯示擴建基礎設施計劃。 V4 發佈繼承早前 R1 模型，後者曾震撼 AI 市場，促使重新評估前沿系統投資。DeepSeek 聲稱 R1 以美國領先模型成本一小部分，提供競爭性能。

此辯論再度轉向。美國科技企業預計 2026 年投資約 US$650 (約 HK$5,070) billion）於 AI 基礎設施及數據中心，平衡性能提升與長期成本。DeepSeek 表示 V4 在規模及效率上均有改善，持續定位開源模型為封閉系統替代品，吸引開發者及企業追求更大控制權。不過，此發佈備受審視。美國官員指控 DeepSeek 使用受限晶片，Anthropic 則指其濫用 Claude 系統。

DeepSeek 未披露 V4 訓練成本或硬件細節。此發佈凸顯全球競爭加劇，DeepSeek 以低成本、可擴展性能及硬件靈活性挑戰 AI 系統建構方式及領導權。

中國 DeepSeek 發佈 V4 模型具 100 萬 token 上下文窗口挑戰美國對手

成本與晶片策略

Henderson

搜尋文章

成本與晶片策略

相關文章

Henderson

搜尋文章