Mustafa Suleyman:運算爆炸帶動 AI 發展 訓練數據量增 1 萬億倍

計算力爆炸是當今時代最具代表性的科技故事,而且這一切才剛剛開始。人類本能適應線性世界,例如步行一小時覆蓋一定距離,兩小時則是兩倍距離,這種直覺在大草原上頗為管用。但面對人工智慧(AI)及其核心的指數級趨勢,這種直覺卻徹底失效。從 2010 年我開始從事 AI 工作至今,用於前沿 AI 模型訓練的數據量已增長驚人的 1 萬億倍,從早期系統約 10¹⁴ flops(浮點運算,計算的核心單位)激增至今日最大模型超過 10²⁶ flops。

這是真正的爆炸,一切 AI 發展皆由此衍生。懷疑論者不斷預測瓶頸,卻屢屢在這場世代性計算力躍升面前失算。他們常指摩爾定律放緩、數據短缺或能源限制,但綜觀驅動這場革命的合力,指數趨勢其實相當可預測。要理解原因,需檢視頭條背後的複雜快速現實。 將 AI 訓練視為一屋子手持計算器的人員。多年來,增加計算力意味著添加更多人手。但這些工作者多數時間閒置,敲擊桌面等待下一筆數字。

每段停頓皆是浪費潛力。今日革命不僅提供更多更好計算器(雖已實現),更確保所有計算器永不停歇,並如一體運作。三項進展正匯聚實現此目標。首先,基本計算器速度大增。Nvidia 晶片僅六年內原始效能提升逾七倍,從 2020 年的 312 teraflops 至今日 2,250 teraflops。我們自家 Maia 200 晶片,今年一月發佈,每美元效能比艦隊中其他硬體高 30%。

三大關鍵技術進展

其次,數字傳輸加速,得益於 HBM(高頻寬記憶體)技術,此技術如迷你摩天大樓般垂直堆疊晶片;最新 HBM3 世代頻寬是前代的 3 倍,足夠高速供應數據讓處理器全時忙碌。第三,計算器之屋變成辦公室、校園乃至城市。NVLink 及 InfiniBand 等技術將數十萬 GPU 串聯成倉庫規模超級電腦,運作如單一認知實體。數年前這仍不可能。這些進展合力帶來戲劇性計算力增長。

2020 年用八塊 GPU 訓練語言模型需 167 分鐘,如今同級現代硬體僅需不到四分鐘。對比而言,摩爾定律僅預測五倍改善,我們卻達五十倍。從 2012 年 AlexNet(引爆深度學習熱潮的圖像辨識模型)用兩塊 GPU,到今日最大叢集逾 10 萬塊 GPU,每塊效能均遠超前代。 軟體革命同樣驚人。Epoch AI 研究顯示,達固定效能水準所需計算力約每八個月減半,遠快於傳統摩爾定律 18 至 24 個月倍增。

最近模型部署成本年化基礎上暴跌高達 900 倍,AI 部署正變得極端廉價。未來數字同樣震撼。領先實驗室容量年增近四倍。自 2020 年起,前沿模型訓練計算力每年增五倍。全球 AI 相關計算力預計 2027 年達 1 億塊 H100 等效規模,三年內十倍增長。綜合而言,至 2028 年底有效計算力恐再增千倍。至 2030 年,每年上線額外 200 吉瓦計算力,相當英國、法國、德國及意大利峰值用電總和。

這將帶來何種成果?預期驅動從聊天機械人轉向近人類水準代理——半自主系統,能連續數日寫碼、執行數週至數月專案、打電話、談判合約、管理物流。忘記僅答問的基本助手,想像 AI 團隊協商、合作、執行。目前我們僅處轉型山腳,影響遠超科技界。每個依賴認知勞動的產業皆將蛻變。顯著限制是能源。一個冰箱大小 AI 機架耗電 120 千瓦,等同 100 戶家庭。但此需求撞上另一指數趨勢:太陽能成本 50 年降近 100 倍;電池價格 30 年跌 97%。

潔淨擴張途徑正浮現。資金部署,工程交付。價值 1000 億美元叢集、10 吉瓦耗電、倉庫級超級電腦……這些不再是科幻。目前美國及全球多地已動工。

AI 內容聲明:本文由 AI 工具輔助撰寫初稿,經 TechRitual 編輯團隊審閱、修訂及事實查核後發佈。如有任何錯誤或需要更正,歡迎聯絡我們

Henderson
Henderson 是 TechRitual Hong Kong 科技編輯,專注報導智能手機、消費電子產品、SIM 卡及流動通訊市場。自加入 TechRitual 以來,累計撰寫數千篇科技報導及產品評測,內容同步發佈至 SINA 及 Yahoo Tech 等主要平台。部分文章由 AI 工具輔助撰寫,經編輯團隊審閱及事實查核後發佈。