前 Windows 核心開發者 Dave Plummer 在一臺 47 年前的 PDP-11/44 電腦上,成功運行了 Transformer 模型,使用 6MHz CPU 及 64KB 記憶體完成了 AI 訓練。這臺 PDP-11 運行的模型名為 ATTN-11,由 Damien Boureille 以 PDP-11 組合語言編寫,實現了一個單層、單頭的 Transformer,總共包含 1216 個參數。
模型的任務看似簡單,即輸入一串數字,輸出其反序結果,但要完成此任務,模型須自主學習序列反轉的結構規則。Plummer 認為,這捕捉到了 ChatGPT 等現代大模型的工作本質。
極限優化下的訓練過程
為了在極端硬體上運行,ATTN-11 進行了大規模極致優化,前向傳播精度壓縮至 8 位定點數,每個 CPU 週期均經優化。最終 Plummer 借助一塊記憶體緩存,在約 350 個訓練步驟後,讓模型達到 100% 正確率,整個過程耗時約 3.5 分鐘。 Plummer 在影片中描述訓練過程:「模型一開始很糟,損失值很高,之後在某個時刻,權重開始收斂,注意力機制產生反轉映射,機器跨越了從猜測到認知的那條無形界線。
」他的核心觀點是:現代 AI 的本質並非什麼神祕算力,而是「機器反覆更新數千個權重連線的強度,使下一次答案比上一次稍稍不那麼錯」。 Plummer 最後指出,隨著算力資源日漸成為瓶頸,能回歸對效速率及優化的極致追求的公司,將在未來的 AI 競爭中佔據更大優勢。
AI 內容聲明:本文由 AI 工具輔助撰寫初稿,經 TechRitual 編輯團隊審閱、修訂及事實查核後發佈。如有任何錯誤或需要更正,歡迎聯絡我們。




