前 Windows 核心開發者喺 47 年前 PDP-11/44 機運 Transformer 模型 3.5 分鐘達 100% 準確率

Henderson
15/04/2026

前 Windows 核心開發者 Dave Plummer 在一臺 47 年前的 PDP-11/44 電腦上，成功運行了 Transformer 模型，使用 6MHz CPU 及 64KB 記憶體完成了 AI 訓練。這臺 PDP-11 運行的模型名為 ATTN-11，由 Damien Boureille 以 PDP-11 組合語言編寫，實現了一個單層、單頭的 Transformer，總共包含 1216 個參數。

模型的任務看似簡單，即輸入一串數字，輸出其反序結果，但要完成此任務，模型須自主學習序列反轉的結構規則。Plummer 認為，這捕捉到了 ChatGPT 等現代大模型的工作本質。

極限優化下的訓練過程

為了在極端硬體上運行，ATTN-11 進行了大規模極致優化，前向傳播精度壓縮至 8 位定點數，每個 CPU 週期均經優化。最終 Plummer 借助一塊記憶體緩存，在約 350 個訓練步驟後，讓模型達到 100% 正確率，整個過程耗時約 3.5 分鐘。 Plummer 在影片中描述訓練過程：「模型一開始很糟，損失值很高，之後在某個時刻，權重開始收斂，注意力機制產生反轉映射，機器跨越了從猜測到認知的那條無形界線。

」他的核心觀點是：現代 AI 的本質並非什麼神祕算力，而是「機器反覆更新數千個權重連線的強度，使下一次答案比上一次稍稍不那麼錯」。 Plummer 最後指出，隨著算力資源日漸成為瓶頸，能回歸對效速率及優化的極致追求的公司，將在未來的 AI 競爭中佔據更大優勢。

Henderson

Henderson 是 TechRitual Hong Kong 科技編輯，專注報導智能手機、消費電子產品、SIM 卡及流動通訊市場。自加入 TechRitual 以來，累計撰寫數千篇科技報導及產品評測，內容同步發佈至 SINA 及 Yahoo Tech 等主要平台。