AI 術語詞彙表:解釋 AGI 同 AI agent

人工智慧正在改變世界,同時發明出一整套全新語言來描述其運作方式。只需花五分鐘閱讀 AI 相關內容,你就會遇到 LLM、RAG、RLHF 等術語,以及其他十多個讓科技界聰明人亦感不安的詞彙。本詞彙表正是我們嘗試解決此問題的努力。我們會隨領域演進定期更新,因此視之為一份活文件,猶如它所描述的 AI 系統一般。

人工通用智慧(AGI)

人工通用智慧,或稱 AGI,是一個模糊術語。但一般指在許多(若非大多數)任務上比平均人類更能幹的 AI。OpenAI 執行長 Sam Altman 曾形容 AGI 為「你可聘請為同事的中位數人類等級」。同時,OpenAI 的章程將 AGI 定義為「高度自主系統,在大多數經濟價值工作上超越人類」。Google DeepMind 的理解與此略有不同;該實驗室視 AGI 為「在大多数認知任務上至少與人類同等能力的 AI」。

困惑嗎?毋庸擔心——AI 研究前沿專家亦然。 AI agent 指利用 AI 技術代表你執行一系列任務的工具——超越基本 AI 聊天機械人所能——例如提交開支、訂票或餐廳位子,甚至撰寫及維護程式碼。然而,正如我們之前解釋,此新興領域有眾多變數,因此「AI agent」對不同人可能意指不同事物。基礎設施亦在建構中,以實現其預期能力。但基本概念暗示一個自主系統,可能調用多個 AI 系統執行多步驟任務。

將 API endpoints 視為軟件背後的「按鈕」,其他程式可按壓令其執行動作。開發者用這些介面建構整合——例如讓一應用程式從另一個拉取數據,或讓 AI agent 直接控制第三方服務,而無需人類手動操作每個介面。大多數智能家居裝置及連接平台均有這些隱藏按鈕,即使普通用戶從未見或互動。隨著 AI agent 能力增強,它們愈來愈能自行發現及使用這些 endpoints,開啟強大——有時出人意表——的自動化可能性。

給一個簡單問題,人腦可不假思索回答——如「長頸鹿或貓,哪種動物較高?」但許多情況需紙筆計算中介步驟,方得出正確答案。例如,若農夫有雞及牛,合共 40 隻頭、120 條腿,你或需寫下簡單方程得出答案(20 隻雞及 20 頭牛)。在 AI 語境中,大型語言模型的思維鏈(chain-of-thought)推理指將問題拆解為較小中介步驟,以提升最終結果品質。通常需較長時間得出答案,但正確率更高,尤其在邏輯或編程情境。

思維模型(Reasoning models)由傳統大型語言模型發展,並經強化學習優化思維鏈思維。(見:大型語言模型)這比「AI agent」更具體,指可自行逐步採取行動完成目標的程式。編程 agent 是應用於軟件開發的專門版本。非僅建議程式碼供人類審核及貼上,編程 agent 可自主撰寫、測試及除錯程式碼,處理典型耗費開發者一天的迭代試錯工作。這些 agent 可橫跨整個程式碼庫,發現錯誤、運行測試及推送修復,僅需最少人類監督。

想像聘請一個從不睡覺、從不分心的超快實習生——不過,如所有實習生,人類仍需審核工作。 雖然是多義詞,運算(compute)一般指令 AI 模型運作的關鍵運算能力。此類處理驅動 AI 產業,讓其能訓練及部署強大模型。此詞常簡指提供運算能力的硬件——如 GPU、CPU、TPU 及其他構成現代 AI 產業基石的基礎設施。 深度學習是自我改進機器學習的子集,其中 AI 演算法採用多層人工神經網絡(ANN)結構。

這讓它們能作出比簡單機器學習系統(如線性模型或決策樹)更複雜的關聯。深度學習演算法結構受人類大腦神經元互聯路徑啟發。深度學習 AI 模型能自行辨識數據中重要特徵,而非需人類工程師定義這些特徵。結構亦支援從錯誤學習的演算法,經重複及調整過程改善自身輸出。然而,深度學習系統需大量數據點(數百萬或更多)方有好結果。它們訓練時間通常比簡單機器學習演算法長,因此開發成本較高。

(見:神經網絡) 擴散(Diffusion)是許多藝術、音樂及文字生成 AI 模型的核心技術。受物理學啟發,擴散系統逐步「破壞」數據結構——如照片、歌曲等——透過添加噪聲直至全無。在物理學中,擴散是自發且不可逆的——咖啡中擴散的糖無法復原為糖塊。但 AI 中的擴散系統旨在學習「逆擴散」過程,以從噪聲恢復數據,從而獲取此能力。 蒸餾(Distillation)是用「師生模型」從大型 AI 模型提取知識的技術。

開發者向師模型發送請求並記錄輸出。有時將答案與數據集比較檢視準確度。這些輸出隨後用於訓練生模型,生模型訓練以逼近師模型行為。蒸餾可用於基於大型模型創建更小、更高效模型,損失最小。這很可能就是 OpenAI 開發 GPT-4 Turbo(GPT-4 的更快版本)的方式。雖然所有 AI 公司內部均用蒸餾,但某些公司或用之追趕前沿模型。從競爭對手蒸餾通常違反 AI API 及聊天助理的服務條款。

微調(Fine-tuning)指進一步訓練 AI 模型,以優化特定任務或領域表現,而非先前訓練焦點——通常透過輸入新、專門(即任務導向)數據。許多 AI 初創以大型語言模型為起點建構商業產品,但透過補充自身領域特定知識及專業的微調,爭取提升目標行業或任務效用。(見:大型語言模型 [LLM]) 生成對抗網絡(GAN),或稱 Generative Adversarial Network,是一種機器學習框架,支撐生成 AI 在產生逼真數據的重要發展——包括(但不限)deepfake 工具。

GAN 涉及一對神經網絡,其中一個依訓練數據生成輸出,傳遞給另一模型評估。兩模型本質上編程為互相競爭。生成器試圖讓輸出通過鑑別器,而鑑別器致力辨識人工生成數據。此結構化競爭可優化 AI 輸出更逼真,而無需額外人類干預。雖然 GAN 最適用狹窄應用(如產生逼真照片或影片),而非通用 AI。 幻覺(Hallucination)是 AI 產業對模型編造事物的偏好稱呼——字面生成不正確資訊。

顯然,這是 AI 品質的大問題。幻覺產生可誤導的 GenAI 輸出,甚至引致現實風險——潛藏危險後果(如健康查詢返回有害醫療建議)。AI 捏造資訊的問題被認為源於訓練數據缺口。幻覺正推動向更專門或垂直 AI 模型發展——即需較窄專業的領域特定 AI——以減低知識缺口及虛假資訊風險。 推理(Inference)是運行 AI 模型的過程。即釋放模型從先前見過數據作出預測或推論。

明確而言,無訓練則無推理;模型須從數據集學習模式,方能有效外推。許多硬件類型可執行推理,從智能手機處理器到強大 GPU 至客製 AI 加速器。但並非均能同等運行模型。超大型模型在筆電上作預測需時極長,相比雲端伺服器配高端 AI 晶片。(見:訓練) 大型語言模型,或稱 LLM,是流行 AI 助理使用的 AI 模型,如 ChatGPT、Claude、Google 的 Gemini、Meta 的 AI Llama、Microsoft Copilot 或 Mistral 的 Le Chat。

當你與 AI 助理聊天,你互動的大型語言模型會直接或輔以工具(如網路瀏覽或程式碼解釋器)處理請求。LLM 是由數十億數值參數(或權重,見下)組成的深度神經網絡,學習詞彙及片語間關係,並創建語言表示,一種多維詞彙地圖。這些模型由編碼數十億書籍、文章及記錄中發現的模式所創。當你提示 LLM,模型生成最匹配提示的可能模式。(見:神經網絡) 記憶快取(Memory cache)指提升推理(AI 回應用戶查詢的過程)的重要機制。

本質上,快取是優化技術,旨在令推理更高效。AI 顯然由高強度數學計算驅動,每次計算均耗更多電力。快取設計減少模型需運行的計算次數,透過儲存特定計算供未來用戶查詢及操作。有不同記憶快取類型,其中知名者為 KV(key value)快取。KV 快取適用變換器基模型,提升效率,透過減少生成答案所需的時間(及演算法勞力)驅動更快結果。(見:推理) 神經網絡(Neural network)指支撐深度學習——及更廣泛生成 AI 工具爆發(繼大型語言模型出現後)的多層演算法結構。

雖然從 1940 年代起已有從人類大腦密集互聯路徑汲取靈感設計數據處理演算法的想法,但近期圖形處理硬件(GPU)興起——經由電玩產業——才真正釋放此理論力量。這些晶片適合訓練遠多於早期時代的層數演算法——令神經網絡基 AI 系統在語音辨識、自主導航及藥物發現等多領域達遠佳表現。(見:大型語言模型 [LLM]) 開源(Open source)指軟件——或日益增多 AI 模型——其底層程式碼公開供任何人使用、檢視或修改。

在 AI 界,Meta 的 Llama 系列模型是著名例子;Linux 是作業系統的歷史對應。開源方法讓全球研究者、開發者及公司建構於彼此工作上,加速進展並實現封閉系統難以提供的獨立安全審核。封閉源碼(Closed source)意指程式碼私有——你可使用產品但無法見其運作,如 OpenAI 的 GPT 模型——此區別已成 AI 產業定義性辯論之一。 並行化(Parallelization)指同時做多件事,而非逐一——如 10 名員工同時處理項目不同部分,而非一人循序。

於 AI,並行化對訓練及推理均關鍵:現代 GPU 專為並行執行數千計算設計,這是其成產業硬件骨幹的主因。隨著 AI 系統複雜化及模型增大,能跨多晶片及機器並行工作,已成決定模型建構及部署速度及成本效益的最重要因素之一。改善並行化策略的研究如今已成獨立領域。 RAMageddon 是科技產業掃蕩的不有趣趨勢的新穎稱呼:隨機存取記憶體(RAM)晶片短缺日益嚴重,此晶片驅動我們日常幾乎所有科技產品。

隨著 AI 產業繁榮,最大科技公司及 AI 實驗室——皆爭最強大高效 AI——購買大量 RAM 供數據中心,以致餘下無多。而供應瓶頸令剩餘者愈貴。這包括遊戲業(主要公司因難覓記憶晶片而須提高主機價格)、消費電子(記憶短缺或致智能手機出貨量十餘年最大跌幅)及一般企業運算(因其數據中心獲不足夠 RAM)。價格急升預計僅在短缺結束後止,但不幸,無明顯跡象顯示此將很快發生。

強化學習(Reinforcement learning)是訓練 AI 的一種方式,系統透過嘗試並獲正確答案獎勵學習——如用零食訓練寵物,唯此處「寵物」是神經網絡,「零食」是指示成功的數學訊號。不似監督學習(用固定標註範例數據集訓練),強化學習讓模型探索環境、採取行動,並依接收回饋持續更新行為。此方法證明特別強大,用於訓練 AI 玩遊戲、控制機械人,及最近銳化大型語言模型的推理能力。

如人類回饋強化學習(RLHF)等技術,如今是領先 AI 實驗室微調模型更helpful、準確及安全的核心。 在人機溝通,有明顯挑戰——人類用自然語言溝通,AI 程式經數據告知的複雜演算法過程執行任務。權杖(Tokens)彌橋此差距:它們是人機溝通的基本構建塊,代表大型語言模型處理或產生的離散數據片段。它們經權杖化(tokenization)過程創建,將原始文本拆解為語言模型可消化的小單位,類似編譯器將人類語言譯為電腦懂的二進位碼。

在企業環境,權杖亦決定成本——大多數 AI 公司按權杖計費 LLM 使用,即企業用越多付越多。因此,權杖是 AI 語言模型處理前拆解語言的小文本塊——常為詞的部分而非整詞——大致類似理解 AI 工作負荷的「詞」。 吞吐量(Throughput)指一段時間內可處理量,因此權杖吞吐量本質衡量系統一次可處理多少 AI 工作。高權杖吞吐量是 AI 基礎設施團隊關鍵目標,因其決定模型同時服務多少用戶及每人回應多快。

AI 研究者 Andrej Karpathy 形容其 AI 訂閱閒置時感焦慮——呼應其研究生時期昂貴電腦硬件未充分利用的感覺——此情緒捕捉最大化權杖吞吐量何以成領域執迷。 開發機器學習 AI 涉及名為訓練(Training)的過程。簡單而言,指輸入數據讓模型從模式學習並生成有用輸出。本質上,是系統回應數據特徵的過程,令其調整輸出趨向目標——無論辨識貓圖像或依令產俳句。

訓練昂貴,因需大量輸入,且所需量趨升——這解釋何以混合方法如用目標數據微調規則基 AI 可助控成本,而非全從頭開始。(見:推理) 遷移學習(Transfer learning)是先前訓練的 AI 模型用作開發新模型起點的技術,新模型針對不同但通常相關任務——讓先前訓練循環獲取知識可重用。遷移學習可驅動效率節省,捷徑模型開發。當目標任務數據有限時亦有用。但須注意其限制。

依賴遷移學習獲通用能力的模型,可能需額外數據訓練,方在其焦點領域表現佳(見:微調)。 權重(Weights)是 AI 訓練核心,因其決定訓練系統數據中不同特徵(或輸入變數)的重要性(或權重)——從而塑造 AI 模型輸出。換言之,權重是定義訓練任務數據集中最顯著元素的數值參數。它們透過輸入乘法實現功能。模型訓練通常從隨機指派權重開始,但隨著過程,權重調整以令輸出更匹配目標。

例如,訓練於目標地歷史房地產數據的房屋價格預測 AI 模型,或包含臥室及浴室數量、物業獨立或半獨立、是否有停車位或車庫等特徵權重。最終,模型對各輸入的權重反映其對物業價值影響,基於給定數據集。 驗證損失(Validation loss)是告知 AI 模型訓練期間學習表現的數字——越低越好。研究者密切追蹤之,如即時成績單,用以決定何時停訓、何時調整超參數,或調查潛在問題。

它助標誌關鍵關注如過擬合(overfitting),即模型記住訓練數據而非真正學習可泛化至新情境的模式。想像學生真正理解材料與僅記住去年試卷的差別——驗證損失助揭示模型成哪種。 本文會定期更新新資訊。

AI 內容聲明:本文由 AI 工具輔助撰寫初稿,經 TechRitual 編輯團隊審閱、修訂及事實查核後發佈。如有任何錯誤或需要更正,歡迎聯絡我們

📬 免費訂閱 TechRitual 科技精選

每 3 日由 AI 精選 5 篇最重要香港科技新聞,直送你信箱


此文章發佈於 TechRitual 香港
Henderson
Henderson 是 TechRitual Hong Kong 科技編輯,專注報導智能手機、消費電子產品、SIM 卡及流動通訊市場。自加入 TechRitual 以來,累計撰寫數千篇科技報導及產品評測,內容同步發佈至 SINA 及 Yahoo Tech 等主要平台。部分文章由 AI 工具輔助撰寫,經編輯團隊審閱及事實查核後發佈。