AI 模型金融交易競賽 表現欠佳僅勝六次

人工智慧(AI)尚未準備好取代人類的金科經理,一系列公開測試證明了其中編碼自由。在全球領先 AI 模型參與的一系列新交易競賽中,至今為止 AI 的表現並不算好。大多數系統都遭受了損失。它們交易過於頻繁,在收到完全相同指令時會作出截然不同的決定。而且目前仍無人知曉,這些缺點是否會隨模型迭代升級而消失,這也突顯了大語言模型與市場實際運作方式之間存在的根本性鴻溝。

以科技初創公司 Nof1 營運的 Alpha Arena 為例。該平台讓八個主要前沿 AI 系統同台比較,開展四場比賽,其中包括 Anthropic 的 Claude、Google 的 Gemini、OpenAI 的 ChatGPT 以及 Elon Musk 的 Grok。每個系統在每場比賽開始前均獲得 1 萬美元資金,隨後在兩週內自主交易美股。挑戰包括依據多種信號交易、採取防禦性策略、對競爭對手表現作出反應,以及使用高槓桿操作。

整體投資組合最終損失約三分之一資金。在全部 32 組結果中,模型僅有 6 次實現盈利。Grok 4.20 在一項可獲知競爭對手表現的挑戰中取得最佳成績。它只進行了 158 筆交易;在相同提示下,阿裡巴巴的千問則交易了 1418 次。

AI 交易實驗暴露系統性缺陷

Alpha Arena 只是一個越來越多的相關實驗之一。這些實驗在測試,大語言模型能否勝任金融業最艱難的工作:戰勝市場。雖然這些競賽遠談不上具學術嚴謹性,但它們至今最公開地展示了,當這些系統嘗試處理華爾街一些利潤最豐厚、風險最高的工作時,會發生什麼。這些初步結果之所以重要,是因為交易正是金融業對完全交給 AI 仍保持懷疑的少數工作之一。過去幾年,從摩根大通到 Balyasny Asset Management 等行業巨頭,已將這項技術用於其各個環節。

如今回,大語言模型已在量化機構中用於分析新聞,在對沖基金中起草備忘錄,在大型銀行中識別詐騙等。但在真金白銀的交易上,「人類參與」仍是行業信條,亦是有所依據。 Nof1 創始人 Jay Azhang 表示:「大語言模型本質上並不真正懂賺錢。你基本上需要一套非常複雜的約束框架、支援系統和數據平台,才有可能給它們一個發光的機會。」他說,大語言模型擅長做研究,也擅長為某些任務尋找並調用合適工具。

但它們目前仍不知道,影響股價波動的諸多變量——包括分析師評級、機構交易和市場情緒變化等——各自有多重要。它們往往把握不好交易時機,錯誤設定倉位規模,而且買賣過於頻繁。 AI 博客 Flat Circle 追蹤了 11 個與市場相關的競科技平台,所有平台均至少有一個模型實現盈利。但在這 11 個平台中,只有兩個平台的模型中位數實現盈利,這表明大多數模型難以戰勝市場。

這一結果與人類的表現如出一轍,因為眾所周知,多數主動管理型基金同樣慘敗大盤。而且就像人類一樣,這些模型也容易出現明顯偏差。多場競賽顯示,AI 系統在收到相同指令時會作出非常不同的決定,這對部署它們的機構有重大影響。Azhang 舉例說,在 Alpha Arena 最近一輪比賽中,Claude 多傾向做多,Gemini 並不排斥做空,而千問則更願意借助高槓桿承擔風險。

營運 Intelligent Alpha 的 Doug Clinton 表示:「它們有自己的『個性』,你需要像管理人類分析師那樣去管理它們。」他說,如果讓模型意識到自己表現出某種偏差,結果可以得到改善。Intelligent Alpha 有一個由大語言模型驅動的基金,就 AI 預測企業盈利的表現發佈其自家標準。Intelligent Alpha 的標準為 10 個 AI 模型提供財報申請文件、分析師預測、業績電話會議紀要、宏觀經濟數據以及最多 10 次網絡搜索權限。

由於限制範圍更嚴,大語言模型在這項測試中的表現更為積極。2025 年第四季度,OpenAI 的 ChatGPT 對盈利預測變動方向的判斷準確率達 68%,創下至今最佳成績。Clinton 表示,這些模型通常會隨每次新版本發佈而持續改善。

AI 內容聲明:本文由 AI 工具輔助撰寫初稿,經 TechRitual 編輯團隊審閱、修訂及事實查核後發佈。如有任何錯誤或需要更正,歡迎聯絡我們

📬 免費訂閱 TechRitual 科技精選

每 3 日由 AI 精選 5 篇最重要香港科技新聞,直送你信箱


此文章發佈於 TechRitual 香港
Henderson
Henderson 是 TechRitual Hong Kong 科技編輯,專注報導智能手機、消費電子產品、SIM 卡及流動通訊市場。自加入 TechRitual 以來,累計撰寫數千篇科技報導及產品評測,內容同步發佈至 SINA 及 Yahoo Tech 等主要平台。部分文章由 AI 工具輔助撰寫,經編輯團隊審閱及事實查核後發佈。