AI 模型金融交易競賽表現欠佳僅勝六次

人工智慧（AI）尚未準備好取代人類的金科經理，一系列公開測試證明了其中編碼自由。在全球領先 AI 模型參與的一系列新交易競賽中，至今為止 AI 的表現並不算好。大多數系統都遭受了損失。它們交易過於頻繁，在收到完全相同指令時會作出截然不同的決定。而且目前仍無人知曉，這些缺點是否會隨模型迭代升級而消失，這也突顯了大語言模型與市場實際運作方式之間存在的根本性鴻溝。

以科技初創公司 Nof1 營運的 Alpha Arena 為例。該平台讓八個主要前沿 AI 系統同台比較，開展四場比賽，其中包括 Anthropic 的 Claude、Google 的 Gemini、OpenAI 的 ChatGPT 以及 Elon Musk 的 Grok。每個系統在每場比賽開始前均獲得 1 萬美元資金，隨後在兩週內自主交易美股。挑戰包括依據多種信號交易、採取防禦性策略、對競爭對手表現作出反應，以及使用高槓桿操作。

整體投資組合最終損失約三分之一資金。在全部 32 組結果中，模型僅有 6 次實現盈利。Grok 4.20 在一項可獲知競爭對手表現的挑戰中取得最佳成績。它只進行了 158 筆交易；在相同提示下，阿裡巴巴的千問則交易了 1418 次。

AI 交易實驗暴露系統性缺陷

Alpha Arena 只是一個越來越多的相關實驗之一。這些實驗在測試，大語言模型能否勝任金融業最艱難的工作：戰勝市場。雖然這些競賽遠談不上具學術嚴謹性，但它們至今最公開地展示了，當這些系統嘗試處理華爾街一些利潤最豐厚、風險最高的工作時，會發生什麼。這些初步結果之所以重要，是因為交易正是金融業對完全交給 AI 仍保持懷疑的少數工作之一。過去幾年，從摩根大通到 Balyasny Asset Management 等行業巨頭，已將這項技術用於其各個環節。

如今回，大語言模型已在量化機構中用於分析新聞，在對沖基金中起草備忘錄，在大型銀行中識別詐騙等。但在真金白銀的交易上，「人類參與」仍是行業信條，亦是有所依據。 Nof1 創始人 Jay Azhang 表示：「大語言模型本質上並不真正懂賺錢。你基本上需要一套非常複雜的約束框架、支援系統和數據平台，才有可能給它們一個發光的機會。」他說，大語言模型擅長做研究，也擅長為某些任務尋找並調用合適工具。

但它們目前仍不知道，影響股價波動的諸多變量——包括分析師評級、機構交易和市場情緒變化等——各自有多重要。它們往往把握不好交易時機，錯誤設定倉位規模，而且買賣過於頻繁。 AI 博客 Flat Circle 追蹤了 11 個與市場相關的競科技平台，所有平台均至少有一個模型實現盈利。但在這 11 個平台中，只有兩個平台的模型中位數實現盈利，這表明大多數模型難以戰勝市場。

這一結果與人類的表現如出一轍，因為眾所周知，多數主動管理型基金同樣慘敗大盤。而且就像人類一樣，這些模型也容易出現明顯偏差。多場競賽顯示，AI 系統在收到相同指令時會作出非常不同的決定，這對部署它們的機構有重大影響。Azhang 舉例說，在 Alpha Arena 最近一輪比賽中，Claude 多傾向做多，Gemini 並不排斥做空，而千問則更願意借助高槓桿承擔風險。

營運 Intelligent Alpha 的 Doug Clinton 表示：「它們有自己的『個性』，你需要像管理人類分析師那樣去管理它們。」他說，如果讓模型意識到自己表現出某種偏差，結果可以得到改善。Intelligent Alpha 有一個由大語言模型驅動的基金，就 AI 預測企業盈利的表現發佈其自家標準。Intelligent Alpha 的標準為 10 個 AI 模型提供財報申請文件、分析師預測、業績電話會議紀要、宏觀經濟數據以及最多 10 次網絡搜索權限。

由於限制範圍更嚴，大語言模型在這項測試中的表現更為積極。2025 年第四季度，OpenAI 的 ChatGPT 對盈利預測變動方向的判斷準確率達 68%，創下至今最佳成績。Clinton 表示，這些模型通常會隨每次新版本發佈而持續改善。

AI 模型金融交易競賽表現欠佳僅勝六次

AI 交易實驗暴露系統性缺陷

Henderson

搜尋文章

AI 交易實驗暴露系統性缺陷

相關文章

Henderson

搜尋文章