現代人工智能系統成功通過圖靈測試,顯示出其擬人化能力

加州大學聖地牙哥分校的研究人員發表了首個經過實證的同行評審證據,證明現代人工智能系統能夠通過圖靈測試。該測試是英國數學家艾倫·圖靈於 1950 年提出的經典基準,旨在判斷機器是否能進行如此可信的對話,以至於人們無法可靠地將其與真正的人類區分開來。在一系列受控的隨機實驗中,近 500 名參與者進行了簡短的文本對話,並被要求識別兩位聊天夥伴中誰是人類。GPT-4.5 被選為人類的比例達到 73%,這意味著審問者選擇它作為真實的人類的次數顯著高於實際坐在聊天窗口另一側的人類。

測試的設置模擬了圖靈的原始框架。每位審問者面對一個分屏,與兩方同時聊天——一方是真人,另一方是人工智能,持續五至十五分鐘,然後決定誰是誰。研究人員建立了一個自定義的在線接口,使其感覺像是一個熟悉的消息應用程序。四種模型被測試:GPT-4.5 和 LLaMa-3.1-405B 作為尖端系統,而 GPT-4o 和 ELIZA——一個基於規則的 1960 年代聊天機器人——則作為較舊的基準進行比較。

為了確認結果在不同人羣中的一致性,該研究使用了兩個獨立的羣體:加州大學聖地牙哥分校的本科生和通過 Prolific 招募的更廣泛的在線樣本。LLaMa-3.1-405B 被判定為人類的比例為 56%,在統計上與其競爭的真實人類無法區分。相比之下,較舊系統的表現則差得多:ELIZA 僅被選為人類 23%的時間,而 GPT-4o 則為 21%。

GPT-4.5 在圖靈測試中的表現超越其他模型

測試的通過與失敗之間的差距歸因於指令。每個大型語言模型(LLM)都收到一個角色提示,要求其採用特定的人類角色和溝通風格。GPT-4.5 被指示表現為一位安靜、熟悉互聯網的年輕人,使用休閒俚語並偶爾犯人類風格的錯誤。沒有這些指令的情況下,性能大幅下降。GPT-4.5 在沒有角色提示的情況下勝率降至 36%,而 LLaMa-3.1 則降至 38%。那些在指導下成功通過測試的模型在沒有指導的情況下無法重複該表現。

這些模型的成功並不是因為它們展現了超越的智慧,對此,主要作者卡梅隆·瓊斯(Cameron Jones)——現任聖尼古拉斯大學心理學助理教授——解釋道。它們之所以成功,是因為它們犯了類似人類的錯誤。

共同作者、本科生的認知科學教授本·伯根(Ben Bergen)直言不諱:這些模型擁有表現得像人類的能力,但顯然缺乏自行理解如何做到這一點的能力。該研究迫使人們重新考慮 2025 年圖靈測試究竟測量了什麼。當初,該基準詢問機器是否能與人類智力相抗衡。而現在,隨著人工智能能夠比人類更快、更準確地回答大多數問題,這一測試越來越多地測量的是人類的相似性——即社交、情感和對話模仿的能力,而非純粹的認知能力。

這一變化具有不安的現實意義。瓊斯指出,這些通過測試的模型在五至十五分鐘的長時間對話中表現出色,而不是簡短的交流,使得詐騙更具可信度。他表示:“相對而言,促使這些模型無法被區分為人類是相當容易的。”他補充説:“當您在線與陌生人互動時,人們應該對自己是否在與人類交談的判斷要更加謹慎。”

人工智能的社交模仿能力引發的風險

伯根補充道,這一問題的風險超出了好奇心:惡意行為者已經可以使用機器人足夠逼真地模仿人類,以提取個人信息、影響政治觀點和推動商業行為——這些工具,按照《國家科學院院刊》的結果,現在已經穩固地在廣泛可用的人工智能模型的範疇之內。該研究首次發表於《國家科學院院刊》期刊。

📬 免費訂閱 TechRitual 科技精選

按「免費訂閱」即同意收到 TechRitual 嘅科技資訊及優惠。可隨時取消訂閱。

Henderson
Henderson

Henderson 是 TechRitual Hong Kong 科技編輯,專注報導智能手機、消費電子產品、SIM 卡及流動通訊市場。自加入 TechRitual 以來,累計撰寫數千篇科技報導及產品評測,內容同步發佈至 SINA 及 Yahoo Tech 等主要平台。