一項在學術界和社交媒體上被廣泛引用的研究,曾被視為證明 ChatGPT 明顯提升學習效果的重要研究,近日被出版方正式撤稿,原因是論文在元分析過程中存在多處「差異」和方法問題,導致結論可信性受到嚴重削弱。 這篇由 Springer Nature 旗下期刊《Humanities & Social Sciences Communications》於 2025 年 5 月發表的論文,試圖整合 51 項研究結果,評估學生在使用與不使用 ChatGPT 情況下的學習表現差異。
論文聲稱,使用 ChatGPT 對「提升學習成績」有「明顯正面影響」,對「改善學習感知」有中等正面影響,並能「促進高階思維能力」。 這項研究發表後迅速在學術與公眾討論中「出圈」。在 Springer Nature 系統內,它已被引用 262 次,整體引用次數超過 500 次,閱讀量接近 50 萬。憑藉在社交媒體上的持續曝光,這篇論文在期刊文章中的關注度位列前百分位,被不少人當作「第一批關於 ChatGPT 有利於學習的證據」來引用和轉述。
方法缺陷引發撤稿
然而,在論文影響力迅速擴散的同時,質疑聲也開始累積,最終促成了此次撤稿。愛丁堡大學數位教育研究中心與 Edinburgh Futures Institute 高級講師本·威廉姆森(Ben Williamson)指出,作者給出的結論極為「吸睛」,宣稱 ChatGPT 能明顯改善學習結果,因此被社交媒體廣泛當作「金標準」證據來播散。他批評這項元分析在整合原始研究時方法令人不安:一方面,它納入了「質量非常低」的研究;另一方面,卻把在方法、研究對象、樣本等方面差異巨大的研究結果硬性拼在一起。
在接受 Ars Technica 採訪時,威廉姆森直言,這看起來是一篇「本不應該被發表」的論文。 時間維度上的爭議也引發了學界的警覺。ChatGPT 在 2022 年底才向公眾開放,留給研究者完成多項高質量、同行評議的實證研究並最終匯總成元分析的時間窗口極其狹窄。威廉姆森認為,在如許短暫的週期內,幾乎不可能產生足以支撐嚴謹元分析的高質量研究,因此這本身就對論文的「樣本基礎」提出了合理性疑問。
除了威廉姆森,其他研究者也早在早期就對這項研究發出了警告。Meaning Processing Ltd. 首席科學家伊爾卡·圖奧米(Ilkka Tuomi)在 LinkedIn 上批評,像這類元分析往往會把實際上不可比的研究結果混在一起,從而基於模稜至不一致的指標得出結論。他提醒,複雜的統計工具很容易營造出一種「高度科學」的錯覺,即便底層數據質量不可靠,最終仍依舊能產出看似可靠的數字和圖表。
伴隨著論文在社交媒體上不斷被轉發,其原文中存在的諸多「限制條件」和研究細節逐漸被忽略,只剩下「ChatGPT 明顯提升學習效果」這類標題式結論在各種播散中反覆出現。威廉姆森指出,這種「只剩口號、沒有上下文」的擴散方式,加劇了公眾對 AI 在教育領域作用的誤判,也削弱了學術界對證據質量的討論空間。他擔心,即便論文已被正式撤稿,此前引用或轉發過它的研究者和媒體也未會留意到這一更新。
這意味著,「ChatGPT 能明顯改善學習表現」這一核心信息可能仍會在許多場合作為既成事實持續流傳。 此次撤稿發生的時間點,也與教育系統圍繞生成式 AI 的熱議高度重合。有些學校和大學仍在設法限制 AI 在作業、考試中的日常使用,特別是防範借助聊天機器人進行「代寫」和作弊;與此同時,科技公司則不斷推出各類「學習助手」「作業輔導」功能,把聊天機器人塑造成新一代學習工具。
與此並行的,還有對「全面數位化課堂」的反思,有國家已重新強調紙質教材與手寫作業的重要性,試圖矯正過度依賴屏幕和線上平台的傾向。 對威廉姆森等研究者來說,這件事帶來的警示並不止於一篇論文本身,而在於它所折射出的整體氛圍。在過去幾年裡,圍繞生成式 AI 的討論往往被「炒作」和樂觀情緒主導,而真正嚴謹、有分證據支撐的研究則明顯不足。他認為,此次撤稿提醒人們:與其急於宣佈「AI 已徹底改變教育」,不如先回答一個更基本的問題——這些工具在具體的教學實踐中,為何、在什麼條件下影響學生和教師的行為與結果。
