Google 最近宣布正在測試一款名為 Scholar Labs 的新型 AI 驅動搜索工具,旨在回答詳細的研究問題。然而,此次展示引發了一個更大的問題:如何找到「優質」的科學研究。科學家們會多大程度上信任這種放棄傳統評估研究受歡迎程度的工具,而是專注於詞語之間的關係來幫助篩選出好的研究?
這款新工具利用 AI 來識別用戶查詢中的主要主題和關係,並且目前僅對少數登錄用戶開放。Scholar Labs 的演示視頻中提到了一個關於腦-計算機接口(BCI)的問題。作為一名擁有 BCI 博士學位的研究者,筆者非常期待 Scholar Labs 所提供的結果。
第一個結果是一篇於 2024 年在名為《Applied Sciences》的期刊上發表的 BCI 研究綜述文章。Scholar Labs 解釋了為何這些結果符合查詢,因此指出該論文討論了一種稱為腦電圖的非侵入性信號,並對該領域的一些主要算法進行了調查。
然而,筆者注意到 Scholar Labs 缺乏用於區分「優質」研究和「不太優質」研究的常見指標。例如,研究發表後被其他研究引用的次數,這大致上反映了論文的受歡迎程度。這也與時間有關:最近發表的研究可能會有零次引用,或在幾個月內獲得數百次引用;而 90 年代的研究則可能擁有數千次引用。另一個指標是科學期刊的「影響因子」。發表廣泛被引用研究的期刊通常擁有較高的影響因子,因此在科學界享有更高的聲譽。《Applied Sciences》自報的影響因子為 2.5,而《Nature》的影響因子為 48.5。
原版 Google Scholar 提供按「相關性」排名研究的選項,並列出每個結果的引用次數。Google 發言人 Lisa Oguike 告訴《The Verge》,新款 Scholar Labs 的目標是挖掘「對用戶研究需求最有用的論文」,其排序方式類似於研究者本身的評估,即「權衡每篇文檔的全文、發表地點、作者以及在其他學術文獻中引用的頻率和最近性」。
不過,Oguike 提到,新款 Scholar Labs 不會根據論文的引用次數或期刊的影響因子來排序或限制結果。
Oguike 表示:「影響因子和引用次數取決於論文的研究領域,對大多數用戶來說,在特定研究問題的背景下,通常難以猜測合適的值。限制影響因子或引用次數可能會錯過關鍵論文,特別是跨學科或新發表的文章。」
尼瓦達大學醫學中心的神經學副教授 Matthew Schrag 在接受《The Verge》訪問時表示,引用次數和影響因子是「對論文質量的相當粗略的評估」,這與論文的社會背景關聯更大,而非其質量,雖然這兩者之間希望是相關的。
Schrag 是許多對已發表科學研究中可疑數據進行偵查的科學家之一。像 Schrag 這樣的數據偵查者所作的努力,以及科學界的更密切關注,已導致一些研究因圖像造假而被撤回,甚至出現諾貝爾獎獲得者發佈的更正,並且涉及聯邦對偽造數據的調查。
儘管如此,在進入新的領域時,依然很難不使用引用次數或期刊的聲譽來隨意評估一項研究。塔夫茨大學的康復科學教授 James Smoliga,作為 Google Scholar 的頻繁用戶,認為高度被引用的論文更可靠。他承認自己也會這樣想,儘管他曾揭穿過一項擁有數千次引用的研究的研究方法。「我和其他人一樣,都是這樣的情況。」他表示,儘管他知道這並不正確,但仍然會陷入這種思維困境,因為還能做什麼呢?
筆者在 PubMed 中重複了有關中風患者 BCI 研究的 Scholar Labs 演示查詢。PubMed 是由美國國立衛生研究院的國家醫學圖書館運營的生物醫學和健康研究的主要資料庫。與 Scholar Labs 不同,PubMed 廣泛依賴與「或」和「與」相關的過濾器和術語。我將結果範圍縮小到僅包含過去五年內進行的臨床研究綜述文章,並排除了未經其他科學家審查的預印本。六個結果中有兩個專注於腦電圖作為幫助中風患者的主要非侵入性 BCI。
用戶可以在查詢中要求「最近」的論文並指定時間範圍,Oguike 補充道,Scholar Labs 利用「研究論文的全文」來尋找符合用戶查詢的結果。
Google 將 Scholar Labs 描述為一個創新的研究工具,旨在提升學術研究的質量和可及性,儘管其在評估研究質量的方法上引發了討論和關注。