麻省理工學院(MIT)及 Empirical Health 的研究人員最新發表的研究利用了 300 萬人日的 Apple Watch 數據,開發了一個能準確預測醫療狀況的基礎模型。以下是詳細資訊。
在背景方面,Yann LeCun 在擔任 Meta 首席 AI 科學家期間,提出了聯合嵌入預測架構(Joint-Embedding Predictive Architecture,簡稱 JEPA),其基本理念是讓 AI 理解缺失數據的意義,而非僅僅分析數據本身。換句話說,當數據出現缺口時,模型學習預測缺失部分所代表的內容,而不是試圖重建其精確值。
例如,在一幅圖片中,某些區域被遮擋而其他區域可見,JEPA 會將可見和遮擋的區域嵌入到一個共享空間中,並讓模型根據可見的上下文推斷遮擋區域的表徵,而不是隱藏部分的具體內容。Meta 在 2023 年發佈一個名為 I-JEPA 的模型時表示,LeCun 的這一新架構旨在克服當前最先進 AI 系統的主要限制。
LeCun 設想創造能學習世界運作內部模型的機器,從而能更快地學習、計劃複雜任務以及適應未知情況。自 LeCun 原始的 JEPA 研究發表以來,這一架構已成為探索「世界模型」的基礎,這與 LLM 和基於 GPT 的系統專注於標記預測的方式有所不同。
回到本研究,幾個月前發表的論文《JETS:自我監督聯合嵌入時間序列基礎模型用於醫療行為數據》最近獲得 NeurIPS 研討會的接納。該研究將 JEPA 的聯合嵌入方法應用於不規則的多變量時間序列數據,例如心率、睡眠、活動等測量數據在時間上不規則或存在大間隔的長期可穿戴數據。
根據研究,該研究利用了一個包含 16,522 名個體的可穿戴設備數據的長期數據集,總計約 300 萬人日。每位個體每天或更高頻率記錄 63 個不同的時間序列指標,這些指標分為五個生理和行為領域:心血管健康、呼吸健康、睡眠、身體活動和一般統計。
有趣的是,只有 15% 的參與者有標記的醫療歷史用於評估,這意味著 85% 的數據在傳統的監督學習方法中將無法使用。相反,JETS 首先通過自我監督的預訓練從完整數據集中學習,然後在標記的子集上進行微調。
為了使整個過程有效,他們將觀察數據組成三元組,即日、值和指標類型。這使得他們能夠將每次觀察轉換為標記,然後經過屏蔽處理後進行編碼,最後通過預測器進行預測。完成後,研究人員將 JETS 與其他基準模型進行比較,並使用 AUROC 和 AUPRC 兩項標準指標評估模型在區分正負案例方面的表現。
JETS 在高血壓的 AUROC 為 86.8%,心房顫動為 70.5%,慢性疲勞綜合症為 81%,病態竇綜合症亦為 86.8%。雖然未必每次都能取勝,但其優勢十分明顯。
值得一提的是,AUROC 和 AUPRC 不是嚴格的準確度指標,而是顯示模型在排名或優先考慮可能案例方面的能力,而非預測正確的頻率。整體而言,這項研究提出了一種有趣的方法,旨在最大化看似不完整或不規則數據的洞察力和潛在的生命拯救能力。
在某些情況下,健康指標的記錄頻率僅為 0.4%,而其他指標則在 99% 的日常讀數中出現。該研究也強調了新型模型和訓練技術在探索 Apple Watch 等常見可穿戴設備所收集數據方面的潛力,即便這些設備並非 100% 時間都被佩戴。




