根據Apple最近發佈的一項研究,他們訓練了一個人工智能模型來識別一些不在原始訓練數據集中的手勢。這項研究名為《EMBridge: Enhancing Gesture Generalization from EMG Signals through Cross-Modal Representation Learning》,將於2026年4月的ICLR會議上發表。研究人員解釋了如何對人工智能模型進行訓練,以便能夠識別特定的手勢,即使這些手勢並不在原始數據集中。
為了達成這個目標,他們開發了EMBridge,這是一個跨模態表示學習框架,旨在縮小肌電圖(EMG)和姿勢之間的模態差距。EMG是指測量肌肉在收縮過程中產生的電活動,其實際應用範圍包括醫療診斷、物理治療和假肢控制。近年來,這一技術在可穿戴設備和AR/VR系統中的應用也逐漸受到關注。
例如,Meta的Ray-Ban Display眼鏡就採用了EMG技術,該技術以Meta所謂的神經帶(Neural Band)形式存在,這是一種佩戴在手腕上的設備,可以解讀肌肉信號以操控Ray-Ban Display的功能。Apple的研究中,用於訓練的EMG信號不是通過手腕設備檢測的,而是使用了兩個數據集:emg2pose和NinaPro DB2。
| 數據集 | 描述 |
|---|---|
| emg2pose | 大型開源EMG數據集,包含370小時的sEMG和對應的手部姿勢數據,涵蓋193名用戶和29個行為組別,包含各種手勢動作。 |
| NinaPro DB2 | 包含40名健康受試者的配對EMG-姿勢數據,共49種手勢,透過12個電極在前臂上以2 kHz的採樣率錄製。 |
在這項研究中,研究人員在每個手勢類別下對每位用戶進行了四次錄製,每次持續45至120秒,並重複進行3至5個相似手勢或自由形式的動作。這些數據的結構設計使得模型能夠從EMG信號中識別手勢模式。
EMBridge的開發旨在縮小實際EMG肌肉信號和結構化手勢數據之間的差距。這個模型最初在EMG和手勢數據上分別進行預訓練,然後將兩者對齊,以便EMG編碼器能夠向姿勢編碼器學習,從而使EMBridge能夠識別來自EMG信號的手勢模式。
值得注意的是,這項研究指出,EMBridge在零樣本手勢分類方面顯示出其潛力,這意味著它可以在未見過的手勢上進行識別。研究人員發現,該模型在多個基準測試中表現出色,特別是在零樣本手勢識別中,並且僅使用了40%的訓練數據。
儘管如此,研究中也提到了一項限制,即模型依賴於包含EMG信號和同步手勢數據的數據集,這意味著其訓練仍然依賴於專門的數據集,這些數據集的收集可能並不容易。隨著基於EMG的設備控制技術愈加受到重視,這項研究的結果顯得特別引人注目。




