想象一下,你無(wú)需觸碰任何設(shè)備,只需一個(gè)微小的手腕動(dòng)作,憑空比劃幾下,就能與身邊的電腦、手機(jī)、智能眼鏡無(wú)縫交互。
Meta公司的RealityLabs,在最新發(fā)表于《自然》(Nature)雜志的論文中,帶來(lái)了一項(xiàng)新成果:一種通用的非侵入性神經(jīng)運(yùn)動(dòng)接口,與腕帶結(jié)合后,就能讓這種“意念控制”成為現(xiàn)實(shí)。
圖|論文標(biāo)題(來(lái)源:Meta論文)
長(zhǎng)期以來(lái),人類在追求更高效、更直觀的計(jì)算機(jī)輸入方式上從未止步。然而,無(wú)論是鍵盤、鼠標(biāo)還是觸摸屏,都不可避免地需要用戶與物理設(shè)備進(jìn)行直接互動(dòng),這在移動(dòng)場(chǎng)景下往往顯得笨拙不便。
而依賴攝像頭或慣性傳感器的手勢(shì)系統(tǒng),則容易受制于遮擋或光線不足等環(huán)境因素。
為了破除這些限制,直接從人體讀取信號(hào)的腦機(jī)接口(brain–computerinterfaces)和神經(jīng)運(yùn)動(dòng)接口(neuromotorinterfaces)成為了熱門研究領(lǐng)域。
Meta團(tuán)隊(duì)此次將目光投向了一種非侵入性神經(jīng)運(yùn)動(dòng)接口:基于表面肌電圖(sEMG,surfaceelectromyography)的技術(shù)。
簡(jiǎn)單來(lái)說(shuō),就是通過(guò)讀取肌肉產(chǎn)生的電信號(hào)來(lái)理解人體的運(yùn)動(dòng)指令。
圖|SEMG腕帶系統(tǒng)示意圖(來(lái)源:Meta)
Meta早在多年前就開始著手研究這項(xiàng)技術(shù)。2021年,該公司組建了一個(gè)團(tuán)隊(duì),其中包括論文作者之一托馬斯·里爾登(ThomasReardon)——他于2019年加入RealityLabs,擔(dān)任神經(jīng)運(yùn)動(dòng)界面主管,主導(dǎo)開發(fā)了一款基于肌電圖的手勢(shì)控制裝置原型。
這些肌電信號(hào),實(shí)際上是運(yùn)動(dòng)單位動(dòng)作電位(MUAPs,MotorUnitActionPotentials)的總和,它們就像是中央神經(jīng)系統(tǒng)發(fā)出的微電流指令,可以透過(guò)皮膚,為我們展現(xiàn)大腦如何控制肌肉。
與腦電圖相比,SEMG信號(hào)具有更高的信噪比,這意味著它能更清晰地捕捉到肌肉的微弱活動(dòng),從而實(shí)現(xiàn)實(shí)時(shí)的單次手勢(shì)解碼。
同時(shí),SEMG信號(hào)不受遮擋、光照不足或微小動(dòng)作的困擾,天然適用于人機(jī)交互應(yīng)用。
(來(lái)源:Meta)
基于此,Meta研究團(tuán)隊(duì)開發(fā)并部署了一款非侵入式硬件,像腕帶一樣的SEMG研究設(shè)備(SEMG-RD),用于在手腕處記錄SEMG信號(hào)。
之所以選擇手腕作為佩戴位置,是因?yàn)槿祟愔饕ㄟ^(guò)手部與世界互動(dòng),且手腕能廣泛覆蓋手部、腕部和前臂肌肉的SEMG信號(hào)。
腕帶是無(wú)線的,并能適應(yīng)不同解剖結(jié)構(gòu)和環(huán)境,僅需幾秒鐘即可完成佩戴或摘除。它通過(guò)藍(lán)牙傳輸數(shù)據(jù),續(xù)航在4小時(shí)左右。
除了硬件設(shè)備,研究團(tuán)隊(duì)還創(chuàng)建了一個(gè)可擴(kuò)展的、大規(guī)模數(shù)據(jù)收集基礎(chǔ)設(shè)施。他們從數(shù)千名參與者那里收集了大量的訓(xùn)練數(shù)據(jù),幫助他們開發(fā)出了能夠跨個(gè)體泛化的通用SEMG解碼模型。
圖|三種實(shí)驗(yàn)任務(wù)(來(lái)源:Meta)
實(shí)驗(yàn)設(shè)計(jì)中包含了三類核心計(jì)算機(jī)交互任務(wù):一維連續(xù)導(dǎo)航(類似于激光筆控制)、離散手勢(shì)檢測(cè)(手指捏合、拇指輕掃)和手寫轉(zhuǎn)錄。參與者佩戴SEMG腕帶,并根據(jù)計(jì)算機(jī)屏幕上的提示執(zhí)行相應(yīng)的動(dòng)作。
為了將SEMG信號(hào)轉(zhuǎn)換為計(jì)算機(jī)指令,研究人員架構(gòu)并部署了基于深度神經(jīng)網(wǎng)絡(luò)的解碼模型。
針對(duì)不同的任務(wù),模型采用了不同的處理技術(shù)和網(wǎng)絡(luò)架構(gòu):腕部任務(wù)采用多變量功率頻率(MPF,MultivariatePowerFrequency)特征和長(zhǎng)短期記憶(LSTM,LongShort-termMemory)層,離散手勢(shì)任務(wù)采用一維卷積層后接LSTM層,手寫任務(wù)采用MPF特征和Conformer架構(gòu)。
此外,研究團(tuán)隊(duì)還開發(fā)了時(shí)間對(duì)齊算法,以解決提示標(biāo)簽與實(shí)際手勢(shì)時(shí)間可能存在的偏差,從而提高模型訓(xùn)練的精度。
圖|SEMG腕帶(來(lái)源:Meta)
Meta團(tuán)隊(duì)通過(guò)離線和在線(閉環(huán))兩種方式對(duì)SEMG解碼模型的性能進(jìn)行了評(píng)估。
離線評(píng)估數(shù)據(jù)顯示,SEMG-RD平臺(tái)在手寫和手勢(shì)檢測(cè)任務(wù)中,對(duì)未參與訓(xùn)練的測(cè)試參與者實(shí)現(xiàn)了超過(guò)90%的分類準(zhǔn)確率。在腕部角度速度解碼任務(wù)中,誤差低于13°s-1。
研究指出,單個(gè)參與者模型在跨會(huì)話和跨用戶泛化方面存在挑戰(zhàn),同一參與者在不同會(huì)話間的模型性能隨著訓(xùn)練數(shù)據(jù)的增加而改善。但跨參與者泛化能力仍然受限,即使增加訓(xùn)練數(shù)據(jù)也僅能帶來(lái)輕微改善。
這突顯了采用大規(guī)模、多樣化數(shù)據(jù)集訓(xùn)練通用模型的必要性。
模型性能顯示出與訓(xùn)練數(shù)據(jù)量和模型規(guī)模的冪律關(guān)系,這與大型語(yǔ)言模型和視覺(jué)Transformer的研究發(fā)現(xiàn)一致。隨著訓(xùn)練參與者數(shù)量的增加,所有任務(wù)的解碼錯(cuò)誤率均呈現(xiàn)下降趨勢(shì)。
在線(閉環(huán))評(píng)估數(shù)據(jù)則直接反映了模型作為計(jì)算機(jī)接口的實(shí)際可行性。評(píng)估對(duì)象為之前沒(méi)有SEMG解碼器使用經(jīng)驗(yàn)的初次用戶。
圖|三種閉環(huán)任務(wù)示意圖(來(lái)源:Meta)
在腕部連續(xù)控制任務(wù)中,用戶實(shí)現(xiàn)了每秒0.66個(gè)目標(biāo)獲取的閉環(huán)中位數(shù)性能。在離散手勢(shì)任務(wù)中,系統(tǒng)實(shí)現(xiàn)了每秒0.88次手勢(shì)檢測(cè)的中位數(shù)性能。在手寫輸入功能上,用戶實(shí)現(xiàn)了每分鐘20.9個(gè)單詞(WPM,WordsPerMinute)的中位數(shù)性能。
與傳統(tǒng)交互設(shè)備相比,如MacBook觸摸板的平均獲取時(shí)間為0.68秒、任天堂Joy-Con游戲控制器的中位數(shù)手勢(shì)完成率為1.45次/秒、無(wú)筆手寫的速度為25.1WPM,SEMG解碼器的絕對(duì)性能目前仍有差距。
然而,該接口的優(yōu)勢(shì)在于不依賴手持設(shè)備或外部?jī)x器,這在特定使用場(chǎng)景下具有幾乎無(wú)法替代的價(jià)值。研究團(tuán)隊(duì)還觀察到,參與者在實(shí)踐中會(huì)不斷進(jìn)步,適當(dāng)?shù)闹笇?dǎo)和練習(xí)有助于用戶適應(yīng)腕帶并提高任務(wù)表現(xiàn)。
進(jìn)一步的模型個(gè)性化探索表明,即使在通用模型表現(xiàn)良好的情況下,通過(guò)短時(shí)間額外的個(gè)性化數(shù)據(jù)(例如20分鐘)微調(diào)模型,仍能進(jìn)一步提升性能。
以手寫任務(wù)為例,即使通用模型已經(jīng)用6400名參與者的數(shù)據(jù)進(jìn)行了訓(xùn)練,但只要再加入短短20分鐘的個(gè)性化數(shù)據(jù),就能讓中位數(shù)性能再提高16%。
個(gè)性化對(duì)那些通用模型表現(xiàn)相對(duì)較差的參與者,帶來(lái)了更大的相對(duì)增益,有效解決了用戶性能的長(zhǎng)尾效應(yīng)。
為了深入理解離散手勢(shì)解碼器神經(jīng)網(wǎng)絡(luò)的內(nèi)部工作機(jī)制,研究人員分析了其學(xué)習(xí)到的表示。網(wǎng)絡(luò)架構(gòu)包含一個(gè)一維卷積層和三個(gè)循環(huán)LSTM層。
研究發(fā)現(xiàn),第一層卷積層的濾波器在時(shí)空特征上與肌肉MUAPs具有相似性。這表明模型在較低層次學(xué)習(xí)了與肌肉電生理活動(dòng)相關(guān)的基礎(chǔ)模式。
(來(lái)源:Meta)
進(jìn)一步分析LSTM層的表示發(fā)現(xiàn),隨著網(wǎng)絡(luò)深度的增加,手勢(shì)類別信息在表示空間中變得更加可分離,而與參與者身份、腕帶放置位置和手勢(shì)激發(fā)的SEMG功率等“干擾變量”相關(guān)的表示則逐漸解耦或保持不變。
這意味著網(wǎng)絡(luò)通過(guò)學(xué)習(xí),逐漸將SEMG信號(hào)的表示塑造成對(duì)這些“干擾變量”更加不變的形式,從而提高了手勢(shì)識(shí)別的穩(wěn)健性。
Meta研究團(tuán)隊(duì)指出,這項(xiàng)技術(shù)為未來(lái)人機(jī)交互開啟了多種可能性。
首先,SEMG解碼器能夠直接檢測(cè)手勢(shì)的力度,這是現(xiàn)有攝像頭或操縱桿控制無(wú)法實(shí)現(xiàn)的功能。未來(lái)用戶可能通過(guò)“意念”來(lái)控制設(shè)備的力度,例如通過(guò)輕微的肌肉收縮來(lái)微調(diào)音量,而通過(guò)更強(qiáng)的收縮則實(shí)現(xiàn)快速靜音。
其次,盡管目前研究主要展示了一維連續(xù)控制,但通過(guò)添加更多仿生映射,例如利用手腕的尺側(cè)/橈側(cè)偏離來(lái)控制垂直方向,實(shí)現(xiàn)多自由度聯(lián)合控制是完全可能的。
此外,SEMG-RD平臺(tái)及其配套軟件,還可用于研究神經(jīng)反饋對(duì)運(yùn)動(dòng)單位活動(dòng)的影響,從而探索新穎的“人機(jī)共生”交互模式,甚至支持人們學(xué)習(xí)新的運(yùn)動(dòng)技能。
最后,在臨床領(lǐng)域,這種只需最小肌肉活動(dòng)而非特定動(dòng)作的交互設(shè)計(jì),有望為那些運(yùn)動(dòng)能力受限、肌肉無(wú)力或失去肢體的人提供可行的交互方案,并促進(jìn)有效的閉環(huán)神經(jīng)康復(fù)范式的發(fā)展。
雖然該研究在解決SEMG系統(tǒng)長(zhǎng)期面臨的泛化和校準(zhǔn)問(wèn)題上取得了進(jìn)展,但仍存在局限性和進(jìn)步空間。
例如,與傳統(tǒng)的、成熟的人機(jī)交互方法相比,SEMG系統(tǒng)的絕對(duì)性能較弱,學(xué)習(xí)曲線較為陡峭。此外,該研究主要面對(duì)的是健康人群,訓(xùn)練結(jié)果能否泛化到行動(dòng)不便人群仍未可知。這或許會(huì)限制它在臨床、無(wú)障礙方面的用途。
為了更好地推動(dòng)SEMG的相關(guān)研究,研究團(tuán)隊(duì)公開了1060份來(lái)自300名參與者的SEMG記錄數(shù)據(jù)以及相關(guān)的代碼。
研究人員表示,他們未來(lái)的工作將關(guān)注用戶熟練度提升、模型優(yōu)化(包括個(gè)性化)、后處理技術(shù)和硬件傳感性能的改進(jìn)。
參考資料:
Kaifosh,P.,Reardon,T.R.&CTRL-labsatRealityLabs.Agenericnon-invasiveneuromotorinterfaceforhuman-computerinteraction.Nature(2025).https://doi.org/10.1038/s41586-025-09255-w
https://newatlas.com/wearables/meta-mouse-keyboard-bracelet-semg-rd/
運(yùn)營(yíng)/排版:何晨龍
必須打卡的小說(shuō),《九天神皇》堪稱寶藏,必看!
顛覆認(rèn)知的神作《九天神皇》,主角手段了得,值得收藏!??男生小說(shuō)...
4本玄幻小說(shuō),《九天神皇》天驕無(wú)數(shù),《九幽天帝》更是火爆