近期,來(lái)自清華大學(xué)、上海交通大學(xué)、北京華控智加科技有限公司和華北電力大學(xué)的研究者聯(lián)合發(fā)布首個(gè)多模態(tài)工業(yè)信號(hào)基座模型FISHER,采用搭積木的方法對(duì)異質(zhì)工業(yè)信號(hào)進(jìn)行統(tǒng)一建模。目前技術(shù)報(bào)告和權(quán)重均已開(kāi)源,歡迎使用!
論文鏈接:https://arxiv.org/abs/2507.16696GitHub倉(cāng)庫(kù):https://github.com/jianganbai/FISHER
研究背景
近年來(lái),越來(lái)越多的工業(yè)設(shè)備被安裝上傳感器以監(jiān)控工作狀態(tài)。然而安裝傳感器容易,如何高效分析工業(yè)信號(hào)卻很難,因?yàn)椴煌瑐鞲衅鞑杉墓I(yè)信號(hào)具有極大的異質(zhì)性。本文中,我們將其總結(jié)為M5問(wèn)題:多模態(tài)、多采樣率、多尺度、多任務(wù)和少故障。
受到M5問(wèn)題影響,現(xiàn)有方法大多只分析小范圍的工業(yè)信號(hào),例如基于振動(dòng)的軸承故障診斷,所采用的模型也均為在小數(shù)據(jù)集上訓(xùn)練的小模型。然而這些模型未能發(fā)掘大數(shù)據(jù)訓(xùn)練的優(yōu)勢(shì),也未能利用不同模態(tài)之間的互補(bǔ)性。另一方面,對(duì)于工業(yè)運(yùn)維的每個(gè)子問(wèn)題,都需要單獨(dú)開(kāi)發(fā)和部署專門的模型,大大增加了實(shí)際應(yīng)用的復(fù)雜度。
研究動(dòng)機(jī)
盡管工業(yè)信號(hào)表面上差異大,其內(nèi)在特征和語(yǔ)義信息卻很相似:
語(yǔ)義信息相同:信號(hào)都反映了相同的健康狀態(tài)。產(chǎn)生機(jī)理相似:聲音(鼓膜震動(dòng))和振動(dòng)同根同源。分析手段相似:基本都采用譜分析方法。故障模式相似:設(shè)備由零件組成,不同設(shè)備之間有借鑒性。任務(wù)特征共享:一個(gè)特征向量可表征多個(gè)健康管理任務(wù)。
基于此,我們認(rèn)為是可以使用單一模型對(duì)異質(zhì)工業(yè)信號(hào)進(jìn)行統(tǒng)一建模。由于信號(hào)內(nèi)部存在相似性,通過(guò)scaling,可以讓模型逐漸學(xué)會(huì)這些相似性,進(jìn)而迸發(fā)出更為強(qiáng)大的表征能力,實(shí)現(xiàn)里程碑式提升。由此我們開(kāi)發(fā)了FISHER模型。
FISHER模型介紹
FISHER模型是首個(gè)面向多模態(tài)工業(yè)信號(hào)的基座模型。它以子帶為建模單元,通過(guò)堆積木的方式表征整段信號(hào),可處理任意采樣率的工業(yè)信號(hào)。詳細(xì)介紹如下:
子帶建模
譜分析是語(yǔ)音和信號(hào)分析常用的手段。與語(yǔ)音模型常采用的Mel譜不同的是,F(xiàn)ISHER采用短時(shí)傅里葉變換(STFT)作為信號(hào)輸入特征,這是由于1)故障分量往往出現(xiàn)在高頻2)對(duì)于旋轉(zhuǎn)類機(jī)械,倍頻關(guān)系往往很重要。為保證不同采樣率下時(shí)頻分辨率相同,F(xiàn)ISHER中的STFT采用固定時(shí)長(zhǎng)的窗長(zhǎng)和幀移。
當(dāng)數(shù)據(jù)量增大時(shí),多采樣率是模型必須要應(yīng)對(duì)的問(wèn)題。之前方法將信號(hào)全部重采樣至固定采樣率(例如16kHz),從而丟失了關(guān)鍵的高頻信息,特別是對(duì)于44.1kHz及以上的高帶寬信號(hào)。在FISHER中,我們不再進(jìn)行重采樣,而是利用信號(hào)在不同采樣率下的特點(diǎn)進(jìn)行建模。
如下圖所示,對(duì)同一信號(hào)源使用不同采樣率進(jìn)行觀測(cè)時(shí),共有頻帶基本一致,而高采樣率會(huì)有額外的高頻子帶,也就是說(shuō)高采樣率的增益來(lái)源于更多子帶信息。而另一方面,工業(yè)信號(hào)常見(jiàn)的采樣率有16kHz,32kHz,44.1kHz和48kHz,這些采樣率近似存在公約數(shù)(如2kHz和4kHz),故STFT譜可視作多個(gè)固定寬度子帶的拼接。
因此FISHER采用固定寬度的子帶作為建模單元,將子帶信息用搭積木的方式拼接成整段信號(hào)的表征。具體而言,STFT譜被切分為固定寬度的子帶,每個(gè)子帶被模型單獨(dú)處理。最終的信號(hào)表征是每個(gè)子帶表征的拼接。
模型架構(gòu)
FISHER包括1個(gè)ViTEncoder和1個(gè)CNNDecoder,采用「老師-學(xué)生」自蒸餾預(yù)訓(xùn)練。具體而言,老師Encoder是學(xué)生Encoder的指數(shù)滑動(dòng)平均(EMA),僅學(xué)生Encoder和學(xué)生Decoder具有梯度。切分后的子帶的80%被mask,未被mask的20%送入學(xué)生Encoder,處理后再與被mask部分按原位置拼接,送入學(xué)生Decoder。老師Encoder則輸入整個(gè)子帶,輸出則作為蒸餾的目標(biāo)。自蒸餾過(guò)程分別在[CLS]層次和patch層次進(jìn)行監(jiān)督。預(yù)訓(xùn)練結(jié)束后,僅保留學(xué)生Encoder用于后續(xù)評(píng)估。
我們目前開(kāi)源了FISHER的3個(gè)不同尺寸:tiny(5.5M),mini(10M)和small(22M)。所有模型均在1.7萬(wàn)小時(shí)的混合數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練。
RMIS基準(zhǔn)介紹
為評(píng)估模型在各種健康管理任務(wù)上的性能,我們提出了RMIS基準(zhǔn)。RMIS基準(zhǔn)包含5個(gè)異常檢測(cè)數(shù)據(jù)集和13個(gè)故障診斷數(shù)據(jù)集,涵蓋4個(gè)模態(tài)。這里異常檢測(cè)為正常/異常2分類問(wèn)題,但訓(xùn)練集不包含異常;故障診斷為多分類問(wèn)題,訓(xùn)練集和測(cè)試集均包含所有類別。為檢驗(yàn)?zāi)P凸逃械男阅埽P驮谒袛?shù)據(jù)集上均使用相同的KNN配置進(jìn)行推斷,不進(jìn)行微調(diào)。
實(shí)驗(yàn)結(jié)果
我們先在RMIS基準(zhǔn)上對(duì)常見(jiàn)預(yù)訓(xùn)練模型進(jìn)行篩選,然后采用5個(gè)最好的模型作為基線,涵蓋了5M到1.2B的多個(gè)尺寸。由于語(yǔ)音模型的效果普遍偏差,故我們并未對(duì)比。
基準(zhǔn)得分
在RMIS基準(zhǔn)上,F(xiàn)ISHER的3個(gè)版本分別較基線至少提升了3.91%,4.34%和5.03%,展現(xiàn)出強(qiáng)大的泛化能力。按任務(wù)分析,在異常檢測(cè)任務(wù)上,F(xiàn)ISHER僅略低于BEATs;而在故障診斷任務(wù)上,F(xiàn)ISHER大幅超過(guò)BEATs在內(nèi)的所有基線,這主要得益于FISHER能利用完整的頻帶,而基線模型只能利用到16kHz。此外,目前開(kāi)源的FISHER模型最大也只有22M,遠(yuǎn)小于基線常見(jiàn)的90M。
Scaling效果
上圖對(duì)比了各個(gè)模型的RMIS得分隨模型大小變化的曲線??梢钥吹紽ISHER的曲線遠(yuǎn)高于基線系統(tǒng)的曲線,即使是最小的FISHER-tiny也能超過(guò)所有基線系統(tǒng)。這說(shuō)明FISHER的預(yù)訓(xùn)練模式更優(yōu)越,scaling更有效。
另一方面,我們觀察到100M似乎是scaling曲線的分界點(diǎn)。我們猜測(cè)這是由于工業(yè)信號(hào)重復(fù)度較高,現(xiàn)有大規(guī)模數(shù)據(jù)集中的工業(yè)信號(hào)去重后至多支持100M模型的訓(xùn)練。因此訓(xùn)練信號(hào)基座模型時(shí),數(shù)據(jù)的配比需要增大,數(shù)據(jù)清洗將是scalingup的關(guān)鍵。此外,考慮到FISHER的成功,Test-TimeScaling似乎也是可行的方向。
變切分比
對(duì)于12個(gè)不提供官方切分的數(shù)據(jù)集,我們首先繪制了模型在變切分比場(chǎng)景下的工作曲線,然后估計(jì)了曲線下面積。如上表所示,F(xiàn)ISHER具有最大的曲線下面積,說(shuō)明其在變切分比場(chǎng)景下依舊具有卓越的性能。
扒一扒長(zhǎng)坂坡之戰(zhàn)!劉備攜民渡江,到底是偽君子還是真英雄?
劉備是一個(gè)偽君子,還是一個(gè)真英雄?
劉備到底是真英雄還是“影帝”?
免責(zé)聲明:本文內(nèi)容由開(kāi)放的智能模型自動(dòng)生成,僅供參考。