近期,來自清華大學(xué)、上海交通大學(xué)、北京華控智加科技有限公司和華北電力大學(xué)的研究者聯(lián)合發(fā)布首個多模態(tài)工業(yè)信號基座模型FISHER,采用搭積木的方法對異質(zhì)工業(yè)信號進(jìn)行統(tǒng)一建模。目前技術(shù)報告和權(quán)重均已開源,歡迎使用!
論文鏈接:https://arxiv.org/abs/2507.16696GitHub倉庫:https://github.com/jianganbai/FISHER
研究背景
近年來,越來越多的工業(yè)設(shè)備被安裝上傳感器以監(jiān)控工作狀態(tài)。然而安裝傳感器容易,如何高效分析工業(yè)信號卻很難,因為不同傳感器采集的工業(yè)信號具有極大的異質(zhì)性。本文中,我們將其總結(jié)為M5問題:多模態(tài)、多采樣率、多尺度、多任務(wù)和少故障。
受到M5問題影響,現(xiàn)有方法大多只分析小范圍的工業(yè)信號,例如基于振動的軸承故障診斷,所采用的模型也均為在小數(shù)據(jù)集上訓(xùn)練的小模型。然而這些模型未能發(fā)掘大數(shù)據(jù)訓(xùn)練的優(yōu)勢,也未能利用不同模態(tài)之間的互補(bǔ)性。另一方面,對于工業(yè)運(yùn)維的每個子問題,都需要單獨(dú)開發(fā)和部署專門的模型,大大增加了實(shí)際應(yīng)用的復(fù)雜度。
研究動機(jī)
盡管工業(yè)信號表面上差異大,其內(nèi)在特征和語義信息卻很相似:
語義信息相同:信號都反映了相同的健康狀態(tài)。產(chǎn)生機(jī)理相似:聲音(鼓膜震動)和振動同根同源。分析手段相似:基本都采用譜分析方法。故障模式相似:設(shè)備由零件組成,不同設(shè)備之間有借鑒性。任務(wù)特征共享:一個特征向量可表征多個健康管理任務(wù)。
基于此,我們認(rèn)為是可以使用單一模型對異質(zhì)工業(yè)信號進(jìn)行統(tǒng)一建模。由于信號內(nèi)部存在相似性,通過scaling,可以讓模型逐漸學(xué)會這些相似性,進(jìn)而迸發(fā)出更為強(qiáng)大的表征能力,實(shí)現(xiàn)里程碑式提升。由此我們開發(fā)了FISHER模型。
FISHER模型介紹
FISHER模型是首個面向多模態(tài)工業(yè)信號的基座模型。它以子帶為建模單元,通過堆積木的方式表征整段信號,可處理任意采樣率的工業(yè)信號。詳細(xì)介紹如下:
子帶建模
譜分析是語音和信號分析常用的手段。與語音模型常采用的Mel譜不同的是,F(xiàn)ISHER采用短時傅里葉變換(STFT)作為信號輸入特征,這是由于1)故障分量往往出現(xiàn)在高頻2)對于旋轉(zhuǎn)類機(jī)械,倍頻關(guān)系往往很重要。為保證不同采樣率下時頻分辨率相同,F(xiàn)ISHER中的STFT采用固定時長的窗長和幀移。
當(dāng)數(shù)據(jù)量增大時,多采樣率是模型必須要應(yīng)對的問題。之前方法將信號全部重采樣至固定采樣率(例如16kHz),從而丟失了關(guān)鍵的高頻信息,特別是對于44.1kHz及以上的高帶寬信號。在FISHER中,我們不再進(jìn)行重采樣,而是利用信號在不同采樣率下的特點(diǎn)進(jìn)行建模。
如下圖所示,對同一信號源使用不同采樣率進(jìn)行觀測時,共有頻帶基本一致,而高采樣率會有額外的高頻子帶,也就是說高采樣率的增益來源于更多子帶信息。而另一方面,工業(yè)信號常見的采樣率有16kHz,32kHz,44.1kHz和48kHz,這些采樣率近似存在公約數(shù)(如2kHz和4kHz),故STFT譜可視作多個固定寬度子帶的拼接。
因此FISHER采用固定寬度的子帶作為建模單元,將子帶信息用搭積木的方式拼接成整段信號的表征。具體而言,STFT譜被切分為固定寬度的子帶,每個子帶被模型單獨(dú)處理。最終的信號表征是每個子帶表征的拼接。
模型架構(gòu)
FISHER包括1個ViTEncoder和1個CNNDecoder,采用「老師-學(xué)生」自蒸餾預(yù)訓(xùn)練。具體而言,老師Encoder是學(xué)生Encoder的指數(shù)滑動平均(EMA),僅學(xué)生Encoder和學(xué)生Decoder具有梯度。切分后的子帶的80%被mask,未被mask的20%送入學(xué)生Encoder,處理后再與被mask部分按原位置拼接,送入學(xué)生Decoder。老師Encoder則輸入整個子帶,輸出則作為蒸餾的目標(biāo)。自蒸餾過程分別在[CLS]層次和patch層次進(jìn)行監(jiān)督。預(yù)訓(xùn)練結(jié)束后,僅保留學(xué)生Encoder用于后續(xù)評估。
我們目前開源了FISHER的3個不同尺寸:tiny(5.5M),mini(10M)和small(22M)。所有模型均在1.7萬小時的混合數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練。
RMIS基準(zhǔn)介紹
為評估模型在各種健康管理任務(wù)上的性能,我們提出了RMIS基準(zhǔn)。RMIS基準(zhǔn)包含5個異常檢測數(shù)據(jù)集和13個故障診斷數(shù)據(jù)集,涵蓋4個模態(tài)。這里異常檢測為正常/異常2分類問題,但訓(xùn)練集不包含異常;故障診斷為多分類問題,訓(xùn)練集和測試集均包含所有類別。為檢驗?zāi)P凸逃械男阅埽P驮谒袛?shù)據(jù)集上均使用相同的KNN配置進(jìn)行推斷,不進(jìn)行微調(diào)。
實(shí)驗結(jié)果
我們先在RMIS基準(zhǔn)上對常見預(yù)訓(xùn)練模型進(jìn)行篩選,然后采用5個最好的模型作為基線,涵蓋了5M到1.2B的多個尺寸。由于語音模型的效果普遍偏差,故我們并未對比。
基準(zhǔn)得分
在RMIS基準(zhǔn)上,F(xiàn)ISHER的3個版本分別較基線至少提升了3.91%,4.34%和5.03%,展現(xiàn)出強(qiáng)大的泛化能力。按任務(wù)分析,在異常檢測任務(wù)上,F(xiàn)ISHER僅略低于BEATs;而在故障診斷任務(wù)上,F(xiàn)ISHER大幅超過BEATs在內(nèi)的所有基線,這主要得益于FISHER能利用完整的頻帶,而基線模型只能利用到16kHz。此外,目前開源的FISHER模型最大也只有22M,遠(yuǎn)小于基線常見的90M。
Scaling效果
上圖對比了各個模型的RMIS得分隨模型大小變化的曲線??梢钥吹紽ISHER的曲線遠(yuǎn)高于基線系統(tǒng)的曲線,即使是最小的FISHER-tiny也能超過所有基線系統(tǒng)。這說明FISHER的預(yù)訓(xùn)練模式更優(yōu)越,scaling更有效。
另一方面,我們觀察到100M似乎是scaling曲線的分界點(diǎn)。我們猜測這是由于工業(yè)信號重復(fù)度較高,現(xiàn)有大規(guī)模數(shù)據(jù)集中的工業(yè)信號去重后至多支持100M模型的訓(xùn)練。因此訓(xùn)練信號基座模型時,數(shù)據(jù)的配比需要增大,數(shù)據(jù)清洗將是scalingup的關(guān)鍵。此外,考慮到FISHER的成功,Test-TimeScaling似乎也是可行的方向。
變切分比
對于12個不提供官方切分的數(shù)據(jù)集,我們首先繪制了模型在變切分比場景下的工作曲線,然后估計了曲線下面積。如上表所示,F(xiàn)ISHER具有最大的曲線下面積,說明其在變切分比場景下依舊具有卓越的性能。
小說:腹黑女主網(wǎng)游斂財,萌寵助陣,星際富豪跪拜獻(xiàn)寶!
小說:新紀(jì)元從零開始,我靠暴擊萬物獲取一切,誰的資源都沒我多
小說:穿進(jìn)萬族世界,我靠暴擊神技采集物資無數(shù),萬族全都看傻眼