受婕
近期,來自清華大學、上海交通大學、北京華控智加科技有限公司和華北電力大學的研究者聯(lián)合發(fā)布首個多模態(tài)工業(yè)信號基座模型FISHER,采用搭積木的方法對異質工業(yè)信號進行統(tǒng)一建模。目前技術報告和權重均已開源,歡迎使用!
論文鏈接:https://arxiv.org/abs/2507.16696GitHub倉庫:https://github.com/jianganbai/FISHER
研究背景
近年來,越來越多的工業(yè)設備被安裝上傳感器以監(jiān)控工作狀態(tài)。然而安裝傳感器容易,如何高效分析工業(yè)信號卻很難,因為不同傳感器采集的工業(yè)信號具有極大的異質性。本文中,我們將其總結為M5問題:多模態(tài)、多采樣率、多尺度、多任務和少故障。
受到M5問題影響,現(xiàn)有方法大多只分析小范圍的工業(yè)信號,例如基于振動的軸承故障診斷,所采用的模型也均為在小數(shù)據(jù)集上訓練的小模型。然而這些模型未能發(fā)掘大數(shù)據(jù)訓練的優(yōu)勢,也未能利用不同模態(tài)之間的互補性。另一方面,對于工業(yè)運維的每個子問題,都需要單獨開發(fā)和部署專門的模型,大大增加了實際應用的復雜度。
研究動機
盡管工業(yè)信號表面上差異大,其內(nèi)在特征和語義信息卻很相似:
語義信息相同:信號都反映了相同的健康狀態(tài)。產(chǎn)生機理相似:聲音(鼓膜震動)和振動同根同源。分析手段相似:基本都采用譜分析方法。故障模式相似:設備由零件組成,不同設備之間有借鑒性。任務特征共享:一個特征向量可表征多個健康管理任務。
基于此,我們認為是可以使用單一模型對異質工業(yè)信號進行統(tǒng)一建模。由于信號內(nèi)部存在相似性,通過scaling,可以讓模型逐漸學會這些相似性,進而迸發(fā)出更為強大的表征能力,實現(xiàn)里程碑式提升。由此我們開發(fā)了FISHER模型。
FISHER模型介紹
FISHER模型是首個面向多模態(tài)工業(yè)信號的基座模型。它以子帶為建模單元,通過堆積木的方式表征整段信號,可處理任意采樣率的工業(yè)信號。詳細介紹如下:
子帶建模
譜分析是語音和信號分析常用的手段。與語音模型常采用的Mel譜不同的是,F(xiàn)ISHER采用短時傅里葉變換(STFT)作為信號輸入特征,這是由于1)故障分量往往出現(xiàn)在高頻2)對于旋轉類機械,倍頻關系往往很重要。為保證不同采樣率下時頻分辨率相同,F(xiàn)ISHER中的STFT采用固定時長的窗長和幀移。
當數(shù)據(jù)量增大時,多采樣率是模型必須要應對的問題。之前方法將信號全部重采樣至固定采樣率(例如16kHz),從而丟失了關鍵的高頻信息,特別是對于44.1kHz及以上的高帶寬信號。在FISHER中,我們不再進行重采樣,而是利用信號在不同采樣率下的特點進行建模。
如下圖所示,對同一信號源使用不同采樣率進行觀測時,共有頻帶基本一致,而高采樣率會有額外的高頻子帶,也就是說高采樣率的增益來源于更多子帶信息。而另一方面,工業(yè)信號常見的采樣率有16kHz,32kHz,44.1kHz和48kHz,這些采樣率近似存在公約數(shù)(如2kHz和4kHz),故STFT譜可視作多個固定寬度子帶的拼接。
因此FISHER采用固定寬度的子帶作為建模單元,將子帶信息用搭積木的方式拼接成整段信號的表征。具體而言,STFT譜被切分為固定寬度的子帶,每個子帶被模型單獨處理。最終的信號表征是每個子帶表征的拼接。
模型架構
FISHER包括1個ViTEncoder和1個CNNDecoder,采用「老師-學生」自蒸餾預訓練。具體而言,老師Encoder是學生Encoder的指數(shù)滑動平均(EMA),僅學生Encoder和學生Decoder具有梯度。切分后的子帶的80%被mask,未被mask的20%送入學生Encoder,處理后再與被mask部分按原位置拼接,送入學生Decoder。老師Encoder則輸入整個子帶,輸出則作為蒸餾的目標。自蒸餾過程分別在[CLS]層次和patch層次進行監(jiān)督。預訓練結束后,僅保留學生Encoder用于后續(xù)評估。
我們目前開源了FISHER的3個不同尺寸:tiny(5.5M),mini(10M)和small(22M)。所有模型均在1.7萬小時的混合數(shù)據(jù)集上進行預訓練。
RMIS基準介紹
為評估模型在各種健康管理任務上的性能,我們提出了RMIS基準。RMIS基準包含5個異常檢測數(shù)據(jù)集和13個故障診斷數(shù)據(jù)集,涵蓋4個模態(tài)。這里異常檢測為正常/異常2分類問題,但訓練集不包含異常;故障診斷為多分類問題,訓練集和測試集均包含所有類別。為檢驗模型固有的性能,模型在所有數(shù)據(jù)集上均使用相同的KNN配置進行推斷,不進行微調。
實驗結果
我們先在RMIS基準上對常見預訓練模型進行篩選,然后采用5個最好的模型作為基線,涵蓋了5M到1.2B的多個尺寸。由于語音模型的效果普遍偏差,故我們并未對比。
基準得分
在RMIS基準上,F(xiàn)ISHER的3個版本分別較基線至少提升了3.91%,4.34%和5.03%,展現(xiàn)出強大的泛化能力。按任務分析,在異常檢測任務上,F(xiàn)ISHER僅略低于BEATs;而在故障診斷任務上,F(xiàn)ISHER大幅超過BEATs在內(nèi)的所有基線,這主要得益于FISHER能利用完整的頻帶,而基線模型只能利用到16kHz。此外,目前開源的FISHER模型最大也只有22M,遠小于基線常見的90M。
Scaling效果
上圖對比了各個模型的RMIS得分隨模型大小變化的曲線??梢钥吹紽ISHER的曲線遠高于基線系統(tǒng)的曲線,即使是最小的FISHER-tiny也能超過所有基線系統(tǒng)。這說明FISHER的預訓練模式更優(yōu)越,scaling更有效。
另一方面,我們觀察到100M似乎是scaling曲線的分界點。我們猜測這是由于工業(yè)信號重復度較高,現(xiàn)有大規(guī)模數(shù)據(jù)集中的工業(yè)信號去重后至多支持100M模型的訓練。因此訓練信號基座模型時,數(shù)據(jù)的配比需要增大,數(shù)據(jù)清洗將是scalingup的關鍵。此外,考慮到FISHER的成功,Test-TimeScaling似乎也是可行的方向。
變切分比
對于12個不提供官方切分的數(shù)據(jù)集,我們首先繪制了模型在變切分比場景下的工作曲線,然后估計了曲線下面積。如上表所示,F(xiàn)ISHER具有最大的曲線下面積,說明其在變切分比場景下依舊具有卓越的性能。
建國前夕,3個地痞將華野名將打死,粟裕得知大怒:血債血償!
在枯燥的訓練之余,為士兵們組織了多場音樂會,部隊里的戰(zhàn)友們提起金哲宏,語氣里都充滿懷念:“他是個好兵,也是個好大哥_-?!蓖宋楹螅鹫芎耆⑵奚?,繼而轉業(yè)到吉林市棉麻紡織廠工作,后來又在村口和妻子一起開了一家食雜店和一間飯館-。這家飯館因為坐落在村子岔路口的緣故,因此被金哲宏取名“路吉順”,求個平安說完了。
無岸的海丨下篇:生命奏鳴曲——魂系故土
作為老舊小區(qū)改造首批試點項目之一,梅山街道寶武營小區(qū)居民日漸感受到家園改造帶來的好處。讓巷子里食雜店店主老李最高興的是,店鋪不遠處新建成睦鄰廣場,增加居民逗留時間的同時,日常光顧生意的人也多了-?!斑@里原是棚戶區(qū)改造時拆除的空地,沒有利用起來。我們收集群眾意見改建成了現(xiàn)在的休閑廣場,方便群眾的日常需求有幫助請點贊。
來源:紅網(wǎng)
作者:陳宗誠
編輯:姜冉冉
本文為紅辣椒評論 原創(chuàng)文章,僅系作者個人觀點,不代表紅網(wǎng)立場。轉載請附原文出處鏈接和本聲明。