新智元報(bào)道
LRST
【新智元導(dǎo)讀】東北大學(xué)、武漢大學(xué)等的研究人員首次提出統(tǒng)一處理圖像與視頻的無監(jiān)督領(lǐng)域自適應(yīng)語義分割框架,通過四向混合機(jī)制(QuadMix)和光流引導(dǎo)的時(shí)空聚合模塊,有效縮小跨域差異,顯著提升模型性能,刷新多項(xiàng)基準(zhǔn)記錄。該方法不僅解決了圖像與視頻任務(wù)割裂的問題,還為未來多模態(tài)感知系統(tǒng)奠定了基礎(chǔ)。
在語義分割領(lǐng)域,無監(jiān)督領(lǐng)域自適應(yīng)(UnsupervisedDomainAdaptiveSemanticSegmentation,UDA-SS)旨在將有標(biāo)簽的源域知識(shí)遷移到無標(biāo)簽的目標(biāo)域。隨著數(shù)據(jù)規(guī)模和多樣性的迅速提升,該任務(wù)日益重要。
目前主流研究集中于圖像UDA-SS,視頻UDA-SS近年來逐漸開始受到關(guān)注。
然而,兩者的研究路徑幾乎完全割裂,存在如下挑戰(zhàn):
研究割裂:圖像與視頻任務(wù)各自為政,導(dǎo)致方法碎片化、認(rèn)知零散;
方法難遷移:圖像方法無法有效遷移到視頻,視頻方法無法泛化至圖像;
知識(shí)利用低效:兩類任務(wù)間經(jīng)驗(yàn)難以共享,降低整體研究效率。
最近,東北大學(xué)、武漢大學(xué)、英國薩里大學(xué)、新加坡南洋理工大學(xué)的研究人員首次提出統(tǒng)一處理圖像與視頻UDA-SS的框架,通過統(tǒng)一特征空間建模和統(tǒng)一訓(xùn)練路徑,有效解決上述割裂與低效問題。
論文鏈接:https://ieeexplore.ieee.org/document/10972076
代碼鏈接:https://github.com/ZHE-SAPI/UDASS
為此,研究人員設(shè)計(jì)了全新機(jī)制QuadMix(四向混合),構(gòu)建連續(xù)、穩(wěn)健、豐富的中間域表示,從而大幅縮小跨域差異。并進(jìn)一步引入光流引導(dǎo)的時(shí)空聚合模塊,用于細(xì)粒度特征的分布對(duì)齊。
統(tǒng)一不是簡(jiǎn)單地「通用化」,而是一種深入語義建模的能力提升。QuadMix作為橋梁,不僅使圖像和視頻任務(wù)共享表征基礎(chǔ),更通過可擴(kuò)展的路徑結(jié)構(gòu),有望實(shí)現(xiàn)跨模態(tài)、跨場(chǎng)景的泛化能力,從而為未來多模態(tài)感知系統(tǒng)奠定了范式基礎(chǔ)。
圖1相較于分別研究圖像和視頻的無監(jiān)督域適應(yīng)語義分割(UDA-SS),提出了統(tǒng)一研究二者的研究框架
方法詳解:從四向混合到時(shí)空對(duì)齊
研究人員將圖像視為無時(shí)間依賴的視頻特例,提出統(tǒng)一建模圖像與視頻的視覺感知領(lǐng)域自適應(yīng)語義分割新范式。
QuadMix:首創(chuàng)四向混合機(jī)制,跨域特征更穩(wěn)定
研究人員在顯式特征空間中同時(shí)引入以下四種混合路徑:
(a)S→S:源域內(nèi)部混合;
(b)T→T:目標(biāo)域內(nèi)部混合;
(c)T→(S→S):目標(biāo)域融合到源內(nèi)部混合中;
(d)S→(T→T):源域融合到目標(biāo)內(nèi)部混合中。
這種設(shè)計(jì)不僅打破了傳統(tǒng)一階/雙向Mixup的限制,更是首次在特征空間中引入交叉式路徑結(jié)構(gòu),最大限度地提升了域內(nèi)連續(xù)性與語義對(duì)齊能力。
實(shí)驗(yàn)表明,四向混合路徑在t-SNE可視化中呈現(xiàn)更緊致、更均衡的分布,顯著提升了遷移穩(wěn)定性與泛化魯棒性。
圖2不同領(lǐng)域混合范式的對(duì)比。與現(xiàn)有方法相比(存在如域內(nèi)不連續(xù)性,特征泛化性差,以及特征分布不一致問題),研究人員提出的QuadMix方法在空間(時(shí)間)維度的像素級(jí)與特征級(jí)上,同時(shí)對(duì)域內(nèi)混合和跨域混合進(jìn)行了泛化與增強(qiáng)。其中符號(hào)「*」表示樣本模板
圖3所提出的QuadMix用于UDA-SS的整體框架概覽。圖像領(lǐng)域自適應(yīng)語義分割(ImageUDA-SS)遵循一條并行流程,唯一的區(qū)別在于不包含時(shí)間線索,如圖中虛線所示。圖(a):QuadMix包含四條全面的域內(nèi)/跨域混合路徑,在時(shí)空像素層與特征層上橋接域間差異。像素級(jí)混合作用于相鄰幀、光流和標(biāo)簽/偽標(biāo)簽,旨在迭代生成兩個(gè)增強(qiáng)的跨域中間域:T→(S→S)和S→(T→T)。這些中間域克服了源域S與目標(biāo)域T內(nèi)部的非連續(xù)性,并展現(xiàn)出更具泛化性的特征,從而有效彌合域間差異。此外,在quad-mixed域之間進(jìn)行的特征級(jí)混合,有助于緩解因不同視頻上下文導(dǎo)致的特征不一致問題。圖(b):光流引導(dǎo)的時(shí)空特征聚合模塊將跨域視頻特征壓縮至一個(gè)緊湊的類別感知空間中,有效最小化類內(nèi)差異,并提升類間判別能力,從而增強(qiáng)目標(biāo)域的語義表征能力。整個(gè)訓(xùn)練過程是端到端的。在圖(c)中,目標(biāo)域測(cè)試階段需要輸入相鄰幀堆疊的序列和光流
類別感知Patch模板生成
QuadMix的混合質(zhì)量高度依賴于Patch模板的生成機(jī)制。為此,研究人員創(chuàng)新性地引入「在線類別感知Patch模板」機(jī)制:
針對(duì)圖像和視頻,分別提取語義一致的類別區(qū)域作為模板;
在每個(gè)訓(xùn)練迭代中自適應(yīng)更新,避免固定模板帶來的標(biāo)簽漂移問題;
Patch模板不僅包含像素,還包括偽標(biāo)簽和光流信息,覆蓋圖像+視頻兩個(gè)維度;
這些模板為每個(gè)iteration中QuadMix路徑構(gòu)建提供高質(zhì)量輸入,確保跨域混合具備一致的語義表征。
圖4展示了在視頻UDA-SS中,QuadMix的多種混合策略示例:(a)為源域S和目標(biāo)域T的原始樣本(QuadMix之前);(b)顯示了源模板S*(如人物、騎手)與目標(biāo)模板T*(如交通標(biāo)志、天空);(c)展示了域內(nèi)混合路徑S→S與T→T的結(jié)果;(d)展示了進(jìn)一步的跨域混合路徑S→(T→T)與T→(S→S),即QuadMix后的結(jié)果。這些混合策略分別作用于視頻幀、光流與標(biāo)簽/偽標(biāo)簽。需要特別說明的是,每一輪訓(xùn)練中所需的Patch模板均通過在線機(jī)制根據(jù)前一輪(n?1)自適應(yīng)生成
像素級(jí)+特征級(jí)雙層混合
輸入級(jí)混合解決圖像構(gòu)成層次的差異,特征級(jí)混合則進(jìn)一步對(duì)語義表征層進(jìn)行融合與對(duì)齊。
輸入級(jí)QuadMix:通過Hadamard運(yùn)算疊加幀、標(biāo)簽與光流模板;
特征級(jí)QuadMix:構(gòu)建共享類別掩碼區(qū)域,在特征圖中動(dòng)態(tài)拼接并共享表示;
研究人員還使用輕量化的1x1卷積模塊實(shí)現(xiàn)特征融合,從而減少語義漂移區(qū)域,提高模型魯棒性,并有效降低了計(jì)算成本。
時(shí)空聚合機(jī)制:讓視頻特征對(duì)齊更加細(xì)粒度
與圖像不同,視頻數(shù)據(jù)包含時(shí)序信息,如何充分利用時(shí)間結(jié)構(gòu)進(jìn)行語義對(duì)齊,是提升視頻UDA性能的關(guān)鍵。
研究人員提出的「光流引導(dǎo)的時(shí)空聚合模塊」,圍繞三個(gè)維度展開:
光流引導(dǎo)的偽標(biāo)簽傳播
使用ACCEL網(wǎng)絡(luò)結(jié)構(gòu)獲取光流;
將光流用于偽標(biāo)簽warp操作,獲得跨幀偽標(biāo)簽;
保證語義一致性與時(shí)序魯棒性;
該模塊顯著提高了偽標(biāo)簽在視頻中的質(zhì)量,為后續(xù)聚合與對(duì)齊奠定基礎(chǔ)。
類別感知的空間聚合
按類別構(gòu)建特征子空間;
對(duì)每類特征進(jìn)行平均聚合,獲得「類別代表向量」;
使用該向量進(jìn)行空間重構(gòu),提升類別判別力;
時(shí)間維度的信息聚合
多幀空間聚合結(jié)果通過信息熵加權(quán)方式融合;
構(gòu)建時(shí)序一致的語義表示;
最終,整個(gè)模塊實(shí)現(xiàn)類別–空間–時(shí)間三重維度的精細(xì)化特征對(duì)齊,為目標(biāo)域提供了堅(jiān)實(shí)的泛化支持。
圖5展示了用于領(lǐng)域?qū)R的光流引導(dǎo)時(shí)空特征聚合過程,其中t′表示前一時(shí)間步,ω^T_{t′→t}表示目標(biāo)幀的時(shí)間聚合權(quán)重。?{t′→t}表示從前一時(shí)間步t′通過光流引導(dǎo)warp得到的幀特征,其中「→」表示沿時(shí)間維度的warp方向。
實(shí)驗(yàn)驗(yàn)證:全面評(píng)估四大數(shù)據(jù)集,全面領(lǐng)先
研究人員在四個(gè)經(jīng)典的UDA-SSbenchmark上進(jìn)行了嚴(yán)格驗(yàn)證,涵蓋圖像與視頻兩大類任務(wù):
視頻域適應(yīng)語義分割任務(wù)
圖像域適應(yīng)語義分割任務(wù)
在各種任務(wù)上,該方法均顯著超過現(xiàn)有SOTA方法,如DACS、ProDA、DAFormer、SAC、CMOM等。其中最引人注目的是:在SYNTHIA-Seq→Cityscapes-Seq視頻遷移任務(wù)上,研究人員使用VisionTransformer架構(gòu)(QuadMixViT)實(shí)現(xiàn)了67.2的mIoU,刷新歷史最好結(jié)果,領(lǐng)先前SOTA(PAT、TPL-SFC)近12個(gè)百分點(diǎn)。
此外,在GTAV→Cityscapes圖像遷移任務(wù)中,QuadMix實(shí)現(xiàn)66.8的mIoU,超過DAFormer、SePiCo等先進(jìn)方法,展現(xiàn)統(tǒng)一方法在圖像上的強(qiáng)大適應(yīng)能力。
消融實(shí)驗(yàn)
可視化結(jié)果分析
圖6來自Cityscapes-Seq驗(yàn)證集的三個(gè)連續(xù)幀的定性結(jié)果。結(jié)果展示順序如下:目標(biāo)圖像、真實(shí)標(biāo)簽、僅源域模型的語義分割結(jié)果、DA-VSN[16]、TPS[17]、CMOM[2]以及提出的方法
該方法在分割精度上表現(xiàn)最佳,邊緣更平滑、細(xì)節(jié)更精細(xì)。
特征空間分布TSNE分析
圖7展示了不同混合范式在t-SNE空間中的可視化效果,分別以sign(第一行)和pole(第二行)兩個(gè)類別為例。子圖(a)到(e)的實(shí)驗(yàn)設(shè)置對(duì)應(yīng)表VI中的消融實(shí)驗(yàn)編號(hào):Exp.ID0*、ID6、ID1、ID3和ID12。請(qǐng)注意,子圖(b)、(d)和(e)中的點(diǎn)數(shù)相同。子圖(b)展示的是域內(nèi)混合(intra-mixed)后的特征嵌入,呈現(xiàn)出較為連續(xù)的分布;而子圖(e)展示的四向混合(quad-mixed)域則表現(xiàn)出更具泛化性的特征分布,而非聚集式的形式。這種分布更有效地緩解了域內(nèi)不連續(xù)性問題,并更好地實(shí)現(xiàn)知識(shí)遷移中的細(xì)粒度特征分布拉近。
理論支持+可復(fù)現(xiàn)性+工業(yè)可落地性
理論支撐
QuadMix的有效性不僅體現(xiàn)在性能指標(biāo)上,還獲得了充分的理論與可視化支撐:
使用t-SNE對(duì)比QuadMix與傳統(tǒng)Mixup的特征分布,發(fā)現(xiàn)QuadMix特征分布更均勻、類別邊界更清晰;
通過類別交叉可視化,展示quad-mixed域具備更強(qiáng)的語義一致性與邊界準(zhǔn)確性;
可復(fù)現(xiàn)性
所有實(shí)驗(yàn)代碼已開源
支持主流框架(PyTorch)和多種分割backbone(CNN/ViT)
訓(xùn)練腳本、預(yù)處理流程、模型參數(shù)均一鍵調(diào)用
工業(yè)部署潛力
由于QuadMix可以不依賴offlinewarm-up模型和固定偽標(biāo)簽生成器,具備如下優(yōu)勢(shì):
易于部署到邊緣設(shè)備或?qū)崟r(shí)視頻處理系統(tǒng);
可無縫集成至現(xiàn)有工業(yè)語義分割pipeline;
支持城市感知、AR導(dǎo)航、智能制造等多種場(chǎng)景;
未來研究:從統(tǒng)一分割邁向跨模態(tài)感知新方向
研究人員認(rèn)為,統(tǒng)一研究視頻和圖像UDASS不是融合的終點(diǎn),而是跨模態(tài)泛化的起點(diǎn)。
QuadMix所提出的「四向混合」不僅服務(wù)于圖像與視頻的統(tǒng)一語義分割,更提供了未來跨模態(tài)建模的結(jié)構(gòu)性范式:
可推廣至圖文融合(Image-TextUDA)、點(diǎn)云+圖像聯(lián)合建模(Multi-SensorFusion);
可用于大模型預(yù)訓(xùn)練中的中間域設(shè)計(jì),如Diffusion模型數(shù)據(jù)生成優(yōu)化;
甚至可拓展到ReinforcementLearning場(chǎng)景中的策略遷移與經(jīng)驗(yàn)對(duì)齊;
整體而言,QuadMix代表的是從數(shù)據(jù)空間結(jié)構(gòu)建模出發(fā),構(gòu)建統(tǒng)一泛化表示的全新路徑。
參考資料:
https://ieeexplore.ieee.org/document/10972076
大學(xué)生駕考中的困惑
免責(zé)聲明:本文內(nèi)容由開放的智能模型自動(dòng)生成,僅供參考。