來自北京大學(xué),清華大學(xué)的研究團(tuán)隊(duì)聯(lián)手京東(JD.com)在ACMMM2025發(fā)表了一種以事件為中心低成本高效的Training-Free視頻異常檢測框架EventVAD,論文第一作者邵軼驊目前為北京大學(xué)學(xué)術(shù)訪問學(xué)生,項(xiàng)目負(fù)責(zé)人為來自京東(JD.com)的算法研究員馬傲,目前代碼和數(shù)據(jù)已全面開源。
現(xiàn)有視頻異常檢測(VideoAnomalyDetection,VAD)方法中,有監(jiān)督方法依賴大量領(lǐng)域內(nèi)訓(xùn)練數(shù)據(jù),對未見過的異常場景泛化能力薄弱;而無需訓(xùn)練的方法雖借助大語言模型(LLMs)的世界知識(shí)實(shí)現(xiàn)檢測,但存在細(xì)粒度視覺時(shí)序定位不足、事件理解不連貫、模型參數(shù)冗余等問題。
為此,來自北大、清華和京東(JD.com)的研究團(tuán)隊(duì)提出了一種全新的視頻異常檢測框架——EventVAD。該框架通過動(dòng)態(tài)圖架構(gòu)與多模態(tài)大模型(MLLMs)的時(shí)序事件推理結(jié)合,在減少模型參數(shù)的同時(shí),顯著提升了異常檢測的精度和效率。實(shí)驗(yàn)結(jié)果顯示,EventVAD在UCF-Crime和XD-Violence兩大數(shù)據(jù)集上均超越現(xiàn)有SOTA方法,成為無需訓(xùn)練場景下的新標(biāo)桿。
論文標(biāo)題:EventVAD:Training-FreeEvent-AwareVideoAnomalyDetection論文鏈接:https://arxiv.org/abs/2504.13092代碼開源:https://github.com/YihuaJerry/EventVAD
研究背景和動(dòng)機(jī)
視頻異常檢測(VAD)的核心目標(biāo)是精準(zhǔn)定位視頻中的異常幀,但現(xiàn)有方法存在顯著局限:
有監(jiān)督方法依賴大量標(biāo)注數(shù)據(jù),在新場景中需重新微調(diào),泛化能力差;即使是單類監(jiān)督或無監(jiān)督方法,也因缺乏有效標(biāo)簽難以達(dá)到理想性能。無需訓(xùn)練方法以LAVAD為代表的方法通過視覺問答模型和LLMs評分實(shí)現(xiàn)異常定位,但存在兩大問題:一是依賴至少130億參數(shù)的LLM,導(dǎo)致框架效率低下;二是缺乏對視頻的時(shí)序理解能力,難以連貫解析長視頻,易出現(xiàn)誤檢和長尾問題。
研究團(tuán)隊(duì)發(fā)現(xiàn),無需訓(xùn)練方法的核心瓶頸在于無法對視頻中的異常事件進(jìn)行完整定位,導(dǎo)致后續(xù)LLM評分存在偏差。受此啟發(fā),如上圖所示,EventVAD通過將長視頻分割為短事件片段,增強(qiáng)MLLMs對視頻的時(shí)序一致性理解,同時(shí)引入動(dòng)態(tài)圖模型捕捉幀間關(guān)聯(lián),最終在減少參數(shù)的情況下實(shí)現(xiàn)了更高精度的異常檢測。
EventVAD的關(guān)鍵創(chuàng)新
EventVAD的整體框架包含四個(gè)核心模塊:事件感知?jiǎng)討B(tài)圖構(gòu)建、圖注意力傳播、統(tǒng)計(jì)邊界檢測和事件中心異常評分。通過這一流程,實(shí)現(xiàn)了從視頻幀特征提取到異常幀精準(zhǔn)定位的端到端無需訓(xùn)練檢測。
事件感知?jiǎng)討B(tài)圖構(gòu)建
為捕捉視頻的動(dòng)態(tài)時(shí)序特征,EventVAD構(gòu)建了融合語義與運(yùn)動(dòng)信息的動(dòng)態(tài)圖模型。結(jié)合CLIP的語義特征(512維)和RAFT光流的運(yùn)動(dòng)特征(128維),通過融合系數(shù)(α=0.75)平衡兩種特征,增強(qiáng)事件的時(shí)序一致性。通過語義相似度(余弦距離)和運(yùn)動(dòng)相似度(指數(shù)距離)計(jì)算幀間關(guān)聯(lián),并引入時(shí)間衰減因子(γ)抑制長距離幀的冗余關(guān)聯(lián),突出短時(shí)間內(nèi)的事件連貫性。
圖注意力傳播
為優(yōu)化幀級(jí)特征并保持時(shí)序一致性,EventVAD設(shè)計(jì)了基于正交約束的圖注意力機(jī)制。通過QR分解生成正交的查詢(Q)、鍵(K)、值(V)矩陣,避免特征維度坍縮?;趧?dòng)態(tài)圖的鄰接矩陣計(jì)算注意力權(quán)重,通過迭代傳播更新節(jié)點(diǎn)特征,增強(qiáng)事件邊界的區(qū)分度。
統(tǒng)計(jì)邊界檢測
為精準(zhǔn)分割視頻中的事件邊界,EventVAD采用了噪聲魯棒的統(tǒng)計(jì)方法。復(fù)合差異度量中,結(jié)合L2范數(shù)(特征幅度跳變)和余弦距離(方向變化),捕捉事件轉(zhuǎn)換的不連續(xù)性。通過Savitzky-Golay濾波平滑噪聲,計(jì)算信號(hào)比(局部與全局均值比),并基于中位數(shù)絕對偏差(MAD)設(shè)置動(dòng)態(tài)閾值,實(shí)現(xiàn)無監(jiān)督的事件邊界檢測。
事件中心異常評分
為提升MLLMs對視頻的理解效率,EventVAD提出分層提示策略。將分割后的事件片段輸入MLLMs,先生成視頻內(nèi)容描述,再基于描述輸出異常評分,形成“自校正”機(jī)制。相比傳統(tǒng)幀級(jí)分析或全局處理,事件級(jí)分析平衡了上下文完整性與特征精細(xì)度,減少長視頻分析中的誤差傳播。
實(shí)驗(yàn)驗(yàn)證
研究團(tuán)隊(duì)在UCF-Crime和XD-Violence兩大基準(zhǔn)數(shù)據(jù)集上對EventVAD進(jìn)行了全面評估,結(jié)果顯示其性能顯著優(yōu)于現(xiàn)有方法。
UCF-Crime數(shù)據(jù)集上的結(jié)果
EventVAD以70億參數(shù)實(shí)現(xiàn)了82.03%的AUC,超越需130億參數(shù)的LAVAD(提升近4%),同時(shí)優(yōu)于所有無監(jiān)督、單類監(jiān)督方法,甚至超過部分弱監(jiān)督方法。
XD-Violence數(shù)據(jù)集上的結(jié)果
使用XD-Violence數(shù)據(jù)集的結(jié)果中,在AP和AUC指標(biāo)上均比現(xiàn)有無需訓(xùn)練的SOTA方法(LAVAD)高出約5%,驗(yàn)證了其在高分辨率場景下的適應(yīng)性。
可視化分析
圖注意力傳播可視化分析如下圖,選取UCF-Crime數(shù)據(jù)集中的異常和正常視頻樣本,對應(yīng)用圖注意力傳播前后的幀間關(guān)系進(jìn)行可視化。熱力圖展示了相應(yīng)幀區(qū)間內(nèi)幀與幀之間權(quán)重關(guān)系的變化。
統(tǒng)計(jì)邊界檢測可視化分析如下圖,以UCF-Crime數(shù)據(jù)集中的樣本為例,對異常視頻和正常視頻的邊界檢測過程進(jìn)行可視化。
消融實(shí)驗(yàn)
UCF-Crime和XD-Violence數(shù)據(jù)集中正常樣本與異常樣本的可視化。對LAVAD未能正確檢測出異常的樣本進(jìn)行了可視化,下圖展示了事件分割結(jié)果以及多模態(tài)大語言模型(MLLM)的異常幀評分,并與真實(shí)標(biāo)簽進(jìn)行了對比。
總結(jié)與展望
EventVAD作為首個(gè)以事件為中心的免訓(xùn)練視頻異常檢測模型,將推動(dòng)領(lǐng)域從幀級(jí)標(biāo)注到完整事件級(jí)標(biāo)注的演進(jìn)。它提供了完整的特征增強(qiáng),事件劃分,異常評分的免真值異常檢測基礎(chǔ),極大減少了人工標(biāo)注的成本和重新訓(xùn)練的開銷。未來,隨著視頻理解模型的星期,EventVAD這類以事件為中心的視頻異常檢測范式將為視頻細(xì)粒度理解提供基礎(chǔ)。期待基于EventVAD涌現(xiàn)更多創(chuàng)新的算法,加速視頻幀級(jí)異常檢測的發(fā)展。
非凡之作《網(wǎng)游:開局成為墮落天使》,最出其不意的情境,有被感動(dòng)到!
在《真實(shí)幻境》游戲中時(shí),是感覺不到自己身體的狀況的,除非游戲認(rèn)定你的身體陷入了危險(xiǎn),才會(huì)強(qiáng)制你下線。葉修來到廚房,翻出了一箱泡面,煮了兩包填飽了肚子。吃飽喝足,葉修躺在床上拿出手機(jī),打開了《真實(shí)幻境》官網(wǎng),主頁上一則大大的通告格外引人注目——。《獸潮來襲》各位玩家請注意!明晚8點(diǎn),新手村將迎來獸潮襲擊,請各位玩有幫助請點(diǎn)贊|。 《網(wǎng)游:開局成為墮落天使》 作者:暗影君主內(nèi)容簡介:葉修一覺醒來穿越到平行世界,一款《真實(shí)幻境》游戲風(fēng)靡全球。進(jìn)入游戲,開局獲得SSS級(jí)天賦、成為墮落天使。職業(yè)天賦:偽裝,可以偽裝成任意普通職業(yè),無時(shí)間限制——。職業(yè)天賦:黑暗主宰(成長型天賦),黑暗中各項(xiàng)屬性得到一定增加——|。職業(yè)天賦:死亡召喚(成長型好了吧!和《網(wǎng)游:開局成為墮落天使》并稱第一的神文,你看過哪些,入坑不虧