IT之家7月8日消息,據(jù)小米技術(shù)消息,計(jì)算機(jī)視覺(jué)國(guó)際大會(huì)ICCV2025論文錄用結(jié)果公布,小米兩篇論文憑借創(chuàng)新性研究成果成功入選:視頻理解大模型核心技術(shù)Q-Frame,推出行業(yè)首個(gè)動(dòng)態(tài)幀選擇與分辨率自適應(yīng)框架,實(shí)現(xiàn)即插即用;持續(xù)學(xué)習(xí)框架AnalyticSubspaceRouting(Any-SSR),成功解決大語(yǔ)言模型在持續(xù)學(xué)習(xí)領(lǐng)域的核心難題「災(zāi)難性遺忘」問(wèn)題。
據(jù)介紹,計(jì)算機(jī)視覺(jué)國(guó)際大會(huì)ICCV與國(guó)際計(jì)算機(jī)視覺(jué)與模式識(shí)別會(huì)議CVPR、歐洲計(jì)算機(jī)視覺(jué)國(guó)際會(huì)議ECCV并稱為計(jì)算機(jī)領(lǐng)域世界三大頂級(jí)學(xué)術(shù)會(huì)議,每?jī)赡昱e辦一次。其中,ICCV2025年投稿量達(dá)11239篇,錄用率為24%。上述兩篇論文代表了小米AI團(tuán)隊(duì)在基座大模型領(lǐng)域的最新探索成果,其中視頻理解大模型核心技術(shù)Q-Frame由小米AI團(tuán)隊(duì)全面自研,大模型持續(xù)學(xué)習(xí)框架Any-SSR由小米AI團(tuán)隊(duì)聯(lián)合華南理工大學(xué)攻關(guān)。
全自研視頻理解大模型核心技術(shù)Q-Frame
在視頻理解大模型(Video-LLMs)的研究中,小米AI團(tuán)隊(duì)針對(duì)傳統(tǒng)“均勻幀采樣”處理方式存在時(shí)間碎片化信息丟失、盲目采樣及算力浪費(fèi)等問(wèn)題痛點(diǎn),推出全自研的Q-Frame核心技術(shù),該成果以論文《Q-Frame:Query-awareFrameSelectionandMulti-ResolutionAdaptationforVideo-LLMs》入選ICCV2025。
Q-Frame作為視頻理解大模型核心技術(shù),是行業(yè)首個(gè)動(dòng)態(tài)幀選擇與分辨率自適應(yīng)框架,也是首個(gè)無(wú)需訓(xùn)練,市面上各類(lèi)視頻理解大模型基座均可即插即用的算法框架。Q-Frame擁有三大行業(yè)首次創(chuàng)新,能夠精準(zhǔn)理解視頻內(nèi)容與用戶問(wèn)題,通過(guò)精準(zhǔn)捕捉跟用戶問(wèn)題最相關(guān)的視頻關(guān)鍵內(nèi)容,將有效信息量提升5倍:
跨模態(tài)查詢檢索(Cross-modalQueryRetrieval,CQR)
查詢感知幀選擇(Query-awareFrameSelection,QFS)
多分辨率自適應(yīng)(Multi-ResolutionAdaptation,MRA)
在MLVU評(píng)測(cè)集上,Q-Frame使Qwen2-VL的理解準(zhǔn)確率從55.5%提升至65.4%;在LongVideoBench上,讓GPT-4o的準(zhǔn)確率從53.3%提升到58.6%。此外,其多分辨率自適應(yīng)特性可根據(jù)內(nèi)容重要性和查詢需求動(dòng)態(tài)調(diào)整幀分辨率,避免算力浪費(fèi)。
通過(guò)采用動(dòng)態(tài)查詢感知幀選擇和多分辨率自適應(yīng),Q-Frame還有效解決了「均勻幀采樣」策略下時(shí)間碎片化的信息丟失、問(wèn)題無(wú)感知的盲目采樣和分辨率一刀切的算力浪費(fèi)三大難題。與傳統(tǒng)均勻選幀、統(tǒng)一處理方式不同,在有限計(jì)算資源下,Q-Frame可使模型更高效準(zhǔn)確理解視頻。
此外,Q-Frame具有即插即用(plug-and-play)的特點(diǎn),可與市場(chǎng)上現(xiàn)有的各類(lèi)視頻理解大模型兼容,無(wú)論是開(kāi)源模型還是閉源模型,無(wú)需對(duì)模型進(jìn)行額外的訓(xùn)練或微調(diào)。以VILA-V1.5和Qwen2-VL等開(kāi)源模型為例,在集成Q-Frame后,這些模型在視頻理解任務(wù)上的性能均得到了顯著提升。同樣,對(duì)于閉源的GPT-4o模型,Q-Frame也展現(xiàn)出了良好的兼容性,進(jìn)一步證明了其廣泛的適用性。
Q-Frame在小米「人車(chē)家全生態(tài)」戰(zhàn)略中有著多元的應(yīng)用場(chǎng)景,目前正在持續(xù)探索和落地:小米YU7發(fā)布時(shí)提到的哨兵模式中,能夠分清楚普通的風(fēng)吹草動(dòng)和可能帶來(lái)剮蹭、碰撞的危險(xiǎn)行為;智能家居中,能夠在監(jiān)控畫(huà)面中找到最關(guān)鍵的畫(huà)面,幫助用戶解答問(wèn)題;在小愛(ài)視頻問(wèn)答場(chǎng)景中,可以直接定位到視頻中能夠解答問(wèn)題的片段開(kāi)始播放等。
大模型持續(xù)學(xué)習(xí)框架Any-SSR
在大語(yǔ)言模型(LLMs)持續(xù)學(xué)習(xí)(ContinualLearning,CL)領(lǐng)域,往往會(huì)因新任務(wù)的學(xué)習(xí)而導(dǎo)致對(duì)舊任務(wù)知識(shí)的遺忘,即災(zāi)難性遺忘問(wèn)題。小米AI團(tuán)隊(duì)聯(lián)合華南理工大學(xué)針對(duì)這一難題開(kāi)展研究,其成果《AnalyticSubspaceRouting:HowRecursiveLeastSquaresWorksinContinualLearningofLargeLanguageModel》成功入選ICCV2025。
Any-SSR框架作為行業(yè)首個(gè)將遞歸最小二乘法(RecursiveLeastSquares,RLS)引入大語(yǔ)言模型持續(xù)學(xué)習(xí)的技術(shù)框架,通過(guò)分析路由機(jī)制,動(dòng)態(tài)地把不同任務(wù)分配到獨(dú)立子空間學(xué)習(xí),避免任務(wù)間知識(shí)干擾,創(chuàng)新性解決了大語(yǔ)言模型持續(xù)學(xué)習(xí)中災(zāi)難性遺忘問(wèn)題。同時(shí),利用低秩適應(yīng)(Low-RankAdaptation,LoRA)與分析路由相結(jié)合的方式,實(shí)現(xiàn)了新舊知識(shí)的無(wú)縫整合與動(dòng)態(tài)學(xué)習(xí)。
在一系列技術(shù)創(chuàng)新的基礎(chǔ)上,Any-SSR方法實(shí)現(xiàn)了“近乎完美”的知識(shí)保留(即不遺忘),同時(shí)能無(wú)縫地學(xué)習(xí)新知識(shí)。在實(shí)驗(yàn)中,Any-SSR在TRACE基準(zhǔn)測(cè)試上的表現(xiàn)顯著優(yōu)于其他方法,包括多任務(wù)學(xué)習(xí)(MTL)等,不僅在整體性能(OP)上取得了優(yōu)異成績(jī),還實(shí)現(xiàn)了零反向知識(shí)轉(zhuǎn)移(BWT)。
IT之家從小米技術(shù)獲悉,過(guò)去五年,小米集團(tuán)研發(fā)投入約1020億元,在2025年的300億研發(fā)投入中,大約有四分之一將被用于AI相關(guān)方向。未來(lái)五年(2026-2030年),小米還將在核心技術(shù)賽道再投入2000億元。
《最后一個(gè)女玄術(shù)師》:在葉思媚五歲那年,算命先生說(shuō)她天生艷骨...
《最后一個(gè)女玄術(shù)師》:在葉思媚五歲那年,算命先生說(shuō)她天生艷骨,注定只能成為權(quán)貴籠中的金絲雀《最后一個(gè)女玄術(shù)師》作者:吞鬼的女孩 《最后一個(gè)女玄術(shù)師》作者:吞鬼的女孩第1章詭異的招聘廣告“我們分手吧?!弊陲堊滥沁叺挠⒖∧腥似届o地說(shuō)_。葉思媚心頭苦澀,這一刻還是來(lái)了__。那個(gè)男人叫景少川,出身京都名門(mén)景家。不知為何,他竟然到大川市這個(gè)小地方讀大學(xué),雖然大川學(xué)院也是國(guó)家985院校,但以他的成績(jī)和才智,讀華清大學(xué)或者京都大學(xué)都不成希望你能滿意。小說(shuō):天生艷骨要我做金絲雀?我偏要逆襲,權(quán)貴都得靠邊站!