IT之家7月8日消息,據(jù)小米技術(shù)消息,計(jì)算機(jī)視覺國際大會(huì)ICCV2025論文錄用結(jié)果公布,小米兩篇論文憑借創(chuàng)新性研究成果成功入選:視頻理解大模型核心技術(shù)Q-Frame,推出行業(yè)首個(gè)動(dòng)態(tài)幀選擇與分辨率自適應(yīng)框架,實(shí)現(xiàn)即插即用;持續(xù)學(xué)習(xí)框架AnalyticSubspaceRouting(Any-SSR),成功解決大語言模型在持續(xù)學(xué)習(xí)領(lǐng)域的核心難題「災(zāi)難性遺忘」問題。
據(jù)介紹,計(jì)算機(jī)視覺國際大會(huì)ICCV與國際計(jì)算機(jī)視覺與模式識(shí)別會(huì)議CVPR、歐洲計(jì)算機(jī)視覺國際會(huì)議ECCV并稱為計(jì)算機(jī)領(lǐng)域世界三大頂級(jí)學(xué)術(shù)會(huì)議,每兩年舉辦一次。其中,ICCV2025年投稿量達(dá)11239篇,錄用率為24%。上述兩篇論文代表了小米AI團(tuán)隊(duì)在基座大模型領(lǐng)域的最新探索成果,其中視頻理解大模型核心技術(shù)Q-Frame由小米AI團(tuán)隊(duì)全面自研,大模型持續(xù)學(xué)習(xí)框架Any-SSR由小米AI團(tuán)隊(duì)聯(lián)合華南理工大學(xué)攻關(guān)。
全自研視頻理解大模型核心技術(shù)Q-Frame
在視頻理解大模型(Video-LLMs)的研究中,小米AI團(tuán)隊(duì)針對(duì)傳統(tǒng)“均勻幀采樣”處理方式存在時(shí)間碎片化信息丟失、盲目采樣及算力浪費(fèi)等問題痛點(diǎn),推出全自研的Q-Frame核心技術(shù),該成果以論文《Q-Frame:Query-awareFrameSelectionandMulti-ResolutionAdaptationforVideo-LLMs》入選ICCV2025。
Q-Frame作為視頻理解大模型核心技術(shù),是行業(yè)首個(gè)動(dòng)態(tài)幀選擇與分辨率自適應(yīng)框架,也是首個(gè)無需訓(xùn)練,市面上各類視頻理解大模型基座均可即插即用的算法框架。Q-Frame擁有三大行業(yè)首次創(chuàng)新,能夠精準(zhǔn)理解視頻內(nèi)容與用戶問題,通過精準(zhǔn)捕捉跟用戶問題最相關(guān)的視頻關(guān)鍵內(nèi)容,將有效信息量提升5倍:
跨模態(tài)查詢檢索(Cross-modalQueryRetrieval,CQR)
查詢感知幀選擇(Query-awareFrameSelection,QFS)
多分辨率自適應(yīng)(Multi-ResolutionAdaptation,MRA)
在MLVU評(píng)測(cè)集上,Q-Frame使Qwen2-VL的理解準(zhǔn)確率從55.5%提升至65.4%;在LongVideoBench上,讓GPT-4o的準(zhǔn)確率從53.3%提升到58.6%。此外,其多分辨率自適應(yīng)特性可根據(jù)內(nèi)容重要性和查詢需求動(dòng)態(tài)調(diào)整幀分辨率,避免算力浪費(fèi)。
通過采用動(dòng)態(tài)查詢感知幀選擇和多分辨率自適應(yīng),Q-Frame還有效解決了「均勻幀采樣」策略下時(shí)間碎片化的信息丟失、問題無感知的盲目采樣和分辨率一刀切的算力浪費(fèi)三大難題。與傳統(tǒng)均勻選幀、統(tǒng)一處理方式不同,在有限計(jì)算資源下,Q-Frame可使模型更高效準(zhǔn)確理解視頻。
此外,Q-Frame具有即插即用(plug-and-play)的特點(diǎn),可與市場(chǎng)上現(xiàn)有的各類視頻理解大模型兼容,無論是開源模型還是閉源模型,無需對(duì)模型進(jìn)行額外的訓(xùn)練或微調(diào)。以VILA-V1.5和Qwen2-VL等開源模型為例,在集成Q-Frame后,這些模型在視頻理解任務(wù)上的性能均得到了顯著提升。同樣,對(duì)于閉源的GPT-4o模型,Q-Frame也展現(xiàn)出了良好的兼容性,進(jìn)一步證明了其廣泛的適用性。
Q-Frame在小米「人車家全生態(tài)」戰(zhàn)略中有著多元的應(yīng)用場(chǎng)景,目前正在持續(xù)探索和落地:小米YU7發(fā)布時(shí)提到的哨兵模式中,能夠分清楚普通的風(fēng)吹草動(dòng)和可能帶來剮蹭、碰撞的危險(xiǎn)行為;智能家居中,能夠在監(jiān)控畫面中找到最關(guān)鍵的畫面,幫助用戶解答問題;在小愛視頻問答場(chǎng)景中,可以直接定位到視頻中能夠解答問題的片段開始播放等。
大模型持續(xù)學(xué)習(xí)框架Any-SSR
在大語言模型(LLMs)持續(xù)學(xué)習(xí)(ContinualLearning,CL)領(lǐng)域,往往會(huì)因新任務(wù)的學(xué)習(xí)而導(dǎo)致對(duì)舊任務(wù)知識(shí)的遺忘,即災(zāi)難性遺忘問題。小米AI團(tuán)隊(duì)聯(lián)合華南理工大學(xué)針對(duì)這一難題開展研究,其成果《AnalyticSubspaceRouting:HowRecursiveLeastSquaresWorksinContinualLearningofLargeLanguageModel》成功入選ICCV2025。
Any-SSR框架作為行業(yè)首個(gè)將遞歸最小二乘法(RecursiveLeastSquares,RLS)引入大語言模型持續(xù)學(xué)習(xí)的技術(shù)框架,通過分析路由機(jī)制,動(dòng)態(tài)地把不同任務(wù)分配到獨(dú)立子空間學(xué)習(xí),避免任務(wù)間知識(shí)干擾,創(chuàng)新性解決了大語言模型持續(xù)學(xué)習(xí)中災(zāi)難性遺忘問題。同時(shí),利用低秩適應(yīng)(Low-RankAdaptation,LoRA)與分析路由相結(jié)合的方式,實(shí)現(xiàn)了新舊知識(shí)的無縫整合與動(dòng)態(tài)學(xué)習(xí)。
在一系列技術(shù)創(chuàng)新的基礎(chǔ)上,Any-SSR方法實(shí)現(xiàn)了“近乎完美”的知識(shí)保留(即不遺忘),同時(shí)能無縫地學(xué)習(xí)新知識(shí)。在實(shí)驗(yàn)中,Any-SSR在TRACE基準(zhǔn)測(cè)試上的表現(xiàn)顯著優(yōu)于其他方法,包括多任務(wù)學(xué)習(xí)(MTL)等,不僅在整體性能(OP)上取得了優(yōu)異成績,還實(shí)現(xiàn)了零反向知識(shí)轉(zhuǎn)移(BWT)。
IT之家從小米技術(shù)獲悉,過去五年,小米集團(tuán)研發(fā)投入約1020億元,在2025年的300億研發(fā)投入中,大約有四分之一將被用于AI相關(guān)方向。未來五年(2026-2030年),小米還將在核心技術(shù)賽道再投入2000億元。
總裁幫忙生個(gè)娃第二部
藍(lán)揚(yáng)不僅是飛揚(yáng)公司的總裁,更是環(huán)亞集團(tuán)的首席執(zhí)行官!這位年輕的總裁今年只有三十來歲,卻已將環(huán)亞集團(tuán)從最初的規(guī)模發(fā)展為如今的跨國集團(tuán),每年的收益都不下幾百個(gè)億!如此富庶的家底,再加上帥得一塌糊涂的容貌,只要他藍(lán)大少站到大街上振臂一呼,估計(jì)全世界的mei女都會(huì)成群結(jié)隊(duì)地爭著往他的chuang上爬!只可惜人家藍(lán)大少一向潔身自好 哥,就你這智商,你應(yīng)該去當(dāng)總統(tǒng)啊,當(dāng)什么總裁???真是屈才了呀。陸總裁,你可以說人話嗎?我半撐著身體,一臉的你怕不是個(gè)傻子的表情,什么玩意就我家的賬號(hào),我就要跟你解釋了-|。煩請(qǐng)你先說清楚發(fā)生了什么,再來找我麻煩,行嗎?陸行舟好脾氣地轉(zhuǎn)過頭,賞了我一個(gè)眼神,喻眠,別跟我裝傻-。這幾天網(wǎng)上的后面會(huì)介紹——。男女主曖昧拉扯文合集,飲食男女,互為獵物,荷爾蒙張力滿滿!