賽向露
IT之家7月8日消息,據(jù)小米技術(shù)消息,計算機(jī)視覺國際大會ICCV2025論文錄用結(jié)果公布,小米兩篇論文憑借創(chuàng)新性研究成果成功入選:視頻理解大模型核心技術(shù)Q-Frame,推出行業(yè)首個動態(tài)幀選擇與分辨率自適應(yīng)框架,實現(xiàn)即插即用;持續(xù)學(xué)習(xí)框架AnalyticSubspaceRouting(Any-SSR),成功解決大語言模型在持續(xù)學(xué)習(xí)領(lǐng)域的核心難題「災(zāi)難性遺忘」問題。
據(jù)介紹,計算機(jī)視覺國際大會ICCV與國際計算機(jī)視覺與模式識別會議CVPR、歐洲計算機(jī)視覺國際會議ECCV并稱為計算機(jī)領(lǐng)域世界三大頂級學(xué)術(shù)會議,每兩年舉辦一次。其中,ICCV2025年投稿量達(dá)11239篇,錄用率為24%。上述兩篇論文代表了小米AI團(tuán)隊在基座大模型領(lǐng)域的最新探索成果,其中視頻理解大模型核心技術(shù)Q-Frame由小米AI團(tuán)隊全面自研,大模型持續(xù)學(xué)習(xí)框架Any-SSR由小米AI團(tuán)隊聯(lián)合華南理工大學(xué)攻關(guān)。
全自研視頻理解大模型核心技術(shù)Q-Frame
在視頻理解大模型(Video-LLMs)的研究中,小米AI團(tuán)隊針對傳統(tǒng)“均勻幀采樣”處理方式存在時間碎片化信息丟失、盲目采樣及算力浪費等問題痛點,推出全自研的Q-Frame核心技術(shù),該成果以論文《Q-Frame:Query-awareFrameSelectionandMulti-ResolutionAdaptationforVideo-LLMs》入選ICCV2025。
Q-Frame作為視頻理解大模型核心技術(shù),是行業(yè)首個動態(tài)幀選擇與分辨率自適應(yīng)框架,也是首個無需訓(xùn)練,市面上各類視頻理解大模型基座均可即插即用的算法框架。Q-Frame擁有三大行業(yè)首次創(chuàng)新,能夠精準(zhǔn)理解視頻內(nèi)容與用戶問題,通過精準(zhǔn)捕捉跟用戶問題最相關(guān)的視頻關(guān)鍵內(nèi)容,將有效信息量提升5倍:
跨模態(tài)查詢檢索(Cross-modalQueryRetrieval,CQR)
查詢感知幀選擇(Query-awareFrameSelection,QFS)
多分辨率自適應(yīng)(Multi-ResolutionAdaptation,MRA)
在MLVU評測集上,Q-Frame使Qwen2-VL的理解準(zhǔn)確率從55.5%提升至65.4%;在LongVideoBench上,讓GPT-4o的準(zhǔn)確率從53.3%提升到58.6%。此外,其多分辨率自適應(yīng)特性可根據(jù)內(nèi)容重要性和查詢需求動態(tài)調(diào)整幀分辨率,避免算力浪費。
通過采用動態(tài)查詢感知幀選擇和多分辨率自適應(yīng),Q-Frame還有效解決了「均勻幀采樣」策略下時間碎片化的信息丟失、問題無感知的盲目采樣和分辨率一刀切的算力浪費三大難題。與傳統(tǒng)均勻選幀、統(tǒng)一處理方式不同,在有限計算資源下,Q-Frame可使模型更高效準(zhǔn)確理解視頻。
此外,Q-Frame具有即插即用(plug-and-play)的特點,可與市場上現(xiàn)有的各類視頻理解大模型兼容,無論是開源模型還是閉源模型,無需對模型進(jìn)行額外的訓(xùn)練或微調(diào)。以VILA-V1.5和Qwen2-VL等開源模型為例,在集成Q-Frame后,這些模型在視頻理解任務(wù)上的性能均得到了顯著提升。同樣,對于閉源的GPT-4o模型,Q-Frame也展現(xiàn)出了良好的兼容性,進(jìn)一步證明了其廣泛的適用性。
Q-Frame在小米「人車家全生態(tài)」戰(zhàn)略中有著多元的應(yīng)用場景,目前正在持續(xù)探索和落地:小米YU7發(fā)布時提到的哨兵模式中,能夠分清楚普通的風(fēng)吹草動和可能帶來剮蹭、碰撞的危險行為;智能家居中,能夠在監(jiān)控畫面中找到最關(guān)鍵的畫面,幫助用戶解答問題;在小愛視頻問答場景中,可以直接定位到視頻中能夠解答問題的片段開始播放等。
大模型持續(xù)學(xué)習(xí)框架Any-SSR
在大語言模型(LLMs)持續(xù)學(xué)習(xí)(ContinualLearning,CL)領(lǐng)域,往往會因新任務(wù)的學(xué)習(xí)而導(dǎo)致對舊任務(wù)知識的遺忘,即災(zāi)難性遺忘問題。小米AI團(tuán)隊聯(lián)合華南理工大學(xué)針對這一難題開展研究,其成果《AnalyticSubspaceRouting:HowRecursiveLeastSquaresWorksinContinualLearningofLargeLanguageModel》成功入選ICCV2025。
Any-SSR框架作為行業(yè)首個將遞歸最小二乘法(RecursiveLeastSquares,RLS)引入大語言模型持續(xù)學(xué)習(xí)的技術(shù)框架,通過分析路由機(jī)制,動態(tài)地把不同任務(wù)分配到獨立子空間學(xué)習(xí),避免任務(wù)間知識干擾,創(chuàng)新性解決了大語言模型持續(xù)學(xué)習(xí)中災(zāi)難性遺忘問題。同時,利用低秩適應(yīng)(Low-RankAdaptation,LoRA)與分析路由相結(jié)合的方式,實現(xiàn)了新舊知識的無縫整合與動態(tài)學(xué)習(xí)。
在一系列技術(shù)創(chuàng)新的基礎(chǔ)上,Any-SSR方法實現(xiàn)了“近乎完美”的知識保留(即不遺忘),同時能無縫地學(xué)習(xí)新知識。在實驗中,Any-SSR在TRACE基準(zhǔn)測試上的表現(xiàn)顯著優(yōu)于其他方法,包括多任務(wù)學(xué)習(xí)(MTL)等,不僅在整體性能(OP)上取得了優(yōu)異成績,還實現(xiàn)了零反向知識轉(zhuǎn)移(BWT)。
IT之家從小米技術(shù)獲悉,過去五年,小米集團(tuán)研發(fā)投入約1020億元,在2025年的300億研發(fā)投入中,大約有四分之一將被用于AI相關(guān)方向。未來五年(2026-2030年),小米還將在核心技術(shù)賽道再投入2000億元。
武俠世界俠客行,穿越打劫珠寶店,意料之外的收獲!
《武俠世界俠客行》作者:大江入?!緝?nèi)容節(jié)選】“別打啦,別打啦!我兒子他只是個傻子啊,老爺,您就饒了他吧!”“傻子?傻子偷吃東西,也得給他一個教訓(xùn)!繼續(xù)打,不要停!”李俠客從黑暗的意識中慢慢恢復(fù)清醒,只感覺渾身劇痛,雨點般的擊打籠罩了他的全身,耳邊一名女子求饒哭泣的聲音熟悉而又陌生?!皨尩?,誰在好了吧!
《北大俠客行》:一任俠客行,白首又如何
在觀看過程中,我忍不住回想起原著《俠客行》中的一些情節(jié)|。 當(dāng)石破天揭示了太玄經(jīng)的奧秘時,貝海石也成功領(lǐng)悟了其中的精髓,然而,在電視劇中,貝海石卻被塑造成了一個大反派,與石破天展開了一場激烈的對抗。這種改編顯然是出于制造矛盾沖突的目的,卻忽略了整本小說最根本的設(shè)定,實屬不負(fù)責(zé)任之舉。◇ 普通等我繼續(xù)說。
...繼承前世的謹(jǐn)慎,小心翼翼的活在這武俠世界螳螂捕蟬黃雀在后!…
《俠客行》是一款以金庸先生同名小說為背景的3DMMO新派武俠手游,玩家將置身于細(xì)膩美術(shù)風(fēng)格營造的江湖世界,與主人公共同經(jīng)歷經(jīng)典情節(jié)-?!秱b客行》不僅是一款3DMMO新派武俠國風(fēng)手游,更是一部金庸先生經(jīng)典小說《俠客行》的精彩再現(xiàn)-|。游戲美術(shù)風(fēng)格細(xì)膩入微,四大職業(yè)設(shè)定獨具匠心,為玩家提供了一場身臨其境的江湖冒險之旅希望你能滿意|——。
來源:紅網(wǎng)
作者:延賢
編輯:機(jī)艷麗
本文為紅辣椒評論 原創(chuàng)文章,僅系作者個人觀點,不代表紅網(wǎng)立場。轉(zhuǎn)載請附原文出處鏈接和本聲明。