在人工智能快速發(fā)展的今天,我們已逐漸習(xí)慣于讓AI識(shí)別圖像、理解語言,甚至與之對(duì)話。但當(dāng)我們進(jìn)入真實(shí)三維世界,如何讓AI具備「看懂場(chǎng)景」、「理解空間」和「推理復(fù)雜任務(wù)」的能力?這正是3D視覺語言模型(3DVLM)所要解決的問題。
本文介紹的一項(xiàng)新研究——3D-R1,提出了一種更通用、更具推理能力的三維視覺語言模型,它在多個(gè)3D任務(wù)中表現(xiàn)出了顯著的性能提升,有望成為3D人工智能通用系統(tǒng)的新范式。
論文標(biāo)題:3D-R1:EnhancingReasoningin3DVLMsforUnifiedSceneUnderstanding論文鏈接:https://arxiv.org/pdf/2507.23478
背景:3D場(chǎng)景理解為何重要?
讓AI理解一個(gè)真實(shí)的三維環(huán)境,遠(yuǎn)比識(shí)別一張圖片復(fù)雜得多。無論是服務(wù)機(jī)器人、自動(dòng)駕駛,還是AR/VR應(yīng)用,都離不開AI對(duì)空間結(jié)構(gòu)、物體布局和多步任務(wù)的精準(zhǔn)理解。但當(dāng)前大多數(shù)3DVLM依然存在兩大核心問題:
空間理解不足:許多模型依賴固定視角或簡(jiǎn)單全景拼接,導(dǎo)致遮擋物或關(guān)鍵結(jié)構(gòu)難以準(zhǔn)確識(shí)別;推理能力薄弱:缺乏高質(zhì)量的三維推理數(shù)據(jù)與獎(jiǎng)勵(lì)信號(hào),模型難以進(jìn)行深入的多步邏輯思考。
3D-R1:增強(qiáng)推理能力的3D通用模型
為解決上述挑戰(zhàn),研究團(tuán)隊(duì)提出了3D-R1。它不僅聚焦于對(duì)3D場(chǎng)景的精準(zhǔn)感知,還專門設(shè)計(jì)了增強(qiáng)「推理能力」的訓(xùn)練機(jī)制,使模型能像人一樣「思考」和「判斷」。
我們從三個(gè)關(guān)鍵方面對(duì)現(xiàn)有方法進(jìn)行了創(chuàng)新:
(1)構(gòu)建高質(zhì)量推理數(shù)據(jù)集:Scene-30K
大多數(shù)3D數(shù)據(jù)集中,只包含簡(jiǎn)單的描述或問答,而缺乏真正多步邏輯的訓(xùn)練樣本。為此,我們基于多個(gè)3D數(shù)據(jù)集(如ScanQA、SceneVerse等)合成了一個(gè)具有邏輯鏈條的高質(zhì)量數(shù)據(jù)集——Scene-30K
這個(gè)數(shù)據(jù)集的構(gòu)造流程如下:
1.場(chǎng)景描述生成:利用預(yù)訓(xùn)練3D模型對(duì)點(diǎn)云生成簡(jiǎn)潔的場(chǎng)景描述;
2.推理鏈生成:將場(chǎng)景描述輸入Gemini2.5Pro等大語言模型生成結(jié)構(gòu)化的推理過程(Chain-of-Thought);
3.規(guī)則過濾:對(duì)輸出進(jìn)行格式、邏輯一致性、答案正確性等過濾,確保質(zhì)量。
最終,我們獲得了3萬條結(jié)構(gòu)規(guī)范、邏輯清晰的訓(xùn)練樣本,為模型提供「冷啟動(dòng)」訓(xùn)練支持。
(2)結(jié)合強(qiáng)化學(xué)習(xí):讓模型學(xué)會(huì)「思考」
在冷啟動(dòng)訓(xùn)練之后,我們引入了基于GRPO(GroupRelativePolicyOptimization)的強(qiáng)化學(xué)習(xí)機(jī)制,讓模型在生成回答的過程中不斷自我優(yōu)化。
我們?cè)O(shè)計(jì)了三種獎(jiǎng)勵(lì)信號(hào):
格式獎(jiǎng)勵(lì):確保輸出結(jié)構(gòu)規(guī)范,例如必須包含<think>推理和<answer>答案格式;感知獎(jiǎng)勵(lì):通過預(yù)測(cè)框與真實(shí)框的IoU計(jì)算定位準(zhǔn)確性;語義獎(jiǎng)勵(lì):使用CLIP編碼器計(jì)算預(yù)測(cè)答案與真實(shí)答案的語義相似度。
這種方式使得模型不僅回答正確,而且過程清晰、結(jié)構(gòu)合規(guī)、語義貼合,具備更強(qiáng)的泛化推理能力。
(3)動(dòng)態(tài)視角選擇:看到更關(guān)鍵的信息
在三維場(chǎng)景中,不同視角包含的信息差異巨大。如果模型只能從固定角度看世界,往往會(huì)錯(cuò)過關(guān)鍵細(xì)節(jié)。為此,我們提出了一種動(dòng)態(tài)視角選擇策略,幫助模型自動(dòng)選擇6張最具代表性的視圖。
這一策略結(jié)合三種評(píng)分指標(biāo):
文本相關(guān)性(Text-to-3D):視角是否與問題文本高度相關(guān);空間覆蓋度(Image-to-3D):該視角是否補(bǔ)充其他視角遺漏的信息;多模態(tài)對(duì)齊(CLIP相似度):該視角與語言描述是否匹配。
最終,我們通過可學(xué)習(xí)的權(quán)重融合機(jī)制自動(dòng)優(yōu)化這些指標(biāo)組合,選擇對(duì)任務(wù)最關(guān)鍵的觀察視角。
多任務(wù)基準(zhǔn)測(cè)試:全面領(lǐng)先
3D-R1在7個(gè)3D任務(wù)上進(jìn)行了全面評(píng)估,包括:3D問答(3D-QA)、密集描述(3DDenseCaptioning)、物體描述(3DObjectCaptioning)、多輪對(duì)話(3DDialogue)、場(chǎng)景推理(3DReasoning)、動(dòng)作規(guī)劃(3DPlanning)、視覺定位(3DVisualGrounding)。
https://mp.weixin.qq.com/s/TgFY_hZcA7tKX163kztHXg
https://mp.weixin.qq.com/s/TgFY_hZcA7tKX163kztHXg
https://mp.weixin.qq.com/s/TgFY_hZcA7tKX163kztHXg
在3D場(chǎng)景密集描述任務(wù)中,3D-R1在ScanRefer和Nr3D兩個(gè)數(shù)據(jù)集上均超越了之前的專業(yè)模型。
在最具挑戰(zhàn)性的3D問答任務(wù)上,3D-R1在ScanQA基準(zhǔn)的驗(yàn)證集和兩個(gè)測(cè)試集上都取得了最優(yōu)成績(jī)。
在更復(fù)雜的3D對(duì)話、規(guī)劃和空間推理任務(wù)上,3D-R1同樣展現(xiàn)了其強(qiáng)大的綜合能力。
這些結(jié)果證明了:無論是感知還是推理,3D-R1都展現(xiàn)了更強(qiáng)的泛化能力和任務(wù)表現(xiàn)。
應(yīng)用前景廣闊
3D-R1不僅在學(xué)術(shù)指標(biāo)上領(lǐng)先,更具備實(shí)際應(yīng)用價(jià)值。未來,它可以應(yīng)用于:
家用機(jī)器人中:理解屋內(nèi)物體位置并作出決策;元宇宙/VR:根據(jù)場(chǎng)景進(jìn)行對(duì)話式引導(dǎo)和互動(dòng);自動(dòng)駕駛:理解復(fù)雜街景并實(shí)時(shí)應(yīng)答;工業(yè)檢查:根據(jù)場(chǎng)景自動(dòng)識(shí)別潛在風(fēng)險(xiǎn)區(qū)域。
3D-R1不僅是一項(xiàng)模型技術(shù)創(chuàng)新,更是我們走向更強(qiáng)三維智能體的關(guān)鍵一步。未來,我們計(jì)劃將其拓展至機(jī)器人控制、交互式問答、甚至自動(dòng)家居整理等現(xiàn)實(shí)應(yīng)用場(chǎng)景中。
本文作者介紹:
黃庭是上海工程技術(shù)大學(xué)電子電氣工程學(xué)院在讀碩士,研究方向聚焦于三維視覺語言模型、空間場(chǎng)景理解與多模態(tài)推理。曾參與多項(xiàng)科研項(xiàng)目,致力于構(gòu)建具備認(rèn)知與推理能力的通用3D-AI系統(tǒng)。
張澤宇是RichardHartley教授和IanReid教授指導(dǎo)的本科研究員。他的研究興趣扎根于計(jì)算機(jī)視覺領(lǐng)域,專注于探索幾何生成建模與前沿基礎(chǔ)模型之間的潛在聯(lián)系。張澤宇在多個(gè)研究領(lǐng)域擁有豐富的經(jīng)驗(yàn),積極探索人工智能基礎(chǔ)和應(yīng)用領(lǐng)域的前沿進(jìn)展。
唐浩現(xiàn)任北京大學(xué)計(jì)算機(jī)學(xué)院助理教授/研究員、博士生導(dǎo)師、博雅和未名青年學(xué)者,入選國家級(jí)海外高水平人才計(jì)劃。曾獲國家優(yōu)秀自費(fèi)留學(xué)生獎(jiǎng)學(xué)金,連續(xù)兩年入選斯坦福大學(xué)全球前2%頂尖科學(xué)家榜單。他曾在美國卡耐基梅隆大學(xué)、蘇黎世聯(lián)邦理工學(xué)院、英國牛津大學(xué)和意大利特倫托大學(xué)工作和學(xué)習(xí)。長(zhǎng)期致力于人工智能領(lǐng)域的研究,在國際頂級(jí)期刊與會(huì)議發(fā)表論文100余篇,相關(guān)成果被引用超過10000次。曾獲ACMMultimedia最佳論文提名獎(jiǎng),現(xiàn)任ACL2025、EMNLP2025、ACMMM2025領(lǐng)域主席及多個(gè)人工智能會(huì)議和期刊審稿人。更多信息參見個(gè)人主頁:https://ha0tang.github.io/
親情、愛情、友情,敵不過金錢——《歐也妮·葛朗臺(tái)》的悲劇分析...
《歐也妮.葛朗臺(tái)》:一個(gè)資產(chǎn)階級(jí)女孩的孤獨(dú)命運(yùn)
金錢至上,人道何在?從《歐也妮·葛朗臺(tái)》看人性的復(fù)雜與矛盾