董燁
在人工智能快速發(fā)展的今天,我們已逐漸習(xí)慣于讓AI識(shí)別圖像、理解語(yǔ)言,甚至與之對(duì)話。但當(dāng)我們進(jìn)入真實(shí)三維世界,如何讓AI具備「看懂場(chǎng)景」、「理解空間」和「推理復(fù)雜任務(wù)」的能力?這正是3D視覺(jué)語(yǔ)言模型(3DVLM)所要解決的問(wèn)題。
本文介紹的一項(xiàng)新研究——3D-R1,提出了一種更通用、更具推理能力的三維視覺(jué)語(yǔ)言模型,它在多個(gè)3D任務(wù)中表現(xiàn)出了顯著的性能提升,有望成為3D人工智能通用系統(tǒng)的新范式。
論文標(biāo)題:3D-R1:EnhancingReasoningin3DVLMsforUnifiedSceneUnderstanding論文鏈接:https://arxiv.org/pdf/2507.23478
背景:3D場(chǎng)景理解為何重要?
讓AI理解一個(gè)真實(shí)的三維環(huán)境,遠(yuǎn)比識(shí)別一張圖片復(fù)雜得多。無(wú)論是服務(wù)機(jī)器人、自動(dòng)駕駛,還是AR/VR應(yīng)用,都離不開(kāi)AI對(duì)空間結(jié)構(gòu)、物體布局和多步任務(wù)的精準(zhǔn)理解。但當(dāng)前大多數(shù)3DVLM依然存在兩大核心問(wèn)題:
空間理解不足:許多模型依賴(lài)固定視角或簡(jiǎn)單全景拼接,導(dǎo)致遮擋物或關(guān)鍵結(jié)構(gòu)難以準(zhǔn)確識(shí)別;推理能力薄弱:缺乏高質(zhì)量的三維推理數(shù)據(jù)與獎(jiǎng)勵(lì)信號(hào),模型難以進(jìn)行深入的多步邏輯思考。
3D-R1:增強(qiáng)推理能力的3D通用模型
為解決上述挑戰(zhàn),研究團(tuán)隊(duì)提出了3D-R1。它不僅聚焦于對(duì)3D場(chǎng)景的精準(zhǔn)感知,還專(zhuān)門(mén)設(shè)計(jì)了增強(qiáng)「推理能力」的訓(xùn)練機(jī)制,使模型能像人一樣「思考」和「判斷」。
我們從三個(gè)關(guān)鍵方面對(duì)現(xiàn)有方法進(jìn)行了創(chuàng)新:
(1)構(gòu)建高質(zhì)量推理數(shù)據(jù)集:Scene-30K
大多數(shù)3D數(shù)據(jù)集中,只包含簡(jiǎn)單的描述或問(wèn)答,而缺乏真正多步邏輯的訓(xùn)練樣本。為此,我們基于多個(gè)3D數(shù)據(jù)集(如ScanQA、SceneVerse等)合成了一個(gè)具有邏輯鏈條的高質(zhì)量數(shù)據(jù)集——Scene-30K
這個(gè)數(shù)據(jù)集的構(gòu)造流程如下:
1.場(chǎng)景描述生成:利用預(yù)訓(xùn)練3D模型對(duì)點(diǎn)云生成簡(jiǎn)潔的場(chǎng)景描述;
2.推理鏈生成:將場(chǎng)景描述輸入Gemini2.5Pro等大語(yǔ)言模型生成結(jié)構(gòu)化的推理過(guò)程(Chain-of-Thought);
3.規(guī)則過(guò)濾:對(duì)輸出進(jìn)行格式、邏輯一致性、答案正確性等過(guò)濾,確保質(zhì)量。
最終,我們獲得了3萬(wàn)條結(jié)構(gòu)規(guī)范、邏輯清晰的訓(xùn)練樣本,為模型提供「冷啟動(dòng)」訓(xùn)練支持。
(2)結(jié)合強(qiáng)化學(xué)習(xí):讓模型學(xué)會(huì)「思考」
在冷啟動(dòng)訓(xùn)練之后,我們引入了基于GRPO(GroupRelativePolicyOptimization)的強(qiáng)化學(xué)習(xí)機(jī)制,讓模型在生成回答的過(guò)程中不斷自我優(yōu)化。
我們?cè)O(shè)計(jì)了三種獎(jiǎng)勵(lì)信號(hào):
格式獎(jiǎng)勵(lì):確保輸出結(jié)構(gòu)規(guī)范,例如必須包含<think>推理和<answer>答案格式;感知獎(jiǎng)勵(lì):通過(guò)預(yù)測(cè)框與真實(shí)框的IoU計(jì)算定位準(zhǔn)確性;語(yǔ)義獎(jiǎng)勵(lì):使用CLIP編碼器計(jì)算預(yù)測(cè)答案與真實(shí)答案的語(yǔ)義相似度。
這種方式使得模型不僅回答正確,而且過(guò)程清晰、結(jié)構(gòu)合規(guī)、語(yǔ)義貼合,具備更強(qiáng)的泛化推理能力。
(3)動(dòng)態(tài)視角選擇:看到更關(guān)鍵的信息
在三維場(chǎng)景中,不同視角包含的信息差異巨大。如果模型只能從固定角度看世界,往往會(huì)錯(cuò)過(guò)關(guān)鍵細(xì)節(jié)。為此,我們提出了一種動(dòng)態(tài)視角選擇策略,幫助模型自動(dòng)選擇6張最具代表性的視圖。
這一策略結(jié)合三種評(píng)分指標(biāo):
文本相關(guān)性(Text-to-3D):視角是否與問(wèn)題文本高度相關(guān);空間覆蓋度(Image-to-3D):該視角是否補(bǔ)充其他視角遺漏的信息;多模態(tài)對(duì)齊(CLIP相似度):該視角與語(yǔ)言描述是否匹配。
最終,我們通過(guò)可學(xué)習(xí)的權(quán)重融合機(jī)制自動(dòng)優(yōu)化這些指標(biāo)組合,選擇對(duì)任務(wù)最關(guān)鍵的觀察視角。
多任務(wù)基準(zhǔn)測(cè)試:全面領(lǐng)先
3D-R1在7個(gè)3D任務(wù)上進(jìn)行了全面評(píng)估,包括:3D問(wèn)答(3D-QA)、密集描述(3DDenseCaptioning)、物體描述(3DObjectCaptioning)、多輪對(duì)話(3DDialogue)、場(chǎng)景推理(3DReasoning)、動(dòng)作規(guī)劃(3DPlanning)、視覺(jué)定位(3DVisualGrounding)。
https://mp.weixin.qq.com/s/TgFY_hZcA7tKX163kztHXg
https://mp.weixin.qq.com/s/TgFY_hZcA7tKX163kztHXg
https://mp.weixin.qq.com/s/TgFY_hZcA7tKX163kztHXg
在3D場(chǎng)景密集描述任務(wù)中,3D-R1在ScanRefer和Nr3D兩個(gè)數(shù)據(jù)集上均超越了之前的專(zhuān)業(yè)模型。
在最具挑戰(zhàn)性的3D問(wèn)答任務(wù)上,3D-R1在ScanQA基準(zhǔn)的驗(yàn)證集和兩個(gè)測(cè)試集上都取得了最優(yōu)成績(jī)。
在更復(fù)雜的3D對(duì)話、規(guī)劃和空間推理任務(wù)上,3D-R1同樣展現(xiàn)了其強(qiáng)大的綜合能力。
這些結(jié)果證明了:無(wú)論是感知還是推理,3D-R1都展現(xiàn)了更強(qiáng)的泛化能力和任務(wù)表現(xiàn)。
應(yīng)用前景廣闊
3D-R1不僅在學(xué)術(shù)指標(biāo)上領(lǐng)先,更具備實(shí)際應(yīng)用價(jià)值。未來(lái),它可以應(yīng)用于:
家用機(jī)器人中:理解屋內(nèi)物體位置并作出決策;元宇宙/VR:根據(jù)場(chǎng)景進(jìn)行對(duì)話式引導(dǎo)和互動(dòng);自動(dòng)駕駛:理解復(fù)雜街景并實(shí)時(shí)應(yīng)答;工業(yè)檢查:根據(jù)場(chǎng)景自動(dòng)識(shí)別潛在風(fēng)險(xiǎn)區(qū)域。
3D-R1不僅是一項(xiàng)模型技術(shù)創(chuàng)新,更是我們走向更強(qiáng)三維智能體的關(guān)鍵一步。未來(lái),我們計(jì)劃將其拓展至機(jī)器人控制、交互式問(wèn)答、甚至自動(dòng)家居整理等現(xiàn)實(shí)應(yīng)用場(chǎng)景中。
本文作者介紹:
黃庭是上海工程技術(shù)大學(xué)電子電氣工程學(xué)院在讀碩士,研究方向聚焦于三維視覺(jué)語(yǔ)言模型、空間場(chǎng)景理解與多模態(tài)推理。曾參與多項(xiàng)科研項(xiàng)目,致力于構(gòu)建具備認(rèn)知與推理能力的通用3D-AI系統(tǒng)。
張澤宇是RichardHartley教授和IanReid教授指導(dǎo)的本科研究員。他的研究興趣扎根于計(jì)算機(jī)視覺(jué)領(lǐng)域,專(zhuān)注于探索幾何生成建模與前沿基礎(chǔ)模型之間的潛在聯(lián)系。張澤宇在多個(gè)研究領(lǐng)域擁有豐富的經(jīng)驗(yàn),積極探索人工智能基礎(chǔ)和應(yīng)用領(lǐng)域的前沿進(jìn)展。
唐浩現(xiàn)任北京大學(xué)計(jì)算機(jī)學(xué)院助理教授/研究員、博士生導(dǎo)師、博雅和未名青年學(xué)者,入選國(guó)家級(jí)海外高水平人才計(jì)劃。曾獲國(guó)家優(yōu)秀自費(fèi)留學(xué)生獎(jiǎng)學(xué)金,連續(xù)兩年入選斯坦福大學(xué)全球前2%頂尖科學(xué)家榜單。他曾在美國(guó)卡耐基梅隆大學(xué)、蘇黎世聯(lián)邦理工學(xué)院、英國(guó)牛津大學(xué)和意大利特倫托大學(xué)工作和學(xué)習(xí)。長(zhǎng)期致力于人工智能領(lǐng)域的研究,在國(guó)際頂級(jí)期刊與會(huì)議發(fā)表論文100余篇,相關(guān)成果被引用超過(guò)10000次。曾獲ACMMultimedia最佳論文提名獎(jiǎng),現(xiàn)任ACL2025、EMNLP2025、ACMMM2025領(lǐng)域主席及多個(gè)人工智能會(huì)議和期刊審稿人。更多信息參見(jiàn)個(gè)人主頁(yè):https://ha0tang.github.io/
古言權(quán)謀文,《閨中煞》男主寵妻不輸陳三爺!簡(jiǎn)直橫掃一切!
頻頻被搜索?《閨中煞》為首的三本高人氣穿越重生神作《閨中煞》 作者:簡(jiǎn)也內(nèi)容簡(jiǎn)介:江家三房有女,灼灼其華_-。執(zhí)筆一篇君令策,驚了整個(gè)齊北之地。早年,被迫嫁給鰥夫,母親為她垂淚早逝_(tái)。而后淪落太監(jiān)手中,父親幾番進(jìn)京為她,淪為五馬分尸下場(chǎng)。何為家破?何為人亡?時(shí)光逆轉(zhuǎn)……大宅院中機(jī)關(guān)說(shuō)完了_。
《一世容安》也認(rèn)輸,十七夜攜佳作榮奪榜一,9.9分強(qiáng)推!
1.《閨中煞》作者:簡(jiǎn)也簡(jiǎn)介:江家三房有女,灼灼其華。何為家破?何為人亡?時(shí)光逆轉(zhuǎn)……大宅院中機(jī)關(guān)算盡,朝堂權(quán)術(shù)步步為營(yíng)!她紅衣華絕,笑意清淺,“這一世,執(zhí)棋之人,是我……”落花本無(wú)情,春風(fēng)吹又生!閨中佞,煞天下!免費(fèi)閱讀:精彩片段:江灼看著場(chǎng)面變成這般,立馬說(shuō)道:“二姐姐,..
高開(kāi)高走的熱追小說(shuō)合集,《閨中煞》持續(xù)高能
今天給大家?guī)?lái)的精彩內(nèi)容是:細(xì)節(jié)滿滿的佳作,《閨中煞》讓讀者跪服,看過(guò)就淪陷《閨中煞》 作者:簡(jiǎn)也內(nèi)容簡(jiǎn)介:江家三房有女,灼灼其華。執(zhí)筆一篇君令策,驚了整個(gè)齊北之地。早年,被迫嫁給鰥夫,母親為她垂淚早逝_(tái)——。而后淪落太監(jiān)手中,父親幾番進(jìn)京為她,淪為五馬分尸下場(chǎng)。何為家破?何為人亡?
來(lái)源:紅網(wǎng)
作者:韓常祥
編輯:林新綺
本文為紅辣椒評(píng)論 原創(chuàng)文章,僅系作者個(gè)人觀點(diǎn),不代表紅網(wǎng)立場(chǎng)。轉(zhuǎn)載請(qǐng)附原文出處鏈接和本聲明。