張琪
在人工智能快速發(fā)展的今天,我們已逐漸習慣于讓AI識別圖像、理解語言,甚至與之對話。但當我們進入真實三維世界,如何讓AI具備「看懂場景」、「理解空間」和「推理復雜任務」的能力?這正是3D視覺語言模型(3DVLM)所要解決的問題。
本文介紹的一項新研究——3D-R1,提出了一種更通用、更具推理能力的三維視覺語言模型,它在多個3D任務中表現(xiàn)出了顯著的性能提升,有望成為3D人工智能通用系統(tǒng)的新范式。
論文標題:3D-R1:EnhancingReasoningin3DVLMsforUnifiedSceneUnderstanding論文鏈接:https://arxiv.org/pdf/2507.23478
背景:3D場景理解為何重要?
讓AI理解一個真實的三維環(huán)境,遠比識別一張圖片復雜得多。無論是服務機器人、自動駕駛,還是AR/VR應用,都離不開AI對空間結構、物體布局和多步任務的精準理解。但當前大多數(shù)3DVLM依然存在兩大核心問題:
空間理解不足:許多模型依賴固定視角或簡單全景拼接,導致遮擋物或關鍵結構難以準確識別;推理能力薄弱:缺乏高質量的三維推理數(shù)據(jù)與獎勵信號,模型難以進行深入的多步邏輯思考。
3D-R1:增強推理能力的3D通用模型
為解決上述挑戰(zhàn),研究團隊提出了3D-R1。它不僅聚焦于對3D場景的精準感知,還專門設計了增強「推理能力」的訓練機制,使模型能像人一樣「思考」和「判斷」。
我們從三個關鍵方面對現(xiàn)有方法進行了創(chuàng)新:
(1)構建高質量推理數(shù)據(jù)集:Scene-30K
大多數(shù)3D數(shù)據(jù)集中,只包含簡單的描述或問答,而缺乏真正多步邏輯的訓練樣本。為此,我們基于多個3D數(shù)據(jù)集(如ScanQA、SceneVerse等)合成了一個具有邏輯鏈條的高質量數(shù)據(jù)集——Scene-30K
這個數(shù)據(jù)集的構造流程如下:
1.場景描述生成:利用預訓練3D模型對點云生成簡潔的場景描述;
2.推理鏈生成:將場景描述輸入Gemini2.5Pro等大語言模型生成結構化的推理過程(Chain-of-Thought);
3.規(guī)則過濾:對輸出進行格式、邏輯一致性、答案正確性等過濾,確保質量。
最終,我們獲得了3萬條結構規(guī)范、邏輯清晰的訓練樣本,為模型提供「冷啟動」訓練支持。
(2)結合強化學習:讓模型學會「思考」
在冷啟動訓練之后,我們引入了基于GRPO(GroupRelativePolicyOptimization)的強化學習機制,讓模型在生成回答的過程中不斷自我優(yōu)化。
我們設計了三種獎勵信號:
格式獎勵:確保輸出結構規(guī)范,例如必須包含<think>推理和<answer>答案格式;感知獎勵:通過預測框與真實框的IoU計算定位準確性;語義獎勵:使用CLIP編碼器計算預測答案與真實答案的語義相似度。
這種方式使得模型不僅回答正確,而且過程清晰、結構合規(guī)、語義貼合,具備更強的泛化推理能力。
(3)動態(tài)視角選擇:看到更關鍵的信息
在三維場景中,不同視角包含的信息差異巨大。如果模型只能從固定角度看世界,往往會錯過關鍵細節(jié)。為此,我們提出了一種動態(tài)視角選擇策略,幫助模型自動選擇6張最具代表性的視圖。
這一策略結合三種評分指標:
文本相關性(Text-to-3D):視角是否與問題文本高度相關;空間覆蓋度(Image-to-3D):該視角是否補充其他視角遺漏的信息;多模態(tài)對齊(CLIP相似度):該視角與語言描述是否匹配。
最終,我們通過可學習的權重融合機制自動優(yōu)化這些指標組合,選擇對任務最關鍵的觀察視角。
多任務基準測試:全面領先
3D-R1在7個3D任務上進行了全面評估,包括:3D問答(3D-QA)、密集描述(3DDenseCaptioning)、物體描述(3DObjectCaptioning)、多輪對話(3DDialogue)、場景推理(3DReasoning)、動作規(guī)劃(3DPlanning)、視覺定位(3DVisualGrounding)。
https://mp.weixin.qq.com/s/TgFY_hZcA7tKX163kztHXg
https://mp.weixin.qq.com/s/TgFY_hZcA7tKX163kztHXg
https://mp.weixin.qq.com/s/TgFY_hZcA7tKX163kztHXg
在3D場景密集描述任務中,3D-R1在ScanRefer和Nr3D兩個數(shù)據(jù)集上均超越了之前的專業(yè)模型。
在最具挑戰(zhàn)性的3D問答任務上,3D-R1在ScanQA基準的驗證集和兩個測試集上都取得了最優(yōu)成績。
在更復雜的3D對話、規(guī)劃和空間推理任務上,3D-R1同樣展現(xiàn)了其強大的綜合能力。
這些結果證明了:無論是感知還是推理,3D-R1都展現(xiàn)了更強的泛化能力和任務表現(xiàn)。
應用前景廣闊
3D-R1不僅在學術指標上領先,更具備實際應用價值。未來,它可以應用于:
家用機器人中:理解屋內物體位置并作出決策;元宇宙/VR:根據(jù)場景進行對話式引導和互動;自動駕駛:理解復雜街景并實時應答;工業(yè)檢查:根據(jù)場景自動識別潛在風險區(qū)域。
3D-R1不僅是一項模型技術創(chuàng)新,更是我們走向更強三維智能體的關鍵一步。未來,我們計劃將其拓展至機器人控制、交互式問答、甚至自動家居整理等現(xiàn)實應用場景中。
本文作者介紹:
黃庭是上海工程技術大學電子電氣工程學院在讀碩士,研究方向聚焦于三維視覺語言模型、空間場景理解與多模態(tài)推理。曾參與多項科研項目,致力于構建具備認知與推理能力的通用3D-AI系統(tǒng)。
張澤宇是RichardHartley教授和IanReid教授指導的本科研究員。他的研究興趣扎根于計算機視覺領域,專注于探索幾何生成建模與前沿基礎模型之間的潛在聯(lián)系。張澤宇在多個研究領域擁有豐富的經(jīng)驗,積極探索人工智能基礎和應用領域的前沿進展。
唐浩現(xiàn)任北京大學計算機學院助理教授/研究員、博士生導師、博雅和未名青年學者,入選國家級海外高水平人才計劃。曾獲國家優(yōu)秀自費留學生獎學金,連續(xù)兩年入選斯坦福大學全球前2%頂尖科學家榜單。他曾在美國卡耐基梅隆大學、蘇黎世聯(lián)邦理工學院、英國牛津大學和意大利特倫托大學工作和學習。長期致力于人工智能領域的研究,在國際頂級期刊與會議發(fā)表論文100余篇,相關成果被引用超過10000次。曾獲ACMMultimedia最佳論文提名獎,現(xiàn)任ACL2025、EMNLP2025、ACMMM2025領域主席及多個人工智能會議和期刊審稿人。更多信息參見個人主頁:https://ha0tang.github.io/
5本量大質優(yōu)的無限穿梭類小說,主角不斷成長變強,吊打各路不服
“武俠令牌的存在,是為了培養(yǎng)天下第一武林高手,只要宿主能夠在這具身體死亡之前,成為本世界的天下第一,就能夠穿越到另外的武俠世界之中,開始新的冒險旅程,直到宿主最終成為所有武俠世界的天下第一,成為武俠之神為止。”武俠令牌冷冰冰的聲音響起在我的腦海之中。武俠之神?龍劍飛沉聲道:“要是在成為武俠之神之還有呢?
這本小說主角得神秘青銅門,穿越武俠世界,遍戰(zhàn)山河,劍行天涯!
看點:這本小說較為可惜的是在起點正版上已經(jīng)被屏蔽了,無法觀看,只能看盜版的了。文抄公的書迷們一致認為這是文抄公的巔峰之作,也是文抄公自己真正意義上的第一本小說,大綱劇情構思仍在香火成神道之前,精心打磨了兩三年的大成之作,也是他初次試水無限流——|。無限武俠流的仙草級別!無盡寬廣而浩瀚的武道世界。這里有希望你能滿意——。
5本諸天無限流小說,主角在各界穿梭中壯大自身,看得很爽很過癮...
《武俠世界逍遙游》無限武俠穿越流,《大冒險》的跟風之作,但寫得不錯,作者創(chuàng)新很多|。關注這類小說的朋友都知道,這類小說并不是作者自己創(chuàng)造一個武俠世界,而是對金庸、古龍這些經(jīng)典名著的改寫,主角一個一個世界去穿越,然后改寫不一樣的結局。說白了就是同人文,如果你對金庸這些經(jīng)典武俠小說很了解的話,那么還有呢?
來源:紅網(wǎng)
作者:翁家羽
編輯:叢曾琪
本文為紅辣椒評論 原創(chuàng)文章,僅系作者個人觀點,不代表紅網(wǎng)立場。轉載請附原文出處鏈接和本聲明。