3D生成又補齊了一塊重要拼圖——物理屬性!
南洋理工大學-商湯聯(lián)合研究中心S-Lab,及上海人工智能實驗室合作提出了PhysXNet,號稱首個系統(tǒng)性標注的物理基礎3D數(shù)據(jù)集。
團隊表示,3D生成正從純虛擬走向物理真實,但現(xiàn)有的3D生成方法主要側重于幾何結構與紋理信息,忽略了基于物理屬性的建模。
為了填補當前包含物理屬性3D數(shù)據(jù)集的關鍵空白,PhysXNet應運而生。
該數(shù)據(jù)集包含超過26K帶有豐富注釋的3D物體,涵蓋五個核心維度:物理尺度、材料、可供性、運動學信息、以及文本描述信息。
此外,團隊還提出了PhysXGen,一個面向真實物理世界的3D生成框架,以實現(xiàn)從圖像到真實3D資產的生成。
下面具體來看。
當前研究大多忽視了物理屬性
近年來,隨著3D資產在游戲、機器人技術和具身模擬等領域的廣泛應用,其多樣性與高質量生成受到了越來越多的關注。
大量研究工作集中在外觀與幾何結構上:包括高質量的3D數(shù)據(jù)集(Objaverse、ShapeNet)、高效的3D表示方法以及生成模型等方面。
然而,這些研究大多僅關注結構特征,忽視了現(xiàn)實世界物體所固有的物理屬性。
鑒于3D空間中對物理建模、理解與推理的需求不斷增長,團隊認為,從上游的數(shù)據(jù)標注流程到下游的生成建模,構建一個完整的基于物理的3D對象建模體系變得尤為重要。
考慮到除了幾何和外觀等純粹的結構屬性之外,現(xiàn)實世界中的物體還內在地具有豐富的物理和語義特性,包括:物理尺度、材料(密度、楊氏模量、泊松比)、可供性、運動學(運動模式、運動方向、運動范圍),以及文本描述(整體、功能、可供性信息)。
通過將這些基礎屬性與經典物理原理相結合,便可以推導出關鍵的動態(tài)指標,如重力效應、摩擦力、接觸區(qū)域、運動軌跡與交互關系等。
基于以上分析,團隊提出了首個全面的物理屬性3D數(shù)據(jù)集PhysXNet,包含超過26K帶有豐富注釋的3D物體。
除了在物體層級上的注釋外,還對每個零部件進行了物理屬性的標注。包括為所有部件提供了可供性排名以及運動學約束的詳細參數(shù),包括運動范圍、運動方向、子部件和父部件等信息。
除此之外,團隊還引入了擴展版本PhysXNet-XL,其中包含超過600萬個通過程序化生成并帶有物理注釋的3D對象。
進一步,團隊提出了PhysXGen——一個用于物理3D生成的前饋模型。
鑒于物理屬性在空間上與幾何結構和外觀密切相關,團隊利用預訓練的3D先驗,以生成具備物理屬性的3D資產,從而實現(xiàn)高效訓練并具備良好的泛化能力。
數(shù)據(jù)介紹
由于物理屬性難以測量且標注極其耗時,導致現(xiàn)存相關數(shù)據(jù)集數(shù)據(jù)量難以擴展。
為解決此挑戰(zhàn),團隊通過設計一個人在回路的標注流程以實現(xiàn)高效的物理信息采集標注。
通過與相關數(shù)據(jù)對比,團隊提出的數(shù)據(jù)集是首個包含多種豐富物理屬性的3D數(shù)據(jù)集,并且包括物體整體信息及各部分的物理信息。
標注流程
正如前文所述,在確定標注信息后,團隊提出了人在回路的標注框架,分為兩個明確的操作階段:
初步數(shù)據(jù)采集運動學參數(shù)確定
具體而言,團隊利用GPT-4o獲取基礎信息,為了保證原始數(shù)據(jù)質量,將由人工審核員對視覺-語言模型(VLM)的輸出結果進行檢查。
而第二階段細分為四個子任務:(2.a)接觸區(qū)域計算、(2.b)平面擬合、(2.c)候選項生成與篩選、(2.d)運動學參數(shù)確定。
數(shù)據(jù)分布
PhysXNet數(shù)據(jù)集包含超過26K個帶物理屬性的3D對象,圖中展示了對象中部件數(shù)量的長尾分布,其中每個對象平均包含約5個組成部件。
此外,圖(b)記錄了對象的長、寬、高分布情況。
由于PhysXNet涵蓋了從相對小型的室內物體到大型室外結構,物理尺寸在對象之間表現(xiàn)出顯著差異。
關于PhysXNet中的運動學類型和材料,團隊展示了詳細的比例組成。
最后,團隊還統(tǒng)計了PhysXNet-XL中程序化生成的600萬個3D數(shù)據(jù)的類別,涵蓋:a)類內組合及b)跨類別組合。
生成方法介紹
為實現(xiàn)高效的包含物理屬性的3D資產生成,團隊基于預訓練的3D表示空間,提出了PhysXGen,一個新穎且簡潔的框架,將物理屬性與幾何結構和外觀相結合。
其方法通過在生成過程中同步融合基礎物理屬性,同時通過有針對性的微調優(yōu)化結構分支,達到這一雙重目標。
這種聯(lián)合優(yōu)化使得生成的3D資產在保持出色幾何和外觀逼真度的同時,實現(xiàn)了物理上的自洽性。
實驗
定性及定量分析
如表所示,團隊從兩個維度對模型進行了定量評估:1)幾何結構與外觀質量評估;2)物理屬性評估。
需要說明的是,TRELLIS+PhysPre是Baseline,其采用獨立結構來預測物理屬性。
相比于這種分離式的物理屬性預測器,PhysXGen利用了物理屬性與預定義3D結構空間之間的相關性,不僅在物理屬性生成方面取得了顯著提升,同時也增強了外觀質量如圖所示。
與現(xiàn)有方法對比
為了評估PhysXGen在生成具物理基礎的3D資產方面的能力,團隊與一個基于GPT的基線流程進行了全面的定性與定量比較。
該基線流程由Trellis、PartField和GPT-4o組成。
在該評估框架下,給定一張圖像提示,Trellis首先生成具備完整幾何結構和外觀紋理的3D網格。
隨后,這些資產經由PartField進行細粒度的部件分割。
最后,GPT模型對每個部件賦予材料參數(shù)和動態(tài)屬性等物理屬性。
在四個評估維度上:物理尺度、材料、運動學和可供性,PhysXGen分別取得了24%、64%、28%和72%的相對性能提升,表現(xiàn)出顯著優(yōu)勢。
一種端到端物理基礎3D資產生成范式
本文旨在填補現(xiàn)有3D資產與真實世界之間的差距,提出了一種端到端的物理基礎3D資產生成范式,包括首個具物理屬性注釋的3D數(shù)據(jù)集(PhysXNet、PhysXNet-XL)以及新穎的物理屬性生成器(PhysXGen)。
具體而言,團隊構建了一個人機協(xié)同的數(shù)據(jù)標注流程,可將現(xiàn)有3D資源庫轉化為具備物理信息的數(shù)據(jù)集。
與此同時,其提出的新型端到端生成框架PhysXGen,能夠將物理先驗融入以結構為中心的架構中,從而實現(xiàn)穩(wěn)健的3D生成效果。
通過在PhysXNet上的實驗,團隊揭示了物理3D生成任務中的關鍵挑戰(zhàn)與未來方向。
團隊表示,該數(shù)據(jù)集將吸引來自嵌入式人工智能、機器人學以及3D視覺等多個研究領域的廣泛關注。
本論文第一作者曹子昂,南洋理工大學博士二年級,研究方向是計算機視覺、3DAIGC和具身智能。主要合作者為來自南洋理工大學的陳昭熹和來自上海人工智能實驗室的潘亮,通訊作者為南洋理工大學劉子緯教授。
論文鏈接:https://arxiv.org/abs/2507.12465項目主頁:hthttps://physx-3d.github.io/GitHub代碼:https://github.com/ziangcao0312/PhysX-3D
120本好書大盤點,發(fā)現(xiàn)那些錯過的好書!