3D生成又補(bǔ)齊了一塊重要拼圖——物理屬性!
南洋理工大學(xué)-商湯聯(lián)合研究中心S-Lab,及上海人工智能實(shí)驗(yàn)室合作提出了PhysXNet,號(hào)稱首個(gè)系統(tǒng)性標(biāo)注的物理基礎(chǔ)3D數(shù)據(jù)集。
團(tuán)隊(duì)表示,3D生成正從純虛擬走向物理真實(shí),但現(xiàn)有的3D生成方法主要側(cè)重于幾何結(jié)構(gòu)與紋理信息,忽略了基于物理屬性的建模。
為了填補(bǔ)當(dāng)前包含物理屬性3D數(shù)據(jù)集的關(guān)鍵空白,PhysXNet應(yīng)運(yùn)而生。
該數(shù)據(jù)集包含超過(guò)26K帶有豐富注釋的3D物體,涵蓋五個(gè)核心維度:物理尺度、材料、可供性、運(yùn)動(dòng)學(xué)信息、以及文本描述信息。
此外,團(tuán)隊(duì)還提出了PhysXGen,一個(gè)面向真實(shí)物理世界的3D生成框架,以實(shí)現(xiàn)從圖像到真實(shí)3D資產(chǎn)的生成。
下面具體來(lái)看。
當(dāng)前研究大多忽視了物理屬性
近年來(lái),隨著3D資產(chǎn)在游戲、機(jī)器人技術(shù)和具身模擬等領(lǐng)域的廣泛應(yīng)用,其多樣性與高質(zhì)量生成受到了越來(lái)越多的關(guān)注。
大量研究工作集中在外觀與幾何結(jié)構(gòu)上:包括高質(zhì)量的3D數(shù)據(jù)集(Objaverse、ShapeNet)、高效的3D表示方法以及生成模型等方面。
然而,這些研究大多僅關(guān)注結(jié)構(gòu)特征,忽視了現(xiàn)實(shí)世界物體所固有的物理屬性。
鑒于3D空間中對(duì)物理建模、理解與推理的需求不斷增長(zhǎng),團(tuán)隊(duì)認(rèn)為,從上游的數(shù)據(jù)標(biāo)注流程到下游的生成建模,構(gòu)建一個(gè)完整的基于物理的3D對(duì)象建模體系變得尤為重要。
考慮到除了幾何和外觀等純粹的結(jié)構(gòu)屬性之外,現(xiàn)實(shí)世界中的物體還內(nèi)在地具有豐富的物理和語(yǔ)義特性,包括:物理尺度、材料(密度、楊氏模量、泊松比)、可供性、運(yùn)動(dòng)學(xué)(運(yùn)動(dòng)模式、運(yùn)動(dòng)方向、運(yùn)動(dòng)范圍),以及文本描述(整體、功能、可供性信息)。
通過(guò)將這些基礎(chǔ)屬性與經(jīng)典物理原理相結(jié)合,便可以推導(dǎo)出關(guān)鍵的動(dòng)態(tài)指標(biāo),如重力效應(yīng)、摩擦力、接觸區(qū)域、運(yùn)動(dòng)軌跡與交互關(guān)系等。
基于以上分析,團(tuán)隊(duì)提出了首個(gè)全面的物理屬性3D數(shù)據(jù)集PhysXNet,包含超過(guò)26K帶有豐富注釋的3D物體。
除了在物體層級(jí)上的注釋外,還對(duì)每個(gè)零部件進(jìn)行了物理屬性的標(biāo)注。包括為所有部件提供了可供性排名以及運(yùn)動(dòng)學(xué)約束的詳細(xì)參數(shù),包括運(yùn)動(dòng)范圍、運(yùn)動(dòng)方向、子部件和父部件等信息。
除此之外,團(tuán)隊(duì)還引入了擴(kuò)展版本PhysXNet-XL,其中包含超過(guò)600萬(wàn)個(gè)通過(guò)程序化生成并帶有物理注釋的3D對(duì)象。
進(jìn)一步,團(tuán)隊(duì)提出了PhysXGen——一個(gè)用于物理3D生成的前饋模型。
鑒于物理屬性在空間上與幾何結(jié)構(gòu)和外觀密切相關(guān),團(tuán)隊(duì)利用預(yù)訓(xùn)練的3D先驗(yàn),以生成具備物理屬性的3D資產(chǎn),從而實(shí)現(xiàn)高效訓(xùn)練并具備良好的泛化能力。
數(shù)據(jù)介紹
由于物理屬性難以測(cè)量且標(biāo)注極其耗時(shí),導(dǎo)致現(xiàn)存相關(guān)數(shù)據(jù)集數(shù)據(jù)量難以擴(kuò)展。
為解決此挑戰(zhàn),團(tuán)隊(duì)通過(guò)設(shè)計(jì)一個(gè)人在回路的標(biāo)注流程以實(shí)現(xiàn)高效的物理信息采集標(biāo)注。
通過(guò)與相關(guān)數(shù)據(jù)對(duì)比,團(tuán)隊(duì)提出的數(shù)據(jù)集是首個(gè)包含多種豐富物理屬性的3D數(shù)據(jù)集,并且包括物體整體信息及各部分的物理信息。
標(biāo)注流程
正如前文所述,在確定標(biāo)注信息后,團(tuán)隊(duì)提出了人在回路的標(biāo)注框架,分為兩個(gè)明確的操作階段:
初步數(shù)據(jù)采集運(yùn)動(dòng)學(xué)參數(shù)確定
具體而言,團(tuán)隊(duì)利用GPT-4o獲取基礎(chǔ)信息,為了保證原始數(shù)據(jù)質(zhì)量,將由人工審核員對(duì)視覺(jué)-語(yǔ)言模型(VLM)的輸出結(jié)果進(jìn)行檢查。
而第二階段細(xì)分為四個(gè)子任務(wù):(2.a)接觸區(qū)域計(jì)算、(2.b)平面擬合、(2.c)候選項(xiàng)生成與篩選、(2.d)運(yùn)動(dòng)學(xué)參數(shù)確定。
數(shù)據(jù)分布
PhysXNet數(shù)據(jù)集包含超過(guò)26K個(gè)帶物理屬性的3D對(duì)象,圖中展示了對(duì)象中部件數(shù)量的長(zhǎng)尾分布,其中每個(gè)對(duì)象平均包含約5個(gè)組成部件。
此外,圖(b)記錄了對(duì)象的長(zhǎng)、寬、高分布情況。
由于PhysXNet涵蓋了從相對(duì)小型的室內(nèi)物體到大型室外結(jié)構(gòu),物理尺寸在對(duì)象之間表現(xiàn)出顯著差異。
關(guān)于PhysXNet中的運(yùn)動(dòng)學(xué)類型和材料,團(tuán)隊(duì)展示了詳細(xì)的比例組成。
最后,團(tuán)隊(duì)還統(tǒng)計(jì)了PhysXNet-XL中程序化生成的600萬(wàn)個(gè)3D數(shù)據(jù)的類別,涵蓋:a)類內(nèi)組合及b)跨類別組合。
生成方法介紹
為實(shí)現(xiàn)高效的包含物理屬性的3D資產(chǎn)生成,團(tuán)隊(duì)基于預(yù)訓(xùn)練的3D表示空間,提出了PhysXGen,一個(gè)新穎且簡(jiǎn)潔的框架,將物理屬性與幾何結(jié)構(gòu)和外觀相結(jié)合。
其方法通過(guò)在生成過(guò)程中同步融合基礎(chǔ)物理屬性,同時(shí)通過(guò)有針對(duì)性的微調(diào)優(yōu)化結(jié)構(gòu)分支,達(dá)到這一雙重目標(biāo)。
這種聯(lián)合優(yōu)化使得生成的3D資產(chǎn)在保持出色幾何和外觀逼真度的同時(shí),實(shí)現(xiàn)了物理上的自洽性。
實(shí)驗(yàn)
定性及定量分析
如表所示,團(tuán)隊(duì)從兩個(gè)維度對(duì)模型進(jìn)行了定量評(píng)估:1)幾何結(jié)構(gòu)與外觀質(zhì)量評(píng)估;2)物理屬性評(píng)估。
需要說(shuō)明的是,TRELLIS+PhysPre是Baseline,其采用獨(dú)立結(jié)構(gòu)來(lái)預(yù)測(cè)物理屬性。
相比于這種分離式的物理屬性預(yù)測(cè)器,PhysXGen利用了物理屬性與預(yù)定義3D結(jié)構(gòu)空間之間的相關(guān)性,不僅在物理屬性生成方面取得了顯著提升,同時(shí)也增強(qiáng)了外觀質(zhì)量如圖所示。
與現(xiàn)有方法對(duì)比
為了評(píng)估PhysXGen在生成具物理基礎(chǔ)的3D資產(chǎn)方面的能力,團(tuán)隊(duì)與一個(gè)基于GPT的基線流程進(jìn)行了全面的定性與定量比較。
該基線流程由Trellis、PartField和GPT-4o組成。
在該評(píng)估框架下,給定一張圖像提示,Trellis首先生成具備完整幾何結(jié)構(gòu)和外觀紋理的3D網(wǎng)格。
隨后,這些資產(chǎn)經(jīng)由PartField進(jìn)行細(xì)粒度的部件分割。
最后,GPT模型對(duì)每個(gè)部件賦予材料參數(shù)和動(dòng)態(tài)屬性等物理屬性。
在四個(gè)評(píng)估維度上:物理尺度、材料、運(yùn)動(dòng)學(xué)和可供性,PhysXGen分別取得了24%、64%、28%和72%的相對(duì)性能提升,表現(xiàn)出顯著優(yōu)勢(shì)。
一種端到端物理基礎(chǔ)3D資產(chǎn)生成范式
本文旨在填補(bǔ)現(xiàn)有3D資產(chǎn)與真實(shí)世界之間的差距,提出了一種端到端的物理基礎(chǔ)3D資產(chǎn)生成范式,包括首個(gè)具物理屬性注釋的3D數(shù)據(jù)集(PhysXNet、PhysXNet-XL)以及新穎的物理屬性生成器(PhysXGen)。
具體而言,團(tuán)隊(duì)構(gòu)建了一個(gè)人機(jī)協(xié)同的數(shù)據(jù)標(biāo)注流程,可將現(xiàn)有3D資源庫(kù)轉(zhuǎn)化為具備物理信息的數(shù)據(jù)集。
與此同時(shí),其提出的新型端到端生成框架PhysXGen,能夠?qū)⑽锢硐闰?yàn)融入以結(jié)構(gòu)為中心的架構(gòu)中,從而實(shí)現(xiàn)穩(wěn)健的3D生成效果。
通過(guò)在PhysXNet上的實(shí)驗(yàn),團(tuán)隊(duì)揭示了物理3D生成任務(wù)中的關(guān)鍵挑戰(zhàn)與未來(lái)方向。
團(tuán)隊(duì)表示,該數(shù)據(jù)集將吸引來(lái)自嵌入式人工智能、機(jī)器人學(xué)以及3D視覺(jué)等多個(gè)研究領(lǐng)域的廣泛關(guān)注。
本論文第一作者曹子昂,南洋理工大學(xué)博士二年級(jí),研究方向是計(jì)算機(jī)視覺(jué)、3DAIGC和具身智能。主要合作者為來(lái)自南洋理工大學(xué)的陳昭熹和來(lái)自上海人工智能實(shí)驗(yàn)室的潘亮,通訊作者為南洋理工大學(xué)劉子緯教授。
論文鏈接:https://arxiv.org/abs/2507.12465項(xiàng)目主頁(yè):hthttps://physx-3d.github.io/GitHub代碼:https://github.com/ziangcao0312/PhysX-3D
病嬌,《偏執(zhí)的他擁我入懷》颯爽不羈女主vs腹黑偏執(zhí)男主,超甜
病嬌:《匆匆那年2》颯爽不羈女主vs腹黑偏執(zhí)男主,超甜
9本古言沖喜文,先婚后愛(ài),相互扶持,溫柔小美人vs病秧子權(quán)臣
免責(zé)聲明:本文內(nèi)容由開放的智能模型自動(dòng)生成,僅供參考。