趙怡璇
新智元報道
定慧犀牛
【新智元導(dǎo)讀】群核科技正構(gòu)建具身智能時代的「3D版ImageNet」。其打造的SpatialVerse平臺,為機器人提供高質(zhì)量三維數(shù)據(jù)與仿真環(huán)境,有望突破Sim2Real難題。借助3D高斯濺射與空間大模型,群核發(fā)布全球首個大規(guī)模3D語義數(shù)據(jù)集InteriorGS,為AI理解和適應(yīng)物理世界奠定基礎(chǔ)。
推動歷史的人,往往在當(dāng)時并不知道他正改變世界。
2009年,蘋果還沒發(fā)布iPhone4,但李飛飛卻已經(jīng)打造了一個包含320萬張圖片的ImageNet數(shù)據(jù)集給「機器學(xué)習(xí)」。
2012年,Hinton和他的學(xué)生Ilya、Alex在ImageNet競賽中以AlexNet模型橫掃千軍。
Ilya后來成為OpenAI的創(chuàng)始成員,他們的產(chǎn)品ChatGPT開創(chuàng)了如今的大語言模型時代!
而Hinton成為了AI之父。
假如沒有ImageNet這個海量、真實、復(fù)雜的數(shù)據(jù)集「燃料」,也許深度學(xué)習(xí)這個引擎,就不會這么快的點火啟程,也許今天的AI也不會如此迅猛。
如今,AI正在從二維世界進入三維世界,關(guān)鍵就是空間智能。
ImageNet同樣的歷史或許正在具身智能和仿真合成數(shù)據(jù)領(lǐng)域上演。
2018年,一個空間領(lǐng)域的3D數(shù)據(jù)集——InteriorNet,引起了學(xué)術(shù)界的關(guān)注。這是當(dāng)時全球最大的室內(nèi)空間認知深度學(xué)習(xí)數(shù)據(jù)集。
彼時的硅谷科技企業(yè)們,正開始探索通過合成數(shù)據(jù)的方式去訓(xùn)練智能體,InteriorNet數(shù)據(jù)集的出現(xiàn),令他們眼前一亮。
InteriorNet數(shù)據(jù)集(包含約1億3千萬圖像數(shù)據(jù))
推出數(shù)據(jù)集的這家企業(yè),便是群核科技。
2024年,群核科技推出群核空間智能平臺SpatialVerse。同年,李飛飛也宣布自己的WorldLabs成立,只用一張圖就能生成3D世界。
但3D數(shù)據(jù)和類似ImageNet的2D數(shù)據(jù)有著本質(zhì)的不同。
李飛飛當(dāng)年靠著亞馬遜眾包平臺,依靠人力完成了海量數(shù)據(jù)(1500萬張圖片)的標(biāo)注工作。
而3D數(shù)據(jù),卻是極度的稀缺。
具身智能的「ImageNet」
雖然還有數(shù)據(jù)稀缺等問題,但空間智能與具身智能成為下一個AI發(fā)展的主流領(lǐng)域,已成為行業(yè)的共識。
就在剛剛結(jié)束的WAIC2025大會上,空間智能與具身智能徹底登上了大會的「主舞臺」。
新智元現(xiàn)場觀察到,整個展館二樓H3都打造成了一只規(guī)模龐大的「機器人方陣」,超過150臺形態(tài)各異的機器人集體亮相。
與以往大都靜態(tài)展示不同的是,這次的機器人全都動了起來——拳擊、架子鼓、制作咖啡甚至是擰螺絲,各種花活全都給整上了。
但正如機器人跑起來還是踉踉蹌蹌、時不時躺平給你看一樣,具身智能的發(fā)展還有很多挑戰(zhàn)。
我們不得不思考,未來當(dāng)機器人真正進入人類生活——無論是客廳、工廠,還是商業(yè)空間——它們?nèi)绾巫R別筆記本、茶杯、椅子、或是一道門?
又如何學(xué)習(xí)從「看」到「動」,從「觀察」到「執(zhí)行」?
當(dāng)具身智能機器人來到你家的客廳,它如何識別出筆記本、食物、椅子、或是茶杯?
具身智能的崛起,離不開對3D世界的深刻理解和豐富交互。
正如圖像識別需要ImageNet那樣,具身智能也亟需一個「3D版的ImageNet」。
然而,現(xiàn)在正面臨的是一個前所未有的難題:空間智能訓(xùn)練所需的數(shù)據(jù)遠比2D圖像復(fù)雜,數(shù)據(jù)的獲取成本和難度呈指數(shù)級上升。
群核科技當(dāng)時推出的InteriorNet深度學(xué)習(xí)數(shù)據(jù)集,包含了1600萬組像素級標(biāo)簽數(shù)據(jù)和1.5萬組視頻數(shù)據(jù),共計約1億3千萬圖像數(shù)據(jù)。
但AI走進物理世界,還需要更多3D數(shù)據(jù)。
當(dāng)前主流的三種數(shù)據(jù)來源與困境
當(dāng)前空間智能/具身智能行業(yè)存在的挑戰(zhàn)有很多,但是主要挑戰(zhàn)是數(shù)據(jù)困境,而仿真數(shù)據(jù)生成困境最為突出。
當(dāng)前,具身智能獲取訓(xùn)練數(shù)據(jù)的主要途徑可歸為三大類:真實數(shù)據(jù)(Real-WorldData)、互聯(lián)網(wǎng)數(shù)據(jù)(Internet/PassiveData)與仿真合成數(shù)據(jù)(Simulated/SyntheticData)。
真實數(shù)據(jù)
真實數(shù)據(jù),可以理解為機器人在物理環(huán)境中實際執(zhí)行任務(wù)時,使用傳感器、攝像頭、力覺器件等采集的一手數(shù)據(jù)。
PhysicalIntelligence(加州創(chuàng)業(yè)公司)通過大量真實機器人運動與傳感器數(shù)據(jù)訓(xùn)練具身智能模型。
這些數(shù)據(jù)雖然完全符合物理規(guī)律,但是缺點明顯:
成本高昂:每一條數(shù)據(jù)采集往往需專人操作+場地布置+高精設(shè)備,1小時采集動輒數(shù)千元;
采集效率低:不能并行采集,任務(wù)復(fù)雜度高導(dǎo)致低通量;
復(fù)現(xiàn)性差:不可控因素多,難以完全復(fù)刻采集場景用于訓(xùn)練或驗證。
互聯(lián)網(wǎng)數(shù)據(jù)
互聯(lián)網(wǎng)數(shù)據(jù),可以理解為「機器人看,然后機器人跟著做」,指的是具身智能系統(tǒng)在觀看教程后進行學(xué)習(xí)。
康奈爾大學(xué)開發(fā)的RHyME框架,機器人僅通過觀看網(wǎng)絡(luò)上的教學(xué)視頻就能學(xué)習(xí)執(zhí)行任務(wù),缺乏物理反饋通道。
這種方法缺點更加明顯:
缺乏交互性:被動觀察而非主動探索,難以建模因果關(guān)系;
缺失物理信息:無力覺、無反饋、無環(huán)境狀態(tài)變化;
標(biāo)注困難:從無序視頻中提取可用信息成本高,易引入偏差;
難以遷移:從人類視頻中學(xué)習(xí)得來的策略不一定適用于機器人身體和運動限制。
仿真合成數(shù)據(jù)
仿真合成數(shù)據(jù)可以理解為通過3D引擎、圖形渲染技術(shù)或物理模擬器合成的數(shù)據(jù),包括圖像、深度、碰撞反饋、動作序列等,通常在虛擬環(huán)境中自動生成
相比上面兩種方式,仿真合成數(shù)據(jù)是目前的主流。
英偉達發(fā)布的OpenPhysicalAIDataset,就提供了超過320,000條仿真軌跡、1000個SimReady場景資產(chǎn)等,為物理AI提供大規(guī)模合成交互數(shù)據(jù)基礎(chǔ)。
真實數(shù)據(jù)在泛化性、操作成本、數(shù)據(jù)安全上都存在局限,而普通仿真合成數(shù)據(jù)存在非常大的Sim2Real的gap:
「RealityGap」(現(xiàn)實鴻溝)問題:仿真環(huán)境再逼真也存在與現(xiàn)實世界的偏差;
物理真實性受限:模擬的摩擦、碰撞、柔性物體行為難以完美還原現(xiàn)實;
對仿真平臺依賴大:需要強大的渲染算力、引擎支持與場景建模能力。
傳統(tǒng)仿真環(huán)境往往真實感不夠,難以逼真再現(xiàn)現(xiàn)實世界的物理和視覺細節(jié)。
早期不少模擬器中的場景是手工建?;蛴螒蛞嫔傻模曈X上偏于卡通或簡化,物理互動也不完善。
這種虛擬—現(xiàn)實差距(RealityGap)導(dǎo)致智能體在模擬中學(xué)到的技能難以直接遷移到現(xiàn)實,Sim2Real效果不理想。
2024年,李飛飛同樣意識到未來的具身智能需要大量的高質(zhì)量的3D數(shù)據(jù),于是其新團隊WorldLabs發(fā)布了首個空間智能AI模型,可以從單個圖像一鍵生成3D世界。
而僅3個月就估值10億的WorldLabs令業(yè)內(nèi)恍然大悟:AI教母瞄準(zhǔn)的,就是能進行推理的空間智能!
群核科技走的路線跟李飛飛接近。不過群核的優(yōu)勢在于十多年在產(chǎn)業(yè)場景中沉淀了大量室內(nèi)空間的3D數(shù)據(jù)。
為機器人裝上「空間大腦」
相比群核科技,或者大家更早聽說的是酷家樂??峒覙肥侨汉丝萍嫉暮诵漠a(chǎn)品之一,已經(jīng)沉淀一套空間編輯工具,且廣泛應(yīng)用在家居、建筑、商超、醫(yī)院、電商,以及工業(yè)場景。
就像快手和可靈之間形成的飛輪效應(yīng),在過去產(chǎn)業(yè)落地過程中,酷家樂為群核沉淀了大量的物理正確的三維數(shù)據(jù)。
基于這片獨一無二的數(shù)據(jù)沃土,群核得以訓(xùn)練出強大的空間大模型SpatialLM,深刻理解物理空間的規(guī)則與邏輯。
SpatialLM于2025年3月開源時,一度登上HuggingFace全球趨勢榜前三。
面對高質(zhì)量3D數(shù)據(jù)稀缺這一時代難題,群核科技一直在探索3D合成數(shù)據(jù)的方案。
比如群核科技在2024年推出的空間智能平臺SpatialVerse,智能體通過高質(zhì)量數(shù)據(jù)的充分訓(xùn)練,能夠真正獲得泛化能力,應(yīng)對現(xiàn)實中的千萬種復(fù)雜場景。
SpatialVerse平臺猶如一個「數(shù)字道場」,它不僅能為場景中的物體賦予真實的物理屬性,比如質(zhì)量、摩擦力等。
它還能模擬門窗、抽屜的開合等動態(tài)交互。
更重要的是,基于SpatialVerse的合成數(shù)據(jù)引擎,可以將SpatialLM模型生成的結(jié)構(gòu)化3D場景,泛化生成億萬級具有多樣性的新場景。
利用這些虛擬場景訓(xùn)練出來的智能體(如具身機器人),能更好地適應(yīng)和應(yīng)用于真實世界,縮小仿真與現(xiàn)實之間的差距(Sim2RealGap)。
這一路徑既拓展了虛擬場景的數(shù)據(jù)來源,又提升了AI模型在現(xiàn)實場景中的實用性,強化了「數(shù)字道場」與物理世界的聯(lián)動。其價值已在學(xué)術(shù)界和產(chǎn)業(yè)界獲得了一系列廣泛驗證。
學(xué)術(shù)界:谷歌與斯坦福大學(xué)的聯(lián)合研究論文FirePlace中,也明確致謝SpatialVerse平臺提供的高質(zhì)量3D場景數(shù)據(jù)。此外,群核科技還與英特爾實驗室聯(lián)合打造高真實感的智能機器人仿真平臺(如SPEAR),在與上海人工智能實驗室的合作中,為「桃源」提供高質(zhì)量3D數(shù)據(jù)。
產(chǎn)業(yè)界:「稚暉君」彭志輝參與創(chuàng)辦的明星企業(yè)智元機器人,已采用SpatialVerse提供的仿真數(shù)據(jù)進行機器人訓(xùn)練。此外,還有銀河通用、穹徹智能、智平方、松應(yīng)科技在內(nèi)的一批具身智能企業(yè)與群核科技達成合作。
智元機器人在群核科技提供的仿真數(shù)據(jù)中訓(xùn)練
仿真數(shù)據(jù)生成新范式
3D高斯+空間大模型
今年的WAIC大會上,他們提出了一個新的嘗試,將前沿的3D高斯濺射技術(shù)與自研空間大模型深度融合。
這一套全新的仿真數(shù)據(jù)生成范式,通過3D高斯重建+空間大模型+物理仿真這三大技術(shù)的協(xié)同作用,打通「現(xiàn)實-虛擬-現(xiàn)實」的閉環(huán)路徑。
群核科技仿真數(shù)據(jù)生成新范式
首先,3D高斯濺射(3DGaussianSplatting)作為現(xiàn)實世界的「數(shù)據(jù)復(fù)刻師」,扮演了至關(guān)重要的一步。
僅需一段視頻或一組圖片,它便能以極高的保真度和效率,將物理世界復(fù)刻到數(shù)字世界。
相比于傳統(tǒng)3D建模的漫長周期與高昂的成本,3D高斯技術(shù)更快、更輕量、更真實,甚至普通人也能輕松操作。
可以說,3D高斯技術(shù)是人類記錄方式的一次升級——
從二維照片、視頻躍遷到可任意漫游、沉浸式體驗的三維空間!
說到這里,不得不提起一個暖心的故事。
不久前,群核科技的團隊正是利用該技術(shù),成功將一個擁有60余年歷史、承載了很多人舊時溫情記憶的老照相館遷移到了云端——使其成為了一個永不關(guān)門的「時空膠囊」。
如此善舉也迅速讓這項前沿技術(shù)迅速火出圈。
體驗鏈接:https://www.kujiale.com/pub/koolab/koorender/gifts
然而,僅僅有一個惟妙惟肖的數(shù)字外殼還是不夠的。
機器人還要能「看懂」這個世界。例如,要能夠理解「這是一張床,那是一扇可以打開的門」。
這便引出了新范式的第二個關(guān)鍵技術(shù)支柱:空間大模型的語義賦予。
如果說3D高斯重建了空間的「形」,那么空間大模型則會賦予其「神」。
群核科技自研的空間理解模型SpatialLM,能夠?qū)χ亟ǖ狞c云數(shù)據(jù)進行深度分析,精準(zhǔn)識別出場景中的物體、結(jié)構(gòu)以及相互之間的關(guān)系,并打上精準(zhǔn)的語義標(biāo)簽。
這便使原本僅是視覺奇觀的3D場景,轉(zhuǎn)化為一個機器人可理解、可推理、可交互的3D數(shù)據(jù)。
最后,通過群核空間智能平臺SpatialVerse進行物理仿真與數(shù)據(jù)增強,完成了新范式的最后一環(huán)。
基于這條新范式,群核在WAIC2025期間發(fā)布了新成果——高質(zhì)量3D高斯語義數(shù)據(jù)集——InteriorGS。
該數(shù)據(jù)集包含1000個精細的3D高斯語義場景,覆蓋超過80種室內(nèi)環(huán)境,是全球首個適用于智能體自由運動的大規(guī)模3D數(shù)據(jù)集。
InteriorGS數(shù)據(jù)集的示例。該數(shù)據(jù)集提供了高質(zhì)量的3D高斯點陣(3DGS)表示,以及實例級別的語義邊界框和表示智能體可訪問區(qū)域的占用圖。紅色和黃色軌跡分別表示地面機器人和無人機(UAV)的路徑。值得注意的是,InteriorGS支持在連續(xù)3D環(huán)境中進行自由形式的智能體導(dǎo)航和交互,從而實現(xiàn)真實的空間智能訓(xùn)練與評估
從人類/地面機器人沿紅色軌跡行進時的視角進行RGB渲染及對應(yīng)的深度圖
InteriorGS首次將3D高斯技術(shù)系統(tǒng)地引入AI空間訓(xùn)練領(lǐng)域,充分利用了其在場景重建上的效率和成本優(yōu)勢。
目前,該數(shù)據(jù)集已在HuggingFace和Github等平臺開源,全球的開發(fā)者都可以下載使用。據(jù)了解,知名仿真平臺RoboVerse正在用這批數(shù)據(jù)測試機器人訓(xùn)練效果。
Huggingface:
https://huggingface.co/datasets/spatialverse/InteriorGS
Github:
https://github.com/manycore-research/InteriorGS
就像自動駕駛需要仿真路測,在群核平臺上,機器人可以在虛擬廚房練習(xí)分類收納,在虛擬商店學(xué)習(xí)避障導(dǎo)航,在虛擬工廠中進行施工演練。
這些體驗,都將轉(zhuǎn)化為真實世界中的高效執(zhí)行。
不光是機器人,包括AIGC和XR等新興智能體,所有試圖理解物理世界的新興智能體,都需要高質(zhì)量的3D數(shù)據(jù)來進行內(nèi)容生成與模型訓(xùn)練。
當(dāng)「理解空間、適配物理規(guī)則」成為智能體的基礎(chǔ)素養(yǎng),人機協(xié)同的邊界將被徹底改寫。
機器人真正成為養(yǎng)老保姆;XR真正融入人的生活和工作,而不僅是娛樂……
在具身智能全面到來之前,行業(yè)正致力于為它們搭建進化的橋梁——連接數(shù)字世界與物理世界,打通感知、理解與行動的閉環(huán)。
《全球災(zāi)變:我為華夏守護神》:這本科幻文爆火,好評如潮!
《全球災(zāi)變:我為華夏守護神》作者:夜無聲
超高口碑的《全球災(zāi)變:我為華夏守護神》,超高人氣的情景,引發(fā)集體...
《全球災(zāi)變:我為華夏守護神》,何以成為無數(shù)書蟲的最愛?追完你就真相大白了!《全球災(zāi)變:我為華夏守護神》作者:夜無聲
寶藏白金大作《全球災(zāi)變:我為華夏守護神》,必須追完才睡覺!
十分暢銷的《全球災(zāi)變:我為華夏守護神》,最激動人心的章節(jié),書荒時期急需它!《全球災(zāi)變:我為華夏守護神》作者:夜無聲
來源:紅網(wǎng)
作者:秋興運
編輯:戎惜珊
本文為紅辣椒評論 原創(chuàng)文章,僅系作者個人觀點,不代表紅網(wǎng)立場。轉(zhuǎn)載請附原文出處鏈接和本聲明。