新智元報(bào)道
定慧犀牛
【新智元導(dǎo)讀】群核科技正構(gòu)建具身智能時(shí)代的「3D版ImageNet」。其打造的SpatialVerse平臺(tái),為機(jī)器人提供高質(zhì)量三維數(shù)據(jù)與仿真環(huán)境,有望突破Sim2Real難題。借助3D高斯濺射與空間大模型,群核發(fā)布全球首個(gè)大規(guī)模3D語義數(shù)據(jù)集InteriorGS,為AI理解和適應(yīng)物理世界奠定基礎(chǔ)。
推動(dòng)歷史的人,往往在當(dāng)時(shí)并不知道他正改變世界。
2009年,蘋果還沒發(fā)布iPhone4,但李飛飛卻已經(jīng)打造了一個(gè)包含320萬張圖片的ImageNet數(shù)據(jù)集給「機(jī)器學(xué)習(xí)」。
2012年,Hinton和他的學(xué)生Ilya、Alex在ImageNet競賽中以AlexNet模型橫掃千軍。
Ilya后來成為OpenAI的創(chuàng)始成員,他們的產(chǎn)品ChatGPT開創(chuàng)了如今的大語言模型時(shí)代!
而Hinton成為了AI之父。
假如沒有ImageNet這個(gè)海量、真實(shí)、復(fù)雜的數(shù)據(jù)集「燃料」,也許深度學(xué)習(xí)這個(gè)引擎,就不會(huì)這么快的點(diǎn)火啟程,也許今天的AI也不會(huì)如此迅猛。
如今,AI正在從二維世界進(jìn)入三維世界,關(guān)鍵就是空間智能。
ImageNet同樣的歷史或許正在具身智能和仿真合成數(shù)據(jù)領(lǐng)域上演。
2018年,一個(gè)空間領(lǐng)域的3D數(shù)據(jù)集——InteriorNet,引起了學(xué)術(shù)界的關(guān)注。這是當(dāng)時(shí)全球最大的室內(nèi)空間認(rèn)知深度學(xué)習(xí)數(shù)據(jù)集。
彼時(shí)的硅谷科技企業(yè)們,正開始探索通過合成數(shù)據(jù)的方式去訓(xùn)練智能體,InteriorNet數(shù)據(jù)集的出現(xiàn),令他們眼前一亮。
InteriorNet數(shù)據(jù)集(包含約1億3千萬圖像數(shù)據(jù))
推出數(shù)據(jù)集的這家企業(yè),便是群核科技。
2024年,群核科技推出群核空間智能平臺(tái)SpatialVerse。同年,李飛飛也宣布自己的WorldLabs成立,只用一張圖就能生成3D世界。
但3D數(shù)據(jù)和類似ImageNet的2D數(shù)據(jù)有著本質(zhì)的不同。
李飛飛當(dāng)年靠著亞馬遜眾包平臺(tái),依靠人力完成了海量數(shù)據(jù)(1500萬張圖片)的標(biāo)注工作。
而3D數(shù)據(jù),卻是極度的稀缺。
具身智能的「ImageNet」
雖然還有數(shù)據(jù)稀缺等問題,但空間智能與具身智能成為下一個(gè)AI發(fā)展的主流領(lǐng)域,已成為行業(yè)的共識(shí)。
就在剛剛結(jié)束的WAIC2025大會(huì)上,空間智能與具身智能徹底登上了大會(huì)的「主舞臺(tái)」。
新智元現(xiàn)場觀察到,整個(gè)展館二樓H3都打造成了一只規(guī)模龐大的「機(jī)器人方陣」,超過150臺(tái)形態(tài)各異的機(jī)器人集體亮相。
與以往大都靜態(tài)展示不同的是,這次的機(jī)器人全都動(dòng)了起來——拳擊、架子鼓、制作咖啡甚至是擰螺絲,各種花活全都給整上了。
但正如機(jī)器人跑起來還是踉踉蹌蹌、時(shí)不時(shí)躺平給你看一樣,具身智能的發(fā)展還有很多挑戰(zhàn)。
我們不得不思考,未來當(dāng)機(jī)器人真正進(jìn)入人類生活——無論是客廳、工廠,還是商業(yè)空間——它們?nèi)绾巫R(shí)別筆記本、茶杯、椅子、或是一道門?
又如何學(xué)習(xí)從「看」到「動(dòng)」,從「觀察」到「執(zhí)行」?
當(dāng)具身智能機(jī)器人來到你家的客廳,它如何識(shí)別出筆記本、食物、椅子、或是茶杯?
具身智能的崛起,離不開對(duì)3D世界的深刻理解和豐富交互。
正如圖像識(shí)別需要ImageNet那樣,具身智能也亟需一個(gè)「3D版的ImageNet」。
然而,現(xiàn)在正面臨的是一個(gè)前所未有的難題:空間智能訓(xùn)練所需的數(shù)據(jù)遠(yuǎn)比2D圖像復(fù)雜,數(shù)據(jù)的獲取成本和難度呈指數(shù)級(jí)上升。
群核科技當(dāng)時(shí)推出的InteriorNet深度學(xué)習(xí)數(shù)據(jù)集,包含了1600萬組像素級(jí)標(biāo)簽數(shù)據(jù)和1.5萬組視頻數(shù)據(jù),共計(jì)約1億3千萬圖像數(shù)據(jù)。
但AI走進(jìn)物理世界,還需要更多3D數(shù)據(jù)。
當(dāng)前主流的三種數(shù)據(jù)來源與困境
當(dāng)前空間智能/具身智能行業(yè)存在的挑戰(zhàn)有很多,但是主要挑戰(zhàn)是數(shù)據(jù)困境,而仿真數(shù)據(jù)生成困境最為突出。
當(dāng)前,具身智能獲取訓(xùn)練數(shù)據(jù)的主要途徑可歸為三大類:真實(shí)數(shù)據(jù)(Real-WorldData)、互聯(lián)網(wǎng)數(shù)據(jù)(Internet/PassiveData)與仿真合成數(shù)據(jù)(Simulated/SyntheticData)。
真實(shí)數(shù)據(jù)
真實(shí)數(shù)據(jù),可以理解為機(jī)器人在物理環(huán)境中實(shí)際執(zhí)行任務(wù)時(shí),使用傳感器、攝像頭、力覺器件等采集的一手?jǐn)?shù)據(jù)。
PhysicalIntelligence(加州創(chuàng)業(yè)公司)通過大量真實(shí)機(jī)器人運(yùn)動(dòng)與傳感器數(shù)據(jù)訓(xùn)練具身智能模型。
這些數(shù)據(jù)雖然完全符合物理規(guī)律,但是缺點(diǎn)明顯:
成本高昂:每一條數(shù)據(jù)采集往往需專人操作+場地布置+高精設(shè)備,1小時(shí)采集動(dòng)輒數(shù)千元;
采集效率低:不能并行采集,任務(wù)復(fù)雜度高導(dǎo)致低通量;
復(fù)現(xiàn)性差:不可控因素多,難以完全復(fù)刻采集場景用于訓(xùn)練或驗(yàn)證。
互聯(lián)網(wǎng)數(shù)據(jù)
互聯(lián)網(wǎng)數(shù)據(jù),可以理解為「機(jī)器人看,然后機(jī)器人跟著做」,指的是具身智能系統(tǒng)在觀看教程后進(jìn)行學(xué)習(xí)。
康奈爾大學(xué)開發(fā)的RHyME框架,機(jī)器人僅通過觀看網(wǎng)絡(luò)上的教學(xué)視頻就能學(xué)習(xí)執(zhí)行任務(wù),缺乏物理反饋通道。
這種方法缺點(diǎn)更加明顯:
缺乏交互性:被動(dòng)觀察而非主動(dòng)探索,難以建模因果關(guān)系;
缺失物理信息:無力覺、無反饋、無環(huán)境狀態(tài)變化;
標(biāo)注困難:從無序視頻中提取可用信息成本高,易引入偏差;
難以遷移:從人類視頻中學(xué)習(xí)得來的策略不一定適用于機(jī)器人身體和運(yùn)動(dòng)限制。
仿真合成數(shù)據(jù)
仿真合成數(shù)據(jù)可以理解為通過3D引擎、圖形渲染技術(shù)或物理模擬器合成的數(shù)據(jù),包括圖像、深度、碰撞反饋、動(dòng)作序列等,通常在虛擬環(huán)境中自動(dòng)生成
相比上面兩種方式,仿真合成數(shù)據(jù)是目前的主流。
英偉達(dá)發(fā)布的OpenPhysicalAIDataset,就提供了超過320,000條仿真軌跡、1000個(gè)SimReady場景資產(chǎn)等,為物理AI提供大規(guī)模合成交互數(shù)據(jù)基礎(chǔ)。
真實(shí)數(shù)據(jù)在泛化性、操作成本、數(shù)據(jù)安全上都存在局限,而普通仿真合成數(shù)據(jù)存在非常大的Sim2Real的gap:
「RealityGap」(現(xiàn)實(shí)鴻溝)問題:仿真環(huán)境再逼真也存在與現(xiàn)實(shí)世界的偏差;
物理真實(shí)性受限:模擬的摩擦、碰撞、柔性物體行為難以完美還原現(xiàn)實(shí);
對(duì)仿真平臺(tái)依賴大:需要強(qiáng)大的渲染算力、引擎支持與場景建模能力。
傳統(tǒng)仿真環(huán)境往往真實(shí)感不夠,難以逼真再現(xiàn)現(xiàn)實(shí)世界的物理和視覺細(xì)節(jié)。
早期不少模擬器中的場景是手工建?;蛴螒蛞嫔傻?,視覺上偏于卡通或簡化,物理互動(dòng)也不完善。
這種虛擬—現(xiàn)實(shí)差距(RealityGap)導(dǎo)致智能體在模擬中學(xué)到的技能難以直接遷移到現(xiàn)實(shí),Sim2Real效果不理想。
2024年,李飛飛同樣意識(shí)到未來的具身智能需要大量的高質(zhì)量的3D數(shù)據(jù),于是其新團(tuán)隊(duì)WorldLabs發(fā)布了首個(gè)空間智能AI模型,可以從單個(gè)圖像一鍵生成3D世界。
而僅3個(gè)月就估值10億的WorldLabs令業(yè)內(nèi)恍然大悟:AI教母瞄準(zhǔn)的,就是能進(jìn)行推理的空間智能!
群核科技走的路線跟李飛飛接近。不過群核的優(yōu)勢在于十多年在產(chǎn)業(yè)場景中沉淀了大量室內(nèi)空間的3D數(shù)據(jù)。
為機(jī)器人裝上「空間大腦」
相比群核科技,或者大家更早聽說的是酷家樂??峒覙肥侨汉丝萍嫉暮诵漠a(chǎn)品之一,已經(jīng)沉淀一套空間編輯工具,且廣泛應(yīng)用在家居、建筑、商超、醫(yī)院、電商,以及工業(yè)場景。
就像快手和可靈之間形成的飛輪效應(yīng),在過去產(chǎn)業(yè)落地過程中,酷家樂為群核沉淀了大量的物理正確的三維數(shù)據(jù)。
基于這片獨(dú)一無二的數(shù)據(jù)沃土,群核得以訓(xùn)練出強(qiáng)大的空間大模型SpatialLM,深刻理解物理空間的規(guī)則與邏輯。
SpatialLM于2025年3月開源時(shí),一度登上HuggingFace全球趨勢榜前三。
面對(duì)高質(zhì)量3D數(shù)據(jù)稀缺這一時(shí)代難題,群核科技一直在探索3D合成數(shù)據(jù)的方案。
比如群核科技在2024年推出的空間智能平臺(tái)SpatialVerse,智能體通過高質(zhì)量數(shù)據(jù)的充分訓(xùn)練,能夠真正獲得泛化能力,應(yīng)對(duì)現(xiàn)實(shí)中的千萬種復(fù)雜場景。
SpatialVerse平臺(tái)猶如一個(gè)「數(shù)字道場」,它不僅能為場景中的物體賦予真實(shí)的物理屬性,比如質(zhì)量、摩擦力等。
它還能模擬門窗、抽屜的開合等動(dòng)態(tài)交互。
更重要的是,基于SpatialVerse的合成數(shù)據(jù)引擎,可以將SpatialLM模型生成的結(jié)構(gòu)化3D場景,泛化生成億萬級(jí)具有多樣性的新場景。
利用這些虛擬場景訓(xùn)練出來的智能體(如具身機(jī)器人),能更好地適應(yīng)和應(yīng)用于真實(shí)世界,縮小仿真與現(xiàn)實(shí)之間的差距(Sim2RealGap)。
這一路徑既拓展了虛擬場景的數(shù)據(jù)來源,又提升了AI模型在現(xiàn)實(shí)場景中的實(shí)用性,強(qiáng)化了「數(shù)字道場」與物理世界的聯(lián)動(dòng)。其價(jià)值已在學(xué)術(shù)界和產(chǎn)業(yè)界獲得了一系列廣泛驗(yàn)證。
學(xué)術(shù)界:谷歌與斯坦福大學(xué)的聯(lián)合研究論文FirePlace中,也明確致謝SpatialVerse平臺(tái)提供的高質(zhì)量3D場景數(shù)據(jù)。此外,群核科技還與英特爾實(shí)驗(yàn)室聯(lián)合打造高真實(shí)感的智能機(jī)器人仿真平臺(tái)(如SPEAR),在與上海人工智能實(shí)驗(yàn)室的合作中,為「桃源」提供高質(zhì)量3D數(shù)據(jù)。
產(chǎn)業(yè)界:「稚暉君」彭志輝參與創(chuàng)辦的明星企業(yè)智元機(jī)器人,已采用SpatialVerse提供的仿真數(shù)據(jù)進(jìn)行機(jī)器人訓(xùn)練。此外,還有銀河通用、穹徹智能、智平方、松應(yīng)科技在內(nèi)的一批具身智能企業(yè)與群核科技達(dá)成合作。
智元機(jī)器人在群核科技提供的仿真數(shù)據(jù)中訓(xùn)練
仿真數(shù)據(jù)生成新范式
3D高斯+空間大模型
今年的WAIC大會(huì)上,他們提出了一個(gè)新的嘗試,將前沿的3D高斯濺射技術(shù)與自研空間大模型深度融合。
這一套全新的仿真數(shù)據(jù)生成范式,通過3D高斯重建+空間大模型+物理仿真這三大技術(shù)的協(xié)同作用,打通「現(xiàn)實(shí)-虛擬-現(xiàn)實(shí)」的閉環(huán)路徑。
群核科技仿真數(shù)據(jù)生成新范式
首先,3D高斯濺射(3DGaussianSplatting)作為現(xiàn)實(shí)世界的「數(shù)據(jù)復(fù)刻師」,扮演了至關(guān)重要的一步。
僅需一段視頻或一組圖片,它便能以極高的保真度和效率,將物理世界復(fù)刻到數(shù)字世界。
相比于傳統(tǒng)3D建模的漫長周期與高昂的成本,3D高斯技術(shù)更快、更輕量、更真實(shí),甚至普通人也能輕松操作。
可以說,3D高斯技術(shù)是人類記錄方式的一次升級(jí)——
從二維照片、視頻躍遷到可任意漫游、沉浸式體驗(yàn)的三維空間!
說到這里,不得不提起一個(gè)暖心的故事。
不久前,群核科技的團(tuán)隊(duì)正是利用該技術(shù),成功將一個(gè)擁有60余年歷史、承載了很多人舊時(shí)溫情記憶的老照相館遷移到了云端——使其成為了一個(gè)永不關(guān)門的「時(shí)空膠囊」。
如此善舉也迅速讓這項(xiàng)前沿技術(shù)迅速火出圈。
體驗(yàn)鏈接:https://www.kujiale.com/pub/koolab/koorender/gifts
然而,僅僅有一個(gè)惟妙惟肖的數(shù)字外殼還是不夠的。
機(jī)器人還要能「看懂」這個(gè)世界。例如,要能夠理解「這是一張床,那是一扇可以打開的門」。
這便引出了新范式的第二個(gè)關(guān)鍵技術(shù)支柱:空間大模型的語義賦予。
如果說3D高斯重建了空間的「形」,那么空間大模型則會(huì)賦予其「神」。
群核科技自研的空間理解模型SpatialLM,能夠?qū)χ亟ǖ狞c(diǎn)云數(shù)據(jù)進(jìn)行深度分析,精準(zhǔn)識(shí)別出場景中的物體、結(jié)構(gòu)以及相互之間的關(guān)系,并打上精準(zhǔn)的語義標(biāo)簽。
這便使原本僅是視覺奇觀的3D場景,轉(zhuǎn)化為一個(gè)機(jī)器人可理解、可推理、可交互的3D數(shù)據(jù)。
最后,通過群核空間智能平臺(tái)SpatialVerse進(jìn)行物理仿真與數(shù)據(jù)增強(qiáng),完成了新范式的最后一環(huán)。
基于這條新范式,群核在WAIC2025期間發(fā)布了新成果——高質(zhì)量3D高斯語義數(shù)據(jù)集——InteriorGS。
該數(shù)據(jù)集包含1000個(gè)精細(xì)的3D高斯語義場景,覆蓋超過80種室內(nèi)環(huán)境,是全球首個(gè)適用于智能體自由運(yùn)動(dòng)的大規(guī)模3D數(shù)據(jù)集。
InteriorGS數(shù)據(jù)集的示例。該數(shù)據(jù)集提供了高質(zhì)量的3D高斯點(diǎn)陣(3DGS)表示,以及實(shí)例級(jí)別的語義邊界框和表示智能體可訪問區(qū)域的占用圖。紅色和黃色軌跡分別表示地面機(jī)器人和無人機(jī)(UAV)的路徑。值得注意的是,InteriorGS支持在連續(xù)3D環(huán)境中進(jìn)行自由形式的智能體導(dǎo)航和交互,從而實(shí)現(xiàn)真實(shí)的空間智能訓(xùn)練與評(píng)估
從人類/地面機(jī)器人沿紅色軌跡行進(jìn)時(shí)的視角進(jìn)行RGB渲染及對(duì)應(yīng)的深度圖
InteriorGS首次將3D高斯技術(shù)系統(tǒng)地引入AI空間訓(xùn)練領(lǐng)域,充分利用了其在場景重建上的效率和成本優(yōu)勢。
目前,該數(shù)據(jù)集已在HuggingFace和Github等平臺(tái)開源,全球的開發(fā)者都可以下載使用。據(jù)了解,知名仿真平臺(tái)RoboVerse正在用這批數(shù)據(jù)測試機(jī)器人訓(xùn)練效果。
Huggingface:
https://huggingface.co/datasets/spatialverse/InteriorGS
Github:
https://github.com/manycore-research/InteriorGS
就像自動(dòng)駕駛需要仿真路測,在群核平臺(tái)上,機(jī)器人可以在虛擬廚房練習(xí)分類收納,在虛擬商店學(xué)習(xí)避障導(dǎo)航,在虛擬工廠中進(jìn)行施工演練。
這些體驗(yàn),都將轉(zhuǎn)化為真實(shí)世界中的高效執(zhí)行。
不光是機(jī)器人,包括AIGC和XR等新興智能體,所有試圖理解物理世界的新興智能體,都需要高質(zhì)量的3D數(shù)據(jù)來進(jìn)行內(nèi)容生成與模型訓(xùn)練。
當(dāng)「理解空間、適配物理規(guī)則」成為智能體的基礎(chǔ)素養(yǎng),人機(jī)協(xié)同的邊界將被徹底改寫。
機(jī)器人真正成為養(yǎng)老保姆;XR真正融入人的生活和工作,而不僅是娛樂……
在具身智能全面到來之前,行業(yè)正致力于為它們搭建進(jìn)化的橋梁——連接數(shù)字世界與物理世界,打通感知、理解與行動(dòng)的閉環(huán)。
新婚之夜 季攸寧被心愛之人和小三聯(lián)合殺害, 并搶奪了家產(chǎn) 死后不甘, 重生到安家最不受寵的女兒安初夏身上。 步步為營步步算計(jì), 只為復(fù)仇, 卻沒想到遇到那個(gè)強(qiáng)大的男人。 你和攸寧很像。 他頷首低喃。 她無奈否認(rèn), 這可能是個(gè)巧合然而卻被他強(qiáng)勢鎖在身邊。 “ 這輩子, 你都跑不掉了。 ” 延伸閱讀:與 國金證券保薦項(xiàng)目頻現(xiàn)業(yè)績變臉 ST天微IPO前凈利激增百倍上市后掉頭向下直到觸發(fā)退市風(fēng)險(xiǎn)科:(創(chuàng)板)6||周年 的相關(guān)文章