文|富充
編輯|蘇建勛
2025年世界人工智能大會(WAIC)期間最“耀眼”的具身智能論壇,莫過于上海期智研究院舉辦的“人工智能交叉科學(xué)論壇”的主題活動。
這場論壇難得聚齊了當(dāng)下國內(nèi)具身智能領(lǐng)域的“伯克利四子”——吳翼、高陽、許華哲和陳建宇,這四位學(xué)者均畢業(yè)自加州大學(xué)伯克利分校,目前都從事具身機(jī)器人相關(guān)工作。
其中陳建宇創(chuàng)立了星動紀(jì)元,高陽為千尋智能聯(lián)合創(chuàng)始人、許華哲為星海圖聯(lián)合創(chuàng)始人。吳翼則任螞蟻集團(tuán)強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)室首席科學(xué)家。
(點(diǎn)擊“星動紀(jì)元”、“千尋智能”,可查看我們之前的報道。)
這四位的罕見同臺,分享內(nèi)容自然離不開具身智能領(lǐng)域幾大核心問題:
具身智能的瓶頸——“獲取數(shù)據(jù)”,這個難題怎么解?
從簡單任務(wù)(拿、放),到復(fù)雜任務(wù)(收拾屋子),機(jī)器人從大腦到本體該如何提升?
已經(jīng)形成共識的“VLA算法”,里面又有哪些非共識的方法論?
除了創(chuàng)業(yè)者/大廠科學(xué)家的身份以外,吳翼、高陽、許華哲和陳建宇四位均擔(dān)任上海期智研究院PI(PrincipalInvestigator,首席研究員)。
姚期智為圖靈獎得主、清華大學(xué)交叉信息研究院院長。2005年,姚期智創(chuàng)立“清華學(xué)堂計算機(jī)科學(xué)實(shí)驗(yàn)班”(姚班),以培養(yǎng)世界頂尖的計算機(jī)科學(xué)人才著名。上海期智研究院于2020年成立,姚期智擔(dān)任院長。
上海期智研究院院長、清華大學(xué)交叉信息研究院院長姚期智致辭;圖片:上海期智研究院
以下觀點(diǎn)來自陳建宇、高陽、吳翼、許華哲在“人工智能交叉科學(xué)論壇”的發(fā)言,由《智能涌現(xiàn)》總結(jié)、整理
陳建宇:獲取質(zhì)量最好的數(shù)據(jù),需要具身智能學(xué)習(xí)人類
暢想中會迎來一個與機(jī)器人有關(guān)的未來世界,我覺得達(dá)到這一愿景會有三個階段。
第一個階段,機(jī)器人將進(jìn)入我們的生產(chǎn)力系統(tǒng),生產(chǎn)手機(jī)、汽車等現(xiàn)在生活中所需物品。這個可能貢獻(xiàn)超過目前一半的GDP。
第二階段,機(jī)器人會成為最大的終端,也能夠自己制造自己。
第三階段,機(jī)器人可以幫助人類去拓展能力邊界,比如馬斯克說的火星移民。在長遠(yuǎn)的未來,機(jī)器人甚至能布滿整個宇宙。
要實(shí)現(xiàn)這樣的結(jié)果,我認(rèn)為最短的路徑是直接去學(xué)習(xí)人類的經(jīng)驗(yàn)和數(shù)據(jù),畢竟人類是現(xiàn)在世界上唯一的通用智能體。
具身智能的瓶頸,主要在于如何使數(shù)據(jù)和模型更高效。構(gòu)建人形機(jī)器人,可以更方便機(jī)器人從人類的學(xué)習(xí)范式里學(xué)習(xí)。
陳建宇和他分享的“具身智能數(shù)據(jù)金字塔”;圖片:上海期智研究院
具身智能有一個數(shù)據(jù)金字塔模型,顯示了具身智能訓(xùn)練數(shù)據(jù)的來源。
金字塔的塔尖是遙操作采集的數(shù)據(jù),數(shù)據(jù)量大概在1萬小時以內(nèi)。但是我們訓(xùn)練語言模型的數(shù)據(jù),如果換算成小時的話,大概是10的九次方小時,所以僅使用遙操作收集數(shù)據(jù)達(dá)不到具身智能需要的數(shù)據(jù)量。
而真正訓(xùn)練具身智能的數(shù)據(jù)量比語言模型所需數(shù)據(jù)量還要大一些,所以我們必須要用到人類行為的數(shù)據(jù),這就是具身智能訓(xùn)練數(shù)據(jù)金字塔中間的一層。
我們可以通過VR眼鏡、智能眼鏡等終端采集到人類第一視角的數(shù)據(jù)。
金字塔的最底端是我們稱為“一切發(fā)生在人類世界”的數(shù)據(jù),也就是互聯(lián)網(wǎng)上的廣泛數(shù)據(jù),比如視頻網(wǎng)站。目前統(tǒng)計出Youtube上所有視頻時長大概是10的十一次方小時。這類數(shù)據(jù)是現(xiàn)成的,而且非常非常多樣化。
確實(shí),在很多情況下我們可以用仿真,但仿真有一個致命問題,就是仿真里面沒有人類這樣的具身智能體去產(chǎn)生數(shù)據(jù)。
幾乎所有的智能代碼和行為數(shù)據(jù)都是由人類去產(chǎn)生的,而如果仿真能構(gòu)建出這樣一個智能體的話,實(shí)際上我們已經(jīng)把這個“真”做出來了。所以這是一個雞生蛋、蛋生雞的問題。仿真基本上只能構(gòu)建比較Passive的物理交互數(shù)據(jù)。
所以要構(gòu)建人形機(jī)器人,直接去對標(biāo)人類機(jī)體性能。比如星動紀(jì)元最新發(fā)布的星動L7,高度為1.7米,接近人類身高,同時它也有類人的胳膊、腰、頭部以及腿部,能更好收集人類的多樣性數(shù)據(jù)。
有人會關(guān)心雙足機(jī)器人的成本是不是會更高,我認(rèn)為不用特別擔(dān)心這個問題。因?yàn)閷νㄓ脵C(jī)器人來說,降低價格最重要的因素在于規(guī)模化,而不是僅僅降低它的自由度。
通用人形機(jī)器人應(yīng)用場景更多,隨著規(guī)模起量,成本也將大幅下降;但專用或簡易形態(tài)的機(jī)器人,由于可擴(kuò)展的場景有限,所以也會限制規(guī)?;猿杀镜南陆捣炊邢?。
接下來,說說模型如何構(gòu)建。當(dāng)前主流的VLA(Vision-Language-Action,視覺語言動作模型)模型會存在一些問題,因?yàn)楸举|(zhì)上來說它是在做純粹的克隆。
問題一是模型只能從大量人類行為數(shù)據(jù)里克隆,缺乏舉一反三能力;這也造成了第二個問題,機(jī)器人很難超越人類表現(xiàn)。
所以具身智能要參考人類的學(xué)習(xí)方式。
第一就是,建模整個世界,先形成物理世界的認(rèn)知,類似我們說的“世界模型”。就像我們開車到十字路口會減速,即使沒有經(jīng)過大量的數(shù)據(jù)教學(xué),人類也知道要防止撞到路口突然沖出來的人。
第二點(diǎn)就是,向人類學(xué)“強(qiáng)化學(xué)習(xí)”。比如學(xué)乒乓球,教練手把手教學(xué)是一個“模仿學(xué)習(xí)”的范式。但是這還不足以讓人學(xué)會這么高難度的技巧,所以需要在自己訓(xùn)練中根據(jù)擊球情況調(diào)整姿勢,達(dá)到想要的效果,這就是“強(qiáng)化學(xué)習(xí)”。
所以我們的方法是,把VLM擅長的理解和世界模型擅長的生成進(jìn)行結(jié)合,做成統(tǒng)一的模型,放到具身智能上。
這是我們做的融合世界模型的第一個探索PID模型,同一個模型不光做預(yù)測,同時也是做行為的生成。要找到相應(yīng)的工具,最接近的工具就是類似sora基于diffusion視頻生成的模型,因?yàn)樗苌煞浅<?xì)致的物理世界的行為環(huán)境動作。
基于DiffusionPolicy,我們也有工具去很好地生成模型的行為。這樣一來,具身智能就可以對視覺、以及其他模態(tài)做出預(yù)測。接下來我們提出了“VideoAddictionPolicy”,進(jìn)一步擴(kuò)大了我們的數(shù)據(jù),運(yùn)用大量的互聯(lián)網(wǎng)和視頻數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,使得泛化性得到進(jìn)一步提升。
最終,我們希望能真正把模型技術(shù)、數(shù)據(jù)通過我們不同形態(tài)的機(jī)器人,應(yīng)用到現(xiàn)實(shí)生活中。通過一系列技術(shù),機(jī)器人可以做出高動態(tài)全身運(yùn)動,例如跳舞;除此之外可以完成操作,比如物流分揀
高陽:讓機(jī)器人的思考融合“快與慢”
千尋智能聯(lián)合創(chuàng)始人高陽;圖片:上海期智研究院
ChatGPT等模型取得今天的成功是基于擁有海量數(shù)據(jù),但目前機(jī)器人的數(shù)據(jù)是非常匱乏的。當(dāng)前公開最大的數(shù)據(jù)集,也才有不到100萬條軌跡。相對互聯(lián)網(wǎng)上文本、圖文數(shù)據(jù),相差好幾個量級。
核心的問題是,我們到底該如何解決具身智能中的數(shù)據(jù)瓶頸,我認(rèn)為最重要的方式就是“數(shù)據(jù)金字塔”。就是說我們要利用不同質(zhì)量、不同來源的數(shù)據(jù),把數(shù)據(jù)量去堆上去。
剛才陳建宇老師也提到了具身智能數(shù)據(jù)金字塔。我將具身智能數(shù)據(jù)分為上中下三層,下層是海量的互聯(lián)網(wǎng)視頻;中間層是人類操作數(shù)據(jù);最上層是強(qiáng)化學(xué)習(xí)數(shù)據(jù),也就是讓機(jī)器人在會某個技能之后,與環(huán)境進(jìn)行進(jìn)一步交互來修正它的能力使成功率達(dá)到99%以上,所使用的數(shù)據(jù)。
我今天想說的是,在具身智能的金字塔再往后一步,就是硬件的感知層面和獲取數(shù)據(jù)后的模型結(jié)構(gòu)方面再做提升。
從感知層面而言,現(xiàn)在VLA只有視覺,但是對人類來說觸覺是一個非常重要的模態(tài),比如插U盤的動作,人并不一定需要眼睛盯著USB口。但如果機(jī)器人要盯著才能完成這個工作,姿勢會非常奇怪。
現(xiàn)在提出的“TactileVLA”概念,就是在VLA基礎(chǔ)上加上觸覺。再舉一個例子,比如機(jī)器人擦黑板,一遍沒擦干凈,它會用VLM嘗試思考,是不是因?yàn)楹诎迳系淖舟E特別頑固,要再用更大力氣再擦一遍。
通過帶觸覺輸入,帶觸覺輸出,以及帶觸覺反饋的過程,就可以把觸覺非常好的融合到VLA的模型里。
有了觸覺,讓具身智能去拿不同的物體,可以通過預(yù)訓(xùn)練知識讓它拿得更好。比如說拿水果和拿鐵塊的力不一樣。
就可以結(jié)合觸覺具有摩擦力等功能對擦黑板工作進(jìn)行更準(zhǔn)確判斷。
在通過數(shù)字金字塔獲取到豐富數(shù)據(jù)量之后,還需要一個好的數(shù)據(jù)結(jié)構(gòu),讓機(jī)器人從目前的數(shù)據(jù)里面學(xué)到正確知識。就像大語言模型有Transformer架構(gòu)。
當(dāng)我們想讓機(jī)器人做伏特加調(diào)酒的時候,面對面前巨多的瓶瓶罐罐,具身智能要把動作分解成若干可以去執(zhí)行的原子動作。但如果只用VLA做反思性思考,或者我們常說的System1思考模式(一種大腦處理信息做決策的方式,更偏直覺、速度快)成功率會非常低。
我們提出了OneTwoVLA,是一種把System1和System2(大腦的系統(tǒng)性思考,速度更慢),做結(jié)合的模型。這個模型在接到任務(wù)之后會自主判斷,當(dāng)前的任務(wù)是需要進(jìn)行分析還是只完成當(dāng)前的動作路徑。
具體而言,比如一個涮火鍋機(jī)器人機(jī)器人面前有很多食材。你讓它涮牛肉,它就涮牛肉;你讓它涮蔬菜,它會發(fā)現(xiàn)面前有很多種類蔬菜,于是停下來問用戶涮哪一種。通過這個模型,可以把任務(wù)在結(jié)構(gòu)的層面上進(jìn)行分解,達(dá)到更好的效果。
吳翼:具身智能未來不只有一個智能體,而是Multi-Agent
螞蟻集團(tuán)強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)室首席科學(xué)家吳翼;圖片:上海期智研究院
我們的終極目標(biāo)是要讓機(jī)器人走進(jìn)千家萬戶,做很復(fù)雜的任務(wù)。
但是即使我們實(shí)現(xiàn)了當(dāng)前所有的技術(shù),可能還是未必達(dá)到這個愿景。那這個過程中我們是不是漏掉了什么?
從2022年ChatGPT開始,當(dāng)時大模型可以基于人類指令,被動回答問題;到2025年退出Agent智能體,可以回答非常復(fù)雜的、宏觀且抽象的問題,主動做很多工作。三年間,大語言模型的發(fā)展非常迅速。
機(jī)器人領(lǐng)域,我想也會有這樣一個過程。比如有一天我告訴“它把屋子進(jìn)行打掃”這樣一個抽象的任務(wù),它會自己調(diào)用工具完成。所以這就是一個具身智能體(EmbodiedAgent),像Agent一樣工作,但有物理的身體。
我們也可以從Agent的構(gòu)建上,去尋找具身智能體的啟發(fā)。
一個AGI智能體需要有三個能力:規(guī)劃、記憶調(diào)整、使用工具。我們希望具身智能體也有這樣的三種能力。
Agent是FunctionCall(工具調(diào)用)智能體,同理,具身智能體也可以調(diào)用不同的Function。具體而言,具身智能體會先做邏輯推理,然后寫代碼,然后具身智能體會做代碼執(zhí)行。
我們可以想象家里有一條四足機(jī)器狗,現(xiàn)在想讓它關(guān)燈,但是它的高度距離開關(guān)有一定差距,需要踩著一個箱子,完成這個動作。
在和物理世界交互時機(jī)器狗發(fā)現(xiàn),踩著一開始的箱子仍然達(dá)不到燈開關(guān)的高度,那從這個出錯的地方往后的代碼都沒有用了。大模型會從這里開始重新思考,寫一段新代碼去換一個高度合適的箱子,然后機(jī)器狗去執(zhí)行新的代碼。
這個過程中,有一個軟件智能體在執(zhí)行,還有一個硬件和現(xiàn)實(shí)世界做交互。
總結(jié)一下,就像大模型可以從ChatGPT可以進(jìn)化成Agent,希望具身智能也可以從機(jī)器人進(jìn)化成具身智能體。
再往后展望一下,我們希望未來不只是一個具身智能體,而是很多具身智能體交互,也就是所說的Multi-agent的概念。比如一個機(jī)器狗足球隊,多個機(jī)器狗一起踢球,會有競爭和合作;人和機(jī)器狗之間也可以有類似的人機(jī)交互。
最后對未來做一個展望,我覺得未來世界會是一個具身智能體的世界,有很多聰明機(jī)器人,做很復(fù)雜的任務(wù);人也可以和機(jī)器狗交互,牽機(jī)器狗著上街。
最后推薦一下我的AReaL開源項(xiàng)目,希望通過這個開源框架幫助大家做更好的智能體。
許華哲:多的數(shù)據(jù)不好,好的數(shù)據(jù)不多,但不能“放棄治療”
星海圖聯(lián)合創(chuàng)始人許華哲;圖片:上海期智研究院
一個機(jī)器人,從它看一張圖,做一件事開始,最后它的行為形成了規(guī)模定律。這中間有怎樣的故事線呢?
我和一些觀點(diǎn)傾向認(rèn)為,具身智能在小規(guī)模數(shù)據(jù)的情況下,是一場背誦的游戲。
比如模型看到一個圖片,是桌面上有多個工具,它可以背下來這幾個工具的使用方法、在不同方向放置的情況下如何進(jìn)行最好的拿取。但很顯然,這樣的模型是很難有好的泛化性。
所以,真正的挑戰(zhàn),如果這個圖片里的空間非常巨大,模型就不能靠純背誦做好工作。這就產(chǎn)生了對泛化和規(guī)模化的需求。
所以還是要有足夠多的訓(xùn)練數(shù)據(jù),覆蓋范圍足夠廣,這樣機(jī)器在非常大量的數(shù)據(jù)中可以學(xué)到一些本質(zhì)的東西。比如說在世界各地的人都能看到不同的物體從高處落下,最后總結(jié)出了本質(zhì)“牛頓定律”。
但是現(xiàn)在采集數(shù)據(jù)的技術(shù)路線或多或少都有一定的問題。我個人懷疑,現(xiàn)在的數(shù)據(jù)采集永遠(yuǎn)都到不了我們想要的規(guī)模。
目前我們有人類數(shù)據(jù),也有仿真數(shù)據(jù),他們雖然很便宜、也可以大量提供,但是如果數(shù)據(jù)里是一些與現(xiàn)實(shí)世界有沖突的內(nèi)容,那就未必能學(xué)到本質(zhì)的東西。
如何把有偏移的“牛頓定律”挪回正確“牛頓定律”的位置,這是一個未解之謎。這也是為什么具身智能現(xiàn)在不能像大模型一樣立刻很好地干活,簡而言之問題就是數(shù)據(jù)不夠好。
多的數(shù)據(jù)不好,好的數(shù)據(jù)不多。但不能“放棄治療”,我有一個解決方法。
許華哲提出的具身智能數(shù)據(jù)Scaling坐標(biāo)包括橫軸PathSampling,和縱軸WorldSampling,單邊提升也可以對Scaling形成促進(jìn);圖片:作者拍攝
就是我們在談具身智能數(shù)據(jù)Scaling的時候,有橫軸、縱軸兩個坐標(biāo)可以影響它,一個叫WorldSampling,另一個叫PathSampling。
舉一個例子,就像是讓具身智能學(xué)習(xí)倒水這個動作,WorldSampling是它在不同的“世界”里倒水的案例。比如在辦公室倒水、在家里倒水、在酒吧倒水;而PathSampling是說先不用管它的位置,可以在家里這一個場景用不同動作路徑實(shí)現(xiàn)倒水。
現(xiàn)在我的組里也在沿著Coodinate(坐標(biāo))這一方向去做研究。
所以我的非常粗糙的猜想是,具身智能很難在這個坐標(biāo)里,沿著一個理想的上升斜線往右上角行進(jìn)。因?yàn)樗枰臄?shù)據(jù)量太大,而我們現(xiàn)在拿不到。
所以我們或許可以先沿著其中一個軸做得好一些,再沿著另一個軸做突破。而不是一開始就在WorldSampling這條軸上采集很多很多數(shù)據(jù),這樣所需要覆蓋的空間就會太大了,工作量也會太大。
重回母親去世,侯府強(qiáng)納我做平妻那天,我冷笑:按禮制,我當(dāng)守孝3年
在滿堂驚疑目光中,喜堂正中央的新娘突然抬起手臂——。白玉般的手指猛地攥住鴛鴦蓋頭邊緣,指尖因用力而泛白,伴隨著"刺啦"一聲裂帛之音,那片遮天蔽日的紅綃轟然墜地!燭光如水般漫過少女面龐,露出一張兼具嬌憨與華貴的秀美容顏——。黛眉如遠(yuǎn)山含煙,明眸似秋水瀲滟,此刻卻流轉(zhuǎn)著令人心驚的冷艷。整個喧鬧的喜堂霎時靜得能聽見燭花爆裂的輕響|。.. 3《準(zhǔn)太子妃》作者:風(fēng)鈴星一句話簡介:論如何避免成為太子妃高門貴女vs美強(qiáng)慘皇子,撬墻角,蓄謀已久,古言甜寵文武安侯府出過兩位皇后,彩閣的姑母是皇后、姑祖母是皇太后,她亦是儲妃的最佳人選,然而這位準(zhǔn)太子妃心里藏著秘密:她曾經(jīng)母儀天下,最后落個被迫殉葬的下場。重活一次,只得費(fèi)盡心機(jī)不入東宮,..她搶了堂姐的姐夫,拒嫁迂腐書生:這輩子要嫁對人