近日,機器學習與決策控制領(lǐng)域的知名專家、美國加州大學伯克利分校副教授、PhysicalIntelligence聯(lián)合創(chuàng)始人SergeyLevine,在其個人博客上發(fā)表了一篇題為《人工智能的叉勺》(SporksofAGI)的文章。深入探討了在機器人學習領(lǐng)域中數(shù)據(jù)獲取的核心挑戰(zhàn),尤其對當前普遍依賴的“替代數(shù)據(jù)”策略提出了批判性思考。
圖丨SergeyLevine(來源:MITTechnologyRevie)
文章開篇就直指機器人技術(shù)發(fā)展的核心痛點:數(shù)據(jù)。與主要依賴文本和圖像數(shù)據(jù)的大語言模型和視覺語言模型不同,訓(xùn)練機器人所需的視覺-語言-行為(VLA,Vision-Language-Action)模型,需要的是機器人在真實物理世界中進行交互和執(zhí)行任務(wù)的數(shù)據(jù)。這類數(shù)據(jù)的采集不僅成本高昂、效率低下,而且難以規(guī)?;?,這成為了訓(xùn)練強大、通用機器人模型的主要障礙。
圖丨相關(guān)博文(來源:SergeyLevine)
因此,研究界一直在尋找“次優(yōu)選擇”(TheNextBestThing),即用一些成本較低的替代數(shù)據(jù)(surrogatedata)來取代真實世界的數(shù)據(jù)。文章將當前研究界為繞過數(shù)據(jù)難題而采用的各種“捷徑”——例如在模擬器中訓(xùn)練、從人類視頻中學習、或使用模仿機器人夾爪的設(shè)備——比作“叉勺(Spork)”。叉勺試圖同時擁有叉子和勺子的功能,卻最終在兩方面都表現(xiàn)平平,無法真正替代其一,甚至會隨著模型能力的增強而變得更加有害。因此,他呼吁研究者正視困難,回歸“真實之物”(TheRealThing),強調(diào)只有真實、海量的物理世界交互數(shù)據(jù),才是通往通用機器人智能的必經(jīng)之路。
以下是博文的完整內(nèi)容:
為什么“真實之物”優(yōu)于“次優(yōu)之選”
訓(xùn)練大模型真的很難,而且隨著模型變得越來越大,并擴展到新的領(lǐng)域時,只會變得更難。大語言模型使用大量文本數(shù)據(jù),視覺語言模型需要文本和圖像,而機器人領(lǐng)域的視覺-語言-行為模型,則需要機器人在真實世界中執(zhí)行真實任務(wù)的數(shù)據(jù)。這對智能體(agent)來說尤其困難:無論你是想控制一個真實世界的機器人,還是想在網(wǎng)絡(luò)上執(zhí)行操作以滿足用戶請求,帶有行為標簽的真實世界交互數(shù)據(jù),都無法像網(wǎng)絡(luò)上的文本和圖像那樣廉價地獲得。
因此,研究人員一直在努力尋找一種方法,用“次優(yōu)之選”(TheNextBestThing)來替代真實數(shù)據(jù)和行為,試圖兼得兩者的優(yōu)點:既擁有在海量數(shù)據(jù)集上訓(xùn)練大型模型所帶來的強大能力和泛化性,又付出一個遠低于在領(lǐng)域內(nèi)(in-domain)為基礎(chǔ)模型收集標準訓(xùn)練數(shù)據(jù)所需的成本。
次優(yōu)之選
雖然在視覺感知和自然語言處理等領(lǐng)域,真實世界的原始數(shù)據(jù)一直都是首選,但當涉及到智能體——特別是機器人智能體(例如VLA模型)時,人們總有一種不可抗拒的沖動,想要找出如何使用別的東西,某種可以廉價獲取的“替代品”(surrogate),但它又能提供我們所追求的那種廣泛的泛化能力。
我們可以使用一些方法來記錄人類自己以一種更“機器人化”的方式執(zhí)行任務(wù)的視頻。這個領(lǐng)域已經(jīng)有了大量激動人心且極具創(chuàng)造性的研究,如果稍作概括,可以將其描述如下:手動定義一個廉價的替代域(surrogatedomain)與真實世界機器人系統(tǒng)之間的映射或?qū)?yīng)關(guān)系,然后利用這種對應(yīng)關(guān)系,使用廉價的數(shù)據(jù)來代替昂貴但有代表性的領(lǐng)域內(nèi)數(shù)據(jù)(即來自目標域中真實機器人的數(shù)據(jù))。每一種被廣泛研究的、用以避免收集真實機器人數(shù)據(jù)的方法,都基于類似的想法:
模擬(Simulation):從模擬到現(xiàn)實(sim-to-real)的方法需要人類設(shè)計師來指定機器人訓(xùn)練的環(huán)境并生成必要的資產(chǎn)。在模擬中學到的行為是這些選擇的產(chǎn)物。通常,能帶來最佳結(jié)果的模擬環(huán)境,并不是對現(xiàn)實的精確建模(這非常困難),而是對機器人需要應(yīng)對的各種變化類型進行編碼,比如在隨機的墊腳石或高度場上進行訓(xùn)練。這進一步凸顯了人類的洞察力不僅決定了任務(wù)是什么,還間接指明了任務(wù)應(yīng)該如何解決。人類視頻(Humanvideos):那些純粹從人類視頻中學習機器人技能的方法,通常需要定義某種人類與機器人之間的對應(yīng)關(guān)系,比如抓取時手或手指放置的位置。任何此類選擇都預(yù)設(shè)了一種特定的任務(wù)解決方法(例如,用強力抓取的方式撿起和移動物品),并且還需要在物理上可行的人類動作與機器人動作之間架起一座巨大的橋梁,無論是在動力學上還是在外觀上。手持夾爪設(shè)備(Hand-heldgripperdevices):我們可以在學習過程中,通過讓人們使用模仿機器人夾爪的手持設(shè)備來收集數(shù)據(jù),從而在物理上強加一種人機映射。這確實是一種將人類意圖轉(zhuǎn)化為機器人動作的非常直接的方式,但它也帶來了自身的挑戰(zhàn):例如,一個沒有手臂的懸空夾爪的動力學特性與一個完整的機器人手臂是截然不同的。
所有這些方法都促成了有趣且相關(guān)的研究,并取得了一些出色和令人興奮的實踐成果。但是,我認為它們中的每一種都代表了一種妥協(xié),而這種妥協(xié)最終會破壞大型學習模型的真正力量。
交集
當然,在收集數(shù)據(jù)時,人類的判斷是不可避免的:即便是最原始、最純粹的“白板式”學習方法,也需要我們定義一些關(guān)于我們希望模型做什么的事情。但是,當我們?yōu)榱嘶乇苷鎸崝?shù)據(jù)而做出設(shè)計決策時,這些決策可能會帶來特別大的麻煩,因為它們內(nèi)在地限制了問題可以被解決的方式。
每存在一個域差距(domaingap)(無論是模擬、視頻還是其他),我們都會被限制在這樣一個解決方案空間里:它必須位于那些在我們的系統(tǒng)上實際有效的行為、可以用我們選擇的方法(例如,模擬或手持夾爪)完成的行為,以及——這一點至關(guān)重要——那些不會加劇領(lǐng)域間差異的行為(例如,不會暴露機器人其實沒有手持夾爪,或不會觸發(fā)一個特別嚴重的模擬/現(xiàn)實世界差異)的交集之中。
此外,隨著我們使用更大、更強的模型,我們應(yīng)該預(yù)料到會從這些問題中感受到更強的阻力:因為更強大的模型能更緊密地擬合數(shù)據(jù)中的模式,它們將越來越多地擬合那些(我們不希望的)差異,就像它們學習我們想要學習的、真正的可遷移模式一樣。
(來源:SergeyLevine)
在研究項目和演示中,這些問題可能看起來無傷大雅,因為我們可以設(shè)置真實機器人,讓這種差異變得不那么重要,比如選擇那些最佳和最魯棒的策略恰好就落在這個交集內(nèi)的環(huán)境和物體。但在真實的開放世界環(huán)境中,這不僅是局限性的,它實際上破壞了訓(xùn)練大型、強大基礎(chǔ)模型的主要優(yōu)勢。
首先,隨著模型越來越強,從而越來越能分辨出替代數(shù)據(jù)域和真實世界域的差異時(即上圖中黃色圓圈縮小時),這個交集會變得更小。我們可以嘗試通過向模型隱藏信息、減少觀察空間、使用域不變損失函數(shù)、限制機器人可以使用的攝像頭視角等方法來抵消這個問題。實際上,幾乎所有解決這些域差異的方法,最終都歸結(jié)為某種形式的信息隱藏。但這再次破壞了基礎(chǔ)模型的根本優(yōu)勢,即它們合成復(fù)雜信息源并提取人類難以手動識別的微妙模式的能力?;旧?,隨著我們使用更強的模型,黃色圓圈會變小,而任何試圖抵消這一點的嘗試,最終都會使模型變?nèi)?。我們只能通過“給我們的模型做腦葉切除手術(shù)”(lobotomizingthem),來“愚弄”它們,阻止它們意識到自己身處《黑客帝國》(TheMatrix)之中。
這個交集的大小,也關(guān)鍵性地取決于我們在設(shè)計替代數(shù)據(jù)時所做的決策——這些決策越差,綠色和紅色圓圈之間的交集就會越小。在實踐中,我們會為我們的替代數(shù)據(jù)(我們的模擬器或手持數(shù)據(jù)收集設(shè)備)進行設(shè)計,以便在我們設(shè)想的少數(shù)應(yīng)用領(lǐng)域中,這種差異被最小化,以確保好的動作(即那些能導(dǎo)致成功的動作,或至少能避免災(zāi)難性失敗的動作)在替代數(shù)據(jù)和真實機器人之間能夠匹配。但在這些應(yīng)用領(lǐng)域之外,無法保證它們還會匹配。
(來源:SergeyLevine)
所有這些問題,在我們真正想要優(yōu)化出最佳行為(例如,通過強化學習)時,都會變得更加嚴重,因為我們無法在不走出“機器人能做的、在替代數(shù)據(jù)中有效的、且模型無法分辨差異”這個狹窄交集的情況下,充分利用真實機器人系統(tǒng)的全部能力。
真實之物
在試圖回避使用真實世界數(shù)據(jù)的過程中,我們其實是在尋找一個“兩全其美”的解決方案:某種既像模擬或視頻那樣廉價,又具備真實世界數(shù)據(jù)有效性的東西。
在機器學習中,持續(xù)有效的最佳方法是確保訓(xùn)練條件與測試條件相匹配。這就是“真實之物”(TheRealThing)——那些教會模型世界究竟如何運作的數(shù)據(jù),這樣它才能做好自己的工作,提取潛在的模式(其中許多模式對于人類來說都過于微妙和復(fù)雜,難以理解),然后從這些模式中進行推斷,以解決復(fù)雜的新問題。當我們用替代數(shù)據(jù)來替換真實數(shù)據(jù)時,我們其實在做的是“次優(yōu)之選”:一個在少數(shù)特定條件下能夠匹配真實情況的替代品。就像你無法通過對著墻打球或在電視上看羅杰·費德勒的比賽而成為一名網(wǎng)球?qū)<乙粯印M管這兩者都復(fù)制了真實網(wǎng)球體驗的某些方面——機器人也無法掌握真實世界,除非它能看到自己在真實世界中做事。
我們應(yīng)該從中得到什么啟示?主要啟示是,如果我們想真正構(gòu)建能夠像大語言模型和視覺語言模型在虛擬世界中那樣,在真實物理世界中廣泛泛化的機器人基礎(chǔ)模型,那么真實數(shù)據(jù)是不可或缺的。
但我們也不應(yīng)“把嬰兒和洗澡水一起倒掉”:保持務(wù)實很重要。就像LLM和VLM使用大量與其最終目的并非高度相關(guān)但包含了有用世界知識的數(shù)據(jù)一樣,我們的機器人基礎(chǔ)模型也可以使用許多不同來源的數(shù)據(jù)。畢竟,如果你想成為一名優(yōu)秀的網(wǎng)球運動員,觀看費德勒的比賽是有用的。如果我們在訓(xùn)練集中,除了廣泛且有代表性的真實世界機器人經(jīng)驗之外,還包含多樣化的數(shù)據(jù),包括來自人類甚至模擬的數(shù)據(jù),這很可能會有幫助。我只是想說,這可能比完全回避真實世界數(shù)據(jù)的需求要容易得多:一旦我們不再需要擔心只在機器人能力和我們替代數(shù)據(jù)覆蓋范圍的交集中學習,就可以拋棄那些旨在縮小域差距的“拐杖”,并接受替代數(shù)據(jù)的本來面目:它是一種輔助知識來源,旨在補充真實世界的經(jīng)驗,幫助你成為一名優(yōu)秀的網(wǎng)球運動員。
TheSporks
在這篇文章中,我討論了替代數(shù)據(jù),這是一種試圖在不付出大規(guī)模領(lǐng)域內(nèi)數(shù)據(jù)收集成本的情況下,獲得規(guī)?;?xùn)練好處的“叉勺”(spork)。這并非AI研究人員鐘愛的唯一一種“叉勺”。其他“叉勺”還包括:結(jié)合了人工工程和學習組件的混合系統(tǒng);使用人工設(shè)計的約束來限制學習型自主系統(tǒng)不良行為的方法;以及將我們關(guān)于問題應(yīng)該如何解決的直覺嵌入到神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)本身的方法。它們都試圖獲得兩全其美:既有大規(guī)模機器學習的好處,又沒有隨之而來的高數(shù)據(jù)需求或大量目標設(shè)計(“對齊”或“后訓(xùn)練”)的缺點。
在深層次上,它們有很多共同點——通過某種形式的人工設(shè)計的歸納偏置(inductivebias)來解決訓(xùn)練不完整帶來的挑戰(zhàn)。因此,它們有一個根本性的缺點:它們要求我們植入“我們認為我們是如何思考”的方式。大規(guī)模機器學習的成功,歸根結(jié)底在于機器學習的力量勝過人類設(shè)計——這就是RichardSutton所說的“慘痛的教訓(xùn)”(TheBitterLesson)?!皯K痛的教訓(xùn)”的一個必然推論是,在任何支持學習的系統(tǒng)中,任何未經(jīng)學習而是通過手工設(shè)計的組件,最終都會成為其性能的瓶頸?!安嫔住敝晕耍且驗樗鼈冏屛覀円詾榭梢酝ㄟ^強制模型以特定方式解決問題來克服重大挑戰(zhàn),但最終,這只會讓我們的學習系統(tǒng)變得更不可擴展,即便我們的初衷恰恰相反。
參考資料:
https://sergeylevine.substack.com/p/sporks-of-agi
運營/排版:何晨龍
閨女犯錯家庭分崩,2歲外孫爭奪戰(zhàn):親情和選擇哪個更難
時光記▏馮愛霞:歲月有夢伴成長
41歲了還美成這樣,怪不得結(jié)婚11年老公面對她還會起歹心
免責聲明:本文內(nèi)容由開放的智能模型自動生成,僅供參考。