辜繡文
近日,機(jī)器學(xué)習(xí)與決策控制領(lǐng)域的知名專家、美國(guó)加州大學(xué)伯克利分校副教授、PhysicalIntelligence聯(lián)合創(chuàng)始人SergeyLevine,在其個(gè)人博客上發(fā)表了一篇題為《人工智能的叉勺》(SporksofAGI)的文章。深入探討了在機(jī)器人學(xué)習(xí)領(lǐng)域中數(shù)據(jù)獲取的核心挑戰(zhàn),尤其對(duì)當(dāng)前普遍依賴的“替代數(shù)據(jù)”策略提出了批判性思考。
圖丨SergeyLevine(來(lái)源:MITTechnologyRevie)
文章開篇就直指機(jī)器人技術(shù)發(fā)展的核心痛點(diǎn):數(shù)據(jù)。與主要依賴文本和圖像數(shù)據(jù)的大語(yǔ)言模型和視覺語(yǔ)言模型不同,訓(xùn)練機(jī)器人所需的視覺-語(yǔ)言-行為(VLA,Vision-Language-Action)模型,需要的是機(jī)器人在真實(shí)物理世界中進(jìn)行交互和執(zhí)行任務(wù)的數(shù)據(jù)。這類數(shù)據(jù)的采集不僅成本高昂、效率低下,而且難以規(guī)模化,這成為了訓(xùn)練強(qiáng)大、通用機(jī)器人模型的主要障礙。
圖丨相關(guān)博文(來(lái)源:SergeyLevine)
因此,研究界一直在尋找“次優(yōu)選擇”(TheNextBestThing),即用一些成本較低的替代數(shù)據(jù)(surrogatedata)來(lái)取代真實(shí)世界的數(shù)據(jù)。文章將當(dāng)前研究界為繞過(guò)數(shù)據(jù)難題而采用的各種“捷徑”——例如在模擬器中訓(xùn)練、從人類視頻中學(xué)習(xí)、或使用模仿機(jī)器人夾爪的設(shè)備——比作“叉勺(Spork)”。叉勺試圖同時(shí)擁有叉子和勺子的功能,卻最終在兩方面都表現(xiàn)平平,無(wú)法真正替代其一,甚至?xí)S著模型能力的增強(qiáng)而變得更加有害。因此,他呼吁研究者正視困難,回歸“真實(shí)之物”(TheRealThing),強(qiáng)調(diào)只有真實(shí)、海量的物理世界交互數(shù)據(jù),才是通往通用機(jī)器人智能的必經(jīng)之路。
以下是博文的完整內(nèi)容:
為什么“真實(shí)之物”優(yōu)于“次優(yōu)之選”
訓(xùn)練大模型真的很難,而且隨著模型變得越來(lái)越大,并擴(kuò)展到新的領(lǐng)域時(shí),只會(huì)變得更難。大語(yǔ)言模型使用大量文本數(shù)據(jù),視覺語(yǔ)言模型需要文本和圖像,而機(jī)器人領(lǐng)域的視覺-語(yǔ)言-行為模型,則需要機(jī)器人在真實(shí)世界中執(zhí)行真實(shí)任務(wù)的數(shù)據(jù)。這對(duì)智能體(agent)來(lái)說(shuō)尤其困難:無(wú)論你是想控制一個(gè)真實(shí)世界的機(jī)器人,還是想在網(wǎng)絡(luò)上執(zhí)行操作以滿足用戶請(qǐng)求,帶有行為標(biāo)簽的真實(shí)世界交互數(shù)據(jù),都無(wú)法像網(wǎng)絡(luò)上的文本和圖像那樣廉價(jià)地獲得。
因此,研究人員一直在努力尋找一種方法,用“次優(yōu)之選”(TheNextBestThing)來(lái)替代真實(shí)數(shù)據(jù)和行為,試圖兼得兩者的優(yōu)點(diǎn):既擁有在海量數(shù)據(jù)集上訓(xùn)練大型模型所帶來(lái)的強(qiáng)大能力和泛化性,又付出一個(gè)遠(yuǎn)低于在領(lǐng)域內(nèi)(in-domain)為基礎(chǔ)模型收集標(biāo)準(zhǔn)訓(xùn)練數(shù)據(jù)所需的成本。
次優(yōu)之選
雖然在視覺感知和自然語(yǔ)言處理等領(lǐng)域,真實(shí)世界的原始數(shù)據(jù)一直都是首選,但當(dāng)涉及到智能體——特別是機(jī)器人智能體(例如VLA模型)時(shí),人們總有一種不可抗拒的沖動(dòng),想要找出如何使用別的東西,某種可以廉價(jià)獲取的“替代品”(surrogate),但它又能提供我們所追求的那種廣泛的泛化能力。
我們可以使用一些方法來(lái)記錄人類自己以一種更“機(jī)器人化”的方式執(zhí)行任務(wù)的視頻。這個(gè)領(lǐng)域已經(jīng)有了大量激動(dòng)人心且極具創(chuàng)造性的研究,如果稍作概括,可以將其描述如下:手動(dòng)定義一個(gè)廉價(jià)的替代域(surrogatedomain)與真實(shí)世界機(jī)器人系統(tǒng)之間的映射或?qū)?yīng)關(guān)系,然后利用這種對(duì)應(yīng)關(guān)系,使用廉價(jià)的數(shù)據(jù)來(lái)代替昂貴但有代表性的領(lǐng)域內(nèi)數(shù)據(jù)(即來(lái)自目標(biāo)域中真實(shí)機(jī)器人的數(shù)據(jù))。每一種被廣泛研究的、用以避免收集真實(shí)機(jī)器人數(shù)據(jù)的方法,都基于類似的想法:
模擬(Simulation):從模擬到現(xiàn)實(shí)(sim-to-real)的方法需要人類設(shè)計(jì)師來(lái)指定機(jī)器人訓(xùn)練的環(huán)境并生成必要的資產(chǎn)。在模擬中學(xué)到的行為是這些選擇的產(chǎn)物。通常,能帶來(lái)最佳結(jié)果的模擬環(huán)境,并不是對(duì)現(xiàn)實(shí)的精確建模(這非常困難),而是對(duì)機(jī)器人需要應(yīng)對(duì)的各種變化類型進(jìn)行編碼,比如在隨機(jī)的墊腳石或高度場(chǎng)上進(jìn)行訓(xùn)練。這進(jìn)一步凸顯了人類的洞察力不僅決定了任務(wù)是什么,還間接指明了任務(wù)應(yīng)該如何解決。人類視頻(Humanvideos):那些純粹從人類視頻中學(xué)習(xí)機(jī)器人技能的方法,通常需要定義某種人類與機(jī)器人之間的對(duì)應(yīng)關(guān)系,比如抓取時(shí)手或手指放置的位置。任何此類選擇都預(yù)設(shè)了一種特定的任務(wù)解決方法(例如,用強(qiáng)力抓取的方式撿起和移動(dòng)物品),并且還需要在物理上可行的人類動(dòng)作與機(jī)器人動(dòng)作之間架起一座巨大的橋梁,無(wú)論是在動(dòng)力學(xué)上還是在外觀上。手持夾爪設(shè)備(Hand-heldgripperdevices):我們可以在學(xué)習(xí)過(guò)程中,通過(guò)讓人們使用模仿機(jī)器人夾爪的手持設(shè)備來(lái)收集數(shù)據(jù),從而在物理上強(qiáng)加一種人機(jī)映射。這確實(shí)是一種將人類意圖轉(zhuǎn)化為機(jī)器人動(dòng)作的非常直接的方式,但它也帶來(lái)了自身的挑戰(zhàn):例如,一個(gè)沒有手臂的懸空夾爪的動(dòng)力學(xué)特性與一個(gè)完整的機(jī)器人手臂是截然不同的。
所有這些方法都促成了有趣且相關(guān)的研究,并取得了一些出色和令人興奮的實(shí)踐成果。但是,我認(rèn)為它們中的每一種都代表了一種妥協(xié),而這種妥協(xié)最終會(huì)破壞大型學(xué)習(xí)模型的真正力量。
交集
當(dāng)然,在收集數(shù)據(jù)時(shí),人類的判斷是不可避免的:即便是最原始、最純粹的“白板式”學(xué)習(xí)方法,也需要我們定義一些關(guān)于我們希望模型做什么的事情。但是,當(dāng)我們?yōu)榱嘶乇苷鎸?shí)數(shù)據(jù)而做出設(shè)計(jì)決策時(shí),這些決策可能會(huì)帶來(lái)特別大的麻煩,因?yàn)樗鼈儍?nèi)在地限制了問(wèn)題可以被解決的方式。
每存在一個(gè)域差距(domaingap)(無(wú)論是模擬、視頻還是其他),我們都會(huì)被限制在這樣一個(gè)解決方案空間里:它必須位于那些在我們的系統(tǒng)上實(shí)際有效的行為、可以用我們選擇的方法(例如,模擬或手持夾爪)完成的行為,以及——這一點(diǎn)至關(guān)重要——那些不會(huì)加劇領(lǐng)域間差異的行為(例如,不會(huì)暴露機(jī)器人其實(shí)沒有手持夾爪,或不會(huì)觸發(fā)一個(gè)特別嚴(yán)重的模擬/現(xiàn)實(shí)世界差異)的交集之中。
此外,隨著我們使用更大、更強(qiáng)的模型,我們應(yīng)該預(yù)料到會(huì)從這些問(wèn)題中感受到更強(qiáng)的阻力:因?yàn)楦鼜?qiáng)大的模型能更緊密地?cái)M合數(shù)據(jù)中的模式,它們將越來(lái)越多地?cái)M合那些(我們不希望的)差異,就像它們學(xué)習(xí)我們想要學(xué)習(xí)的、真正的可遷移模式一樣。
(來(lái)源:SergeyLevine)
在研究項(xiàng)目和演示中,這些問(wèn)題可能看起來(lái)無(wú)傷大雅,因?yàn)槲覀兛梢栽O(shè)置真實(shí)機(jī)器人,讓這種差異變得不那么重要,比如選擇那些最佳和最魯棒的策略恰好就落在這個(gè)交集內(nèi)的環(huán)境和物體。但在真實(shí)的開放世界環(huán)境中,這不僅是局限性的,它實(shí)際上破壞了訓(xùn)練大型、強(qiáng)大基礎(chǔ)模型的主要優(yōu)勢(shì)。
首先,隨著模型越來(lái)越強(qiáng),從而越來(lái)越能分辨出替代數(shù)據(jù)域和真實(shí)世界域的差異時(shí)(即上圖中黃色圓圈縮小時(shí)),這個(gè)交集會(huì)變得更小。我們可以嘗試通過(guò)向模型隱藏信息、減少觀察空間、使用域不變損失函數(shù)、限制機(jī)器人可以使用的攝像頭視角等方法來(lái)抵消這個(gè)問(wèn)題。實(shí)際上,幾乎所有解決這些域差異的方法,最終都?xì)w結(jié)為某種形式的信息隱藏。但這再次破壞了基礎(chǔ)模型的根本優(yōu)勢(shì),即它們合成復(fù)雜信息源并提取人類難以手動(dòng)識(shí)別的微妙模式的能力?;旧?,隨著我們使用更強(qiáng)的模型,黃色圓圈會(huì)變小,而任何試圖抵消這一點(diǎn)的嘗試,最終都會(huì)使模型變?nèi)?。我們只能通過(guò)“給我們的模型做腦葉切除手術(shù)”(lobotomizingthem),來(lái)“愚弄”它們,阻止它們意識(shí)到自己身處《黑客帝國(guó)》(TheMatrix)之中。
這個(gè)交集的大小,也關(guān)鍵性地取決于我們?cè)谠O(shè)計(jì)替代數(shù)據(jù)時(shí)所做的決策——這些決策越差,綠色和紅色圓圈之間的交集就會(huì)越小。在實(shí)踐中,我們會(huì)為我們的替代數(shù)據(jù)(我們的模擬器或手持?jǐn)?shù)據(jù)收集設(shè)備)進(jìn)行設(shè)計(jì),以便在我們?cè)O(shè)想的少數(shù)應(yīng)用領(lǐng)域中,這種差異被最小化,以確保好的動(dòng)作(即那些能導(dǎo)致成功的動(dòng)作,或至少能避免災(zāi)難性失敗的動(dòng)作)在替代數(shù)據(jù)和真實(shí)機(jī)器人之間能夠匹配。但在這些應(yīng)用領(lǐng)域之外,無(wú)法保證它們還會(huì)匹配。
(來(lái)源:SergeyLevine)
所有這些問(wèn)題,在我們真正想要優(yōu)化出最佳行為(例如,通過(guò)強(qiáng)化學(xué)習(xí))時(shí),都會(huì)變得更加嚴(yán)重,因?yàn)槲覀儫o(wú)法在不走出“機(jī)器人能做的、在替代數(shù)據(jù)中有效的、且模型無(wú)法分辨差異”這個(gè)狹窄交集的情況下,充分利用真實(shí)機(jī)器人系統(tǒng)的全部能力。
真實(shí)之物
在試圖回避使用真實(shí)世界數(shù)據(jù)的過(guò)程中,我們其實(shí)是在尋找一個(gè)“兩全其美”的解決方案:某種既像模擬或視頻那樣廉價(jià),又具備真實(shí)世界數(shù)據(jù)有效性的東西。
在機(jī)器學(xué)習(xí)中,持續(xù)有效的最佳方法是確保訓(xùn)練條件與測(cè)試條件相匹配。這就是“真實(shí)之物”(TheRealThing)——那些教會(huì)模型世界究竟如何運(yùn)作的數(shù)據(jù),這樣它才能做好自己的工作,提取潛在的模式(其中許多模式對(duì)于人類來(lái)說(shuō)都過(guò)于微妙和復(fù)雜,難以理解),然后從這些模式中進(jìn)行推斷,以解決復(fù)雜的新問(wèn)題。當(dāng)我們用替代數(shù)據(jù)來(lái)替換真實(shí)數(shù)據(jù)時(shí),我們其實(shí)在做的是“次優(yōu)之選”:一個(gè)在少數(shù)特定條件下能夠匹配真實(shí)情況的替代品。就像你無(wú)法通過(guò)對(duì)著墻打球或在電視上看羅杰·費(fèi)德勒的比賽而成為一名網(wǎng)球?qū)<乙粯印M管這兩者都復(fù)制了真實(shí)網(wǎng)球體驗(yàn)的某些方面——機(jī)器人也無(wú)法掌握真實(shí)世界,除非它能看到自己在真實(shí)世界中做事。
我們應(yīng)該從中得到什么啟示?主要啟示是,如果我們想真正構(gòu)建能夠像大語(yǔ)言模型和視覺語(yǔ)言模型在虛擬世界中那樣,在真實(shí)物理世界中廣泛泛化的機(jī)器人基礎(chǔ)模型,那么真實(shí)數(shù)據(jù)是不可或缺的。
但我們也不應(yīng)“把嬰兒和洗澡水一起倒掉”:保持務(wù)實(shí)很重要。就像LLM和VLM使用大量與其最終目的并非高度相關(guān)但包含了有用世界知識(shí)的數(shù)據(jù)一樣,我們的機(jī)器人基礎(chǔ)模型也可以使用許多不同來(lái)源的數(shù)據(jù)。畢竟,如果你想成為一名優(yōu)秀的網(wǎng)球運(yùn)動(dòng)員,觀看費(fèi)德勒的比賽是有用的。如果我們?cè)谟?xùn)練集中,除了廣泛且有代表性的真實(shí)世界機(jī)器人經(jīng)驗(yàn)之外,還包含多樣化的數(shù)據(jù),包括來(lái)自人類甚至模擬的數(shù)據(jù),這很可能會(huì)有幫助。我只是想說(shuō),這可能比完全回避真實(shí)世界數(shù)據(jù)的需求要容易得多:一旦我們不再需要擔(dān)心只在機(jī)器人能力和我們替代數(shù)據(jù)覆蓋范圍的交集中學(xué)習(xí),就可以拋棄那些旨在縮小域差距的“拐杖”,并接受替代數(shù)據(jù)的本來(lái)面目:它是一種輔助知識(shí)來(lái)源,旨在補(bǔ)充真實(shí)世界的經(jīng)驗(yàn),幫助你成為一名優(yōu)秀的網(wǎng)球運(yùn)動(dòng)員。
TheSporks
在這篇文章中,我討論了替代數(shù)據(jù),這是一種試圖在不付出大規(guī)模領(lǐng)域內(nèi)數(shù)據(jù)收集成本的情況下,獲得規(guī)?;?xùn)練好處的“叉勺”(spork)。這并非AI研究人員鐘愛的唯一一種“叉勺”。其他“叉勺”還包括:結(jié)合了人工工程和學(xué)習(xí)組件的混合系統(tǒng);使用人工設(shè)計(jì)的約束來(lái)限制學(xué)習(xí)型自主系統(tǒng)不良行為的方法;以及將我們關(guān)于問(wèn)題應(yīng)該如何解決的直覺嵌入到神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)本身的方法。它們都試圖獲得兩全其美:既有大規(guī)模機(jī)器學(xué)習(xí)的好處,又沒有隨之而來(lái)的高數(shù)據(jù)需求或大量目標(biāo)設(shè)計(jì)(“對(duì)齊”或“后訓(xùn)練”)的缺點(diǎn)。
在深層次上,它們有很多共同點(diǎn)——通過(guò)某種形式的人工設(shè)計(jì)的歸納偏置(inductivebias)來(lái)解決訓(xùn)練不完整帶來(lái)的挑戰(zhàn)。因此,它們有一個(gè)根本性的缺點(diǎn):它們要求我們植入“我們認(rèn)為我們是如何思考”的方式。大規(guī)模機(jī)器學(xué)習(xí)的成功,歸根結(jié)底在于機(jī)器學(xué)習(xí)的力量勝過(guò)人類設(shè)計(jì)——這就是RichardSutton所說(shuō)的“慘痛的教訓(xùn)”(TheBitterLesson)。“慘痛的教訓(xùn)”的一個(gè)必然推論是,在任何支持學(xué)習(xí)的系統(tǒng)中,任何未經(jīng)學(xué)習(xí)而是通過(guò)手工設(shè)計(jì)的組件,最終都會(huì)成為其性能的瓶頸?!安嫔住敝晕耍且?yàn)樗鼈冏屛覀円詾榭梢酝ㄟ^(guò)強(qiáng)制模型以特定方式解決問(wèn)題來(lái)克服重大挑戰(zhàn),但最終,這只會(huì)讓我們的學(xué)習(xí)系統(tǒng)變得更不可擴(kuò)展,即便我們的初衷恰恰相反。
參考資料:
https://sergeylevine.substack.com/p/sporks-of-agi
運(yùn)營(yíng)/排版:何晨龍
小說(shuō):全系廢材重生現(xiàn)代,陸二小姐強(qiáng)勢(shì)逆襲,虐渣打臉忙不停
05.《我家夫人是全系廢材》作者:墨淺伊//字?jǐn)?shù):321w 06.《傻女逆天廢材大小姐》作者:夏曉涼//字?jǐn)?shù):390w 07.《魂逆九天之天命神女》作者:午日陽(yáng)光//字?jǐn)?shù):245w 08.《驅(qū)魔龍族之極品言靈師》作者:緋月天歌//字?jǐn)?shù):523w 09.《神醫(yī)狂妃,廢材三小姐》作者:梓同//字?jǐn)?shù):243w 01.《紈绔還有呢?
小說(shuō):全系廢材重生現(xiàn)代,陸二小姐虐渣打臉忙不停
第一本:《我家夫人是全系廢材》作者:墨淺伊簡(jiǎn)介:她是異界修真者,煉器煉丹、符箓陣法、醫(yī)術(shù)無(wú)一不精,就連玄學(xué)也手到擒來(lái)——。意外渡劫失敗,重生成現(xiàn)代陸家二小姐-|。軟弱可欺?不好意思,從來(lái)只有她欺負(fù)別人的份!渣父聯(lián)合小三讓她與母親凈身出戶?精彩內(nèi)容:在他哇哇大哭的同時(shí),也讓人看到了,他缺了等我繼續(xù)說(shuō)|。
三本字?jǐn)?shù)賊多的玄幻小說(shuō),書荒時(shí)的救星,連刷三遍都不過(guò)癮!
我們下期再見——_。往期精彩內(nèi)容回顧:高干文:《別鬧,薄先生》溫煦禁欲執(zhí)行長(zhǎng)VS顏控撩人沈繁星,超寵廢材大小姐:《我家夫人是全系廢材》1V1雙C 雙強(qiáng)互撩,無(wú)虐高甜高人氣年代文,《重生空間嬌嬌媳》女主攜生態(tài)農(nóng)莊空間重生被團(tuán)寵快穿:追過(guò)《反派BOSS有毒》,又在千斤銅錢這本文中著魔,撩斷腿等會(huì)說(shuō)。
來(lái)源:紅網(wǎng)
作者:諫飛煙
編輯:革凱復(fù)
本文為紅辣椒評(píng)論 原創(chuàng)文章,僅系作者個(gè)人觀點(diǎn),不代表紅網(wǎng)立場(chǎng)。轉(zhuǎn)載請(qǐng)附原文出處鏈接和本聲明。