原文作者:
PannagSanketi,GoogleDeepMind機(jī)器人團(tuán)隊(duì)高級(jí)工程師兼技術(shù)主管。
HeniBenAmor,亞利桑那州立大學(xué)副教授,互動(dòng)機(jī)器人實(shí)驗(yàn)室主管。
幾乎每天,全球各地的學(xué)術(shù)實(shí)驗(yàn)室或商業(yè)公司都在發(fā)布令人矚目的新型機(jī)器人平臺(tái)。特別是在人形機(jī)器人領(lǐng)域,它們協(xié)助工廠作業(yè)的能力正日益增強(qiáng),并有望最終拓展至家庭和醫(yī)院等場(chǎng)景。然而,要讓這些機(jī)器人真正具備實(shí)用價(jià)值,它們必須擁有復(fù)雜的“大腦”來(lái)精確控制其物理軀體。
傳統(tǒng)上,為使機(jī)器人達(dá)到預(yù)期的性能表現(xiàn),專家需要投入大量時(shí)間編寫程序,精心設(shè)計(jì)復(fù)雜的行為腳本,并細(xì)致且反復(fù)地調(diào)整參數(shù)(如控制器增益或運(yùn)動(dòng)規(guī)劃?rùn)?quán)重)。盡管機(jī)器學(xué)習(xí)(ML)技術(shù)展現(xiàn)出很大的潛力,但要讓機(jī)器人學(xué)習(xí)全新的復(fù)雜行為,目前仍普遍需要大量的人工監(jiān)督和系統(tǒng)性再設(shè)計(jì)。
在GoogleDeepMind,我們一直在思考一個(gè)核心問(wèn)題:如何讓機(jī)器人實(shí)現(xiàn)更全面、更持續(xù)的學(xué)習(xí)與適應(yīng)能力,從而在每次取得重大性能提升或掌握新技能時(shí),減少對(duì)專家干預(yù)的依賴?
這一思考始終是我們機(jī)器人研究的核心驅(qū)動(dòng)力。我們正在探索一種新的研究范式:讓兩個(gè)機(jī)器人智能體(agent)在相互對(duì)抗的環(huán)境中,達(dá)到更高的自主性,實(shí)現(xiàn)自我提升。這種范式旨在超越那些僅可以執(zhí)行預(yù)先編程的固定任務(wù)或適應(yīng)性有限的機(jī)器學(xué)習(xí)模型,轉(zhuǎn)而訓(xùn)練出能夠在實(shí)際操作中學(xué)習(xí)廣泛技能的agent。
基于我們?cè)跈C(jī)器學(xué)習(xí)領(lǐng)域的前期工作,例如AlphaGo和AlphaFold項(xiàng)目,我們將目光聚焦在了乒乓球這項(xiàng)高難度運(yùn)動(dòng)上,將其作為理想的測(cè)試平臺(tái)。
我們之所以選擇乒乓球,是因?yàn)檫@項(xiàng)運(yùn)動(dòng)在一個(gè)相對(duì)受限但同時(shí)又高度動(dòng)態(tài)的環(huán)境中,體現(xiàn)了機(jī)器人技術(shù)所面臨的最嚴(yán)峻挑戰(zhàn)。
要打好乒乓球,機(jī)器人必須掌握多種復(fù)雜技能:除了需要敏銳的感知能力外,還必須具備極高的精準(zhǔn)控制力,從而以恰當(dāng)?shù)慕嵌群退俣葦r截對(duì)方來(lái)球,并通過(guò)巧妙的戰(zhàn)略決策來(lái)戰(zhàn)勝對(duì)手。這些要素共同使得乒乓球成為開發(fā)與評(píng)估學(xué)習(xí)算法的絕佳領(lǐng)域——這些算法需要能夠處理實(shí)時(shí)交互、復(fù)雜的物理計(jì)算、高級(jí)推理,并制定出適應(yīng)性強(qiáng)的策略。
而這些能力,不僅可直接應(yīng)用于制造業(yè)等場(chǎng)景,甚至可能在未來(lái)適用于非結(jié)構(gòu)化的家庭環(huán)境。
自我提升挑戰(zhàn)
傳統(tǒng)的機(jī)器學(xué)習(xí)方法很難實(shí)現(xiàn)持續(xù)、自主的學(xué)習(xí)。以模仿學(xué)習(xí)為例,機(jī)器人通過(guò)模仿專家行為來(lái)學(xué)習(xí),通常要求為每一項(xiàng)技能或其變體提供大量的人類演示數(shù)據(jù);如果我們想讓機(jī)器人持續(xù)學(xué)習(xí)新任務(wù)或隨著時(shí)間的推移不斷提升性能,這種對(duì)專家數(shù)據(jù)收集的依賴便會(huì)成為一個(gè)瓶頸。
同樣地,強(qiáng)化學(xué)習(xí)通過(guò)獎(jiǎng)勵(lì)或懲罰來(lái)引導(dǎo)agent進(jìn)行試錯(cuò)訓(xùn)練,但這通常需要人類設(shè)計(jì)師精心設(shè)計(jì)復(fù)雜的數(shù)學(xué)獎(jiǎng)勵(lì)函數(shù),從而精確捕捉多維任務(wù)中的預(yù)期行為,且這些函數(shù)還需要隨著機(jī)器人需要提升或?qū)W習(xí)新技能而進(jìn)行調(diào)整,這無(wú)疑限制了其可擴(kuò)展性。
從本質(zhì)上講,這兩種成熟的機(jī)器學(xué)習(xí)方法都涉及大量的人類參與,尤其是在目標(biāo)設(shè)定為讓機(jī)器人在初始編程之后仍能持續(xù)自我提升的情況下。
因此,我們提出了一個(gè)直接的挑戰(zhàn):機(jī)器人是否能夠在學(xué)習(xí)與提升的循環(huán)中,以極少甚至無(wú)需人類干預(yù)的方式,自主地學(xué)習(xí)并提升其技能?
在競(jìng)爭(zhēng)中學(xué)習(xí):機(jī)器人vs.機(jī)器人
我們探索的一種創(chuàng)新方法借鑒了AlphaGo的策略:讓agent通過(guò)與自身競(jìng)爭(zhēng)來(lái)學(xué)習(xí)。我們嘗試讓兩臺(tái)機(jī)器人手臂進(jìn)行乒乓球?qū)Q,這個(gè)想法雖然簡(jiǎn)單,卻非常有效。當(dāng)其中一臺(tái)機(jī)器人發(fā)現(xiàn)更優(yōu)策略時(shí),其對(duì)手被迫隨之適應(yīng)并提升自身能力,從而形成一個(gè)技能水平持續(xù)提升的循環(huán)。
為了支撐這種學(xué)習(xí)范式所需的大規(guī)模訓(xùn)練,我們?cè)O(shè)計(jì)了一個(gè)完全自主的乒乓球環(huán)境。該系統(tǒng)可以持續(xù)運(yùn)行,具備自動(dòng)球收集的功能,并支持遠(yuǎn)程監(jiān)控與控制,這使得我們能夠在無(wú)需人工干預(yù)的情況下進(jìn)行長(zhǎng)時(shí)間的實(shí)驗(yàn)。
作為第一步,我們通過(guò)強(qiáng)化學(xué)習(xí)在模擬環(huán)境中成功訓(xùn)練了一個(gè)機(jī)器人agent,并將其和復(fù)制版本部署在兩個(gè)機(jī)器人上,使它們能夠進(jìn)行合作式對(duì)打。隨后,我們?cè)谡鎸?shí)的機(jī)器人對(duì)戰(zhàn)環(huán)境中對(duì)agent進(jìn)行了數(shù)小時(shí)的微調(diào),最終獲得了一種能夠維持長(zhǎng)時(shí)間對(duì)打的策略。接著,我們將研究重點(diǎn)轉(zhuǎn)向了競(jìng)爭(zhēng)性的機(jī)器人對(duì)戰(zhàn)問(wèn)題。
在競(jìng)爭(zhēng)性對(duì)戰(zhàn)中,原本的合作式agent表現(xiàn)并不理想。這其實(shí)是可以預(yù)料的,因?yàn)樵诤献鲗?duì)打階段,球的來(lái)回通常會(huì)穩(wěn)定在一個(gè)相對(duì)狹窄的區(qū)域,這限制了agent能夠擊回的球的分布范圍。
我們的假設(shè)是,如果繼續(xù)在競(jìng)爭(zhēng)性環(huán)境中進(jìn)行訓(xùn)練,并且獎(jiǎng)勵(lì)每個(gè)機(jī)器人擊敗對(duì)手的行為,那么這種球的分布范圍會(huì)逐漸擴(kuò)大。盡管前景看起來(lái)不錯(cuò),但在現(xiàn)實(shí)世界中通過(guò)競(jìng)爭(zhēng)性自我對(duì)戰(zhàn)來(lái)訓(xùn)練系統(tǒng)面臨著挑戰(zhàn)。由于模型規(guī)模的限制,分布范圍的擴(kuò)大實(shí)際上相當(dāng)嚴(yán)重。
本質(zhì)上,模型在有效學(xué)習(xí)新?lián)羟蚍绞降耐瑫r(shí),難以避免地會(huì)遺忘舊的擊球方式,并且在訓(xùn)練過(guò)程中迅速陷入了局部最優(yōu)解:短暫的對(duì)決之后,一臺(tái)機(jī)器人會(huì)打出對(duì)手難以回?fù)舻闹苿偾颍硪慌_(tái)機(jī)器人則束手無(wú)策。
盡管機(jī)器人間的競(jìng)爭(zhēng)性對(duì)戰(zhàn)仍然是一個(gè)重大難題,我們的團(tuán)隊(duì)同時(shí)也探索了機(jī)器人如何與人類進(jìn)行競(jìng)爭(zhēng)性對(duì)戰(zhàn)。在訓(xùn)練初期,人類玩家通常更擅長(zhǎng)保持球在場(chǎng)內(nèi),這增加了機(jī)器人可以學(xué)習(xí)的擊球分布范圍。我們?nèi)匀恍枰_發(fā)一種策略架構(gòu),其應(yīng)該包括具有詳細(xì)技能描述的低級(jí)控制器和負(fù)責(zé)選擇低級(jí)技能的高級(jí)控制器,以及支持從模擬到現(xiàn)實(shí)零樣本遷移的技術(shù),從而使系統(tǒng)能夠?qū)崟r(shí)適應(yīng)未曾遇到過(guò)的對(duì)手。
在用戶研究中,盡管機(jī)器人在與人類頂尖玩家的對(duì)決中全部落敗,但它在與初學(xué)者的對(duì)決中全部獲勝,并在與中級(jí)玩家的對(duì)決中取得了約50%的勝率,這顯示出其具備了相對(duì)穩(wěn)定的業(yè)余人類水平。
憑借這些創(chuàng)新,再加上相比合作模式更優(yōu)越的起點(diǎn),我們已經(jīng)處于一個(gè)有利的位置,可以重新聚焦于機(jī)器人間的競(jìng)爭(zhēng)性訓(xùn)練,并繼續(xù)推動(dòng)系統(tǒng)的快速擴(kuò)展。
詳情查看:
當(dāng)VLM成為AI教練
我們探索的另一個(gè)有趣思路是:視覺(jué)語(yǔ)言模型(VLM)是否能夠扮演教練的角色,觀察機(jī)器人的表現(xiàn)并提供改進(jìn)建議?
該項(xiàng)目的一個(gè)關(guān)鍵洞見在于,VLM可以用于實(shí)現(xiàn)可解釋的機(jī)器人策略搜索?;谶@一洞見,我們開發(fā)了SASPrompt(即summarize總結(jié)、analyze分析、synthesize合成)方法,其能夠利用VLM的檢索、推理和優(yōu)化能力,通過(guò)迭代學(xué)習(xí)與適應(yīng)機(jī)器人的行為,最終合成新的行為模式。我們的方法可以看作是一種新型可解釋策略搜索方法的早期實(shí)踐,并且搜索完全在LLM內(nèi)部完成。
此外,這種方法無(wú)需依賴明確的獎(jiǎng)勵(lì)函數(shù)——VLM能夠直接根據(jù)任務(wù)描述中的觀察結(jié)果來(lái)推斷獎(jiǎng)勵(lì)。
因此,VLM可以作為教練,持續(xù)分析“學(xué)生”(即機(jī)器人)的表現(xiàn),并提供相應(yīng)的改進(jìn)建議。
邁向真正自主學(xué)習(xí)的機(jī)器人
突破傳統(tǒng)編程和機(jī)器學(xué)習(xí)技術(shù)的局限性,對(duì)于機(jī)器人技術(shù)的未來(lái)發(fā)展至關(guān)重要。我們正在研究的方法,其目標(biāo)正是減少對(duì)繁瑣人類工作的依賴。我們的乒乓球項(xiàng)目,就探索了機(jī)器人自主獲取并提升復(fù)雜技能的途徑。
盡管仍面臨重大挑戰(zhàn)——例如,穩(wěn)定機(jī)器人之間的學(xué)習(xí)過(guò)程,以及擴(kuò)展基于VLM的教練系統(tǒng)——但這些方法無(wú)疑提供了獨(dú)特的機(jī)會(huì)。我們對(duì)此持樂(lè)觀態(tài)度,在這條道路上開展持續(xù)研究,將最終帶來(lái)更強(qiáng)大、適應(yīng)性更強(qiáng)的機(jī)器。這些機(jī)器能夠?qū)W習(xí)在我們這個(gè)結(jié)構(gòu)復(fù)雜的世界中有效且安全運(yùn)作所需的各種技能。
這條探索之路充滿挑戰(zhàn),但真正智能且有益的機(jī)器人伙伴所帶來(lái)的巨大潛力,使得這項(xiàng)研究極具價(jià)值,值得我們不懈努力。
https://spectrum.ieee.org/deepmind-table-tennis-robots
翻譯:學(xué)術(shù)君
如需轉(zhuǎn)載或投稿,請(qǐng)直接在公眾號(hào)內(nèi)留言
千古情話:沈三白《浮生六記》全集