原文作者:
PannagSanketi,GoogleDeepMind機器人團隊高級工程師兼技術主管。
HeniBenAmor,亞利桑那州立大學副教授,互動機器人實驗室主管。
幾乎每天,全球各地的學術實驗室或商業(yè)公司都在發(fā)布令人矚目的新型機器人平臺。特別是在人形機器人領域,它們協(xié)助工廠作業(yè)的能力正日益增強,并有望最終拓展至家庭和醫(yī)院等場景。然而,要讓這些機器人真正具備實用價值,它們必須擁有復雜的“大腦”來精確控制其物理軀體。
傳統(tǒng)上,為使機器人達到預期的性能表現(xiàn),專家需要投入大量時間編寫程序,精心設計復雜的行為腳本,并細致且反復地調整參數(shù)(如控制器增益或運動規(guī)劃權重)。盡管機器學習(ML)技術展現(xiàn)出很大的潛力,但要讓機器人學習全新的復雜行為,目前仍普遍需要大量的人工監(jiān)督和系統(tǒng)性再設計。
在GoogleDeepMind,我們一直在思考一個核心問題:如何讓機器人實現(xiàn)更全面、更持續(xù)的學習與適應能力,從而在每次取得重大性能提升或掌握新技能時,減少對專家干預的依賴?
這一思考始終是我們機器人研究的核心驅動力。我們正在探索一種新的研究范式:讓兩個機器人智能體(agent)在相互對抗的環(huán)境中,達到更高的自主性,實現(xiàn)自我提升。這種范式旨在超越那些僅可以執(zhí)行預先編程的固定任務或適應性有限的機器學習模型,轉而訓練出能夠在實際操作中學習廣泛技能的agent。
基于我們在機器學習領域的前期工作,例如AlphaGo和AlphaFold項目,我們將目光聚焦在了乒乓球這項高難度運動上,將其作為理想的測試平臺。
我們之所以選擇乒乓球,是因為這項運動在一個相對受限但同時又高度動態(tài)的環(huán)境中,體現(xiàn)了機器人技術所面臨的最嚴峻挑戰(zhàn)。
要打好乒乓球,機器人必須掌握多種復雜技能:除了需要敏銳的感知能力外,還必須具備極高的精準控制力,從而以恰當?shù)慕嵌群退俣葦r截對方來球,并通過巧妙的戰(zhàn)略決策來戰(zhàn)勝對手。這些要素共同使得乒乓球成為開發(fā)與評估學習算法的絕佳領域——這些算法需要能夠處理實時交互、復雜的物理計算、高級推理,并制定出適應性強的策略。
而這些能力,不僅可直接應用于制造業(yè)等場景,甚至可能在未來適用于非結構化的家庭環(huán)境。
自我提升挑戰(zhàn)
傳統(tǒng)的機器學習方法很難實現(xiàn)持續(xù)、自主的學習。以模仿學習為例,機器人通過模仿專家行為來學習,通常要求為每一項技能或其變體提供大量的人類演示數(shù)據(jù);如果我們想讓機器人持續(xù)學習新任務或隨著時間的推移不斷提升性能,這種對專家數(shù)據(jù)收集的依賴便會成為一個瓶頸。
同樣地,強化學習通過獎勵或懲罰來引導agent進行試錯訓練,但這通常需要人類設計師精心設計復雜的數(shù)學獎勵函數(shù),從而精確捕捉多維任務中的預期行為,且這些函數(shù)還需要隨著機器人需要提升或學習新技能而進行調整,這無疑限制了其可擴展性。
從本質上講,這兩種成熟的機器學習方法都涉及大量的人類參與,尤其是在目標設定為讓機器人在初始編程之后仍能持續(xù)自我提升的情況下。
因此,我們提出了一個直接的挑戰(zhàn):機器人是否能夠在學習與提升的循環(huán)中,以極少甚至無需人類干預的方式,自主地學習并提升其技能?
在競爭中學習:機器人vs.機器人
我們探索的一種創(chuàng)新方法借鑒了AlphaGo的策略:讓agent通過與自身競爭來學習。我們嘗試讓兩臺機器人手臂進行乒乓球對決,這個想法雖然簡單,卻非常有效。當其中一臺機器人發(fā)現(xiàn)更優(yōu)策略時,其對手被迫隨之適應并提升自身能力,從而形成一個技能水平持續(xù)提升的循環(huán)。
為了支撐這種學習范式所需的大規(guī)模訓練,我們設計了一個完全自主的乒乓球環(huán)境。該系統(tǒng)可以持續(xù)運行,具備自動球收集的功能,并支持遠程監(jiān)控與控制,這使得我們能夠在無需人工干預的情況下進行長時間的實驗。
作為第一步,我們通過強化學習在模擬環(huán)境中成功訓練了一個機器人agent,并將其和復制版本部署在兩個機器人上,使它們能夠進行合作式對打。隨后,我們在真實的機器人對戰(zhàn)環(huán)境中對agent進行了數(shù)小時的微調,最終獲得了一種能夠維持長時間對打的策略。接著,我們將研究重點轉向了競爭性的機器人對戰(zhàn)問題。
在競爭性對戰(zhàn)中,原本的合作式agent表現(xiàn)并不理想。這其實是可以預料的,因為在合作對打階段,球的來回通常會穩(wěn)定在一個相對狹窄的區(qū)域,這限制了agent能夠擊回的球的分布范圍。
我們的假設是,如果繼續(xù)在競爭性環(huán)境中進行訓練,并且獎勵每個機器人擊敗對手的行為,那么這種球的分布范圍會逐漸擴大。盡管前景看起來不錯,但在現(xiàn)實世界中通過競爭性自我對戰(zhàn)來訓練系統(tǒng)面臨著挑戰(zhàn)。由于模型規(guī)模的限制,分布范圍的擴大實際上相當嚴重。
本質上,模型在有效學習新?lián)羟蚍绞降耐瑫r,難以避免地會遺忘舊的擊球方式,并且在訓練過程中迅速陷入了局部最優(yōu)解:短暫的對決之后,一臺機器人會打出對手難以回擊的制勝球,而另一臺機器人則束手無策。
盡管機器人間的競爭性對戰(zhàn)仍然是一個重大難題,我們的團隊同時也探索了機器人如何與人類進行競爭性對戰(zhàn)。在訓練初期,人類玩家通常更擅長保持球在場內(nèi),這增加了機器人可以學習的擊球分布范圍。我們?nèi)匀恍枰_發(fā)一種策略架構,其應該包括具有詳細技能描述的低級控制器和負責選擇低級技能的高級控制器,以及支持從模擬到現(xiàn)實零樣本遷移的技術,從而使系統(tǒng)能夠實時適應未曾遇到過的對手。
在用戶研究中,盡管機器人在與人類頂尖玩家的對決中全部落敗,但它在與初學者的對決中全部獲勝,并在與中級玩家的對決中取得了約50%的勝率,這顯示出其具備了相對穩(wěn)定的業(yè)余人類水平。
憑借這些創(chuàng)新,再加上相比合作模式更優(yōu)越的起點,我們已經(jīng)處于一個有利的位置,可以重新聚焦于機器人間的競爭性訓練,并繼續(xù)推動系統(tǒng)的快速擴展。
詳情查看:
當VLM成為AI教練
我們探索的另一個有趣思路是:視覺語言模型(VLM)是否能夠扮演教練的角色,觀察機器人的表現(xiàn)并提供改進建議?
該項目的一個關鍵洞見在于,VLM可以用于實現(xiàn)可解釋的機器人策略搜索。基于這一洞見,我們開發(fā)了SASPrompt(即summarize總結、analyze分析、synthesize合成)方法,其能夠利用VLM的檢索、推理和優(yōu)化能力,通過迭代學習與適應機器人的行為,最終合成新的行為模式。我們的方法可以看作是一種新型可解釋策略搜索方法的早期實踐,并且搜索完全在LLM內(nèi)部完成。
此外,這種方法無需依賴明確的獎勵函數(shù)——VLM能夠直接根據(jù)任務描述中的觀察結果來推斷獎勵。
因此,VLM可以作為教練,持續(xù)分析“學生”(即機器人)的表現(xiàn),并提供相應的改進建議。
邁向真正自主學習的機器人
突破傳統(tǒng)編程和機器學習技術的局限性,對于機器人技術的未來發(fā)展至關重要。我們正在研究的方法,其目標正是減少對繁瑣人類工作的依賴。我們的乒乓球項目,就探索了機器人自主獲取并提升復雜技能的途徑。
盡管仍面臨重大挑戰(zhàn)——例如,穩(wěn)定機器人之間的學習過程,以及擴展基于VLM的教練系統(tǒng)——但這些方法無疑提供了獨特的機會。我們對此持樂觀態(tài)度,在這條道路上開展持續(xù)研究,將最終帶來更強大、適應性更強的機器。這些機器能夠學習在我們這個結構復雜的世界中有效且安全運作所需的各種技能。
這條探索之路充滿挑戰(zhàn),但真正智能且有益的機器人伙伴所帶來的巨大潛力,使得這項研究極具價值,值得我們不懈努力。
https://spectrum.ieee.org/deepmind-table-tennis-robots
翻譯:學術君
如需轉載或投稿,請直接在公眾號內(nèi)留言
免責聲明:本文內(nèi)容由開放的智能模型自動生成,僅供參考。