賴怡伶
原文作者:
PannagSanketi,GoogleDeepMind機(jī)器人團(tuán)隊高級工程師兼技術(shù)主管。
HeniBenAmor,亞利桑那州立大學(xué)副教授,互動機(jī)器人實驗室主管。
幾乎每天,全球各地的學(xué)術(shù)實驗室或商業(yè)公司都在發(fā)布令人矚目的新型機(jī)器人平臺。特別是在人形機(jī)器人領(lǐng)域,它們協(xié)助工廠作業(yè)的能力正日益增強(qiáng),并有望最終拓展至家庭和醫(yī)院等場景。然而,要讓這些機(jī)器人真正具備實用價值,它們必須擁有復(fù)雜的“大腦”來精確控制其物理軀體。
傳統(tǒng)上,為使機(jī)器人達(dá)到預(yù)期的性能表現(xiàn),專家需要投入大量時間編寫程序,精心設(shè)計復(fù)雜的行為腳本,并細(xì)致且反復(fù)地調(diào)整參數(shù)(如控制器增益或運動規(guī)劃權(quán)重)。盡管機(jī)器學(xué)習(xí)(ML)技術(shù)展現(xiàn)出很大的潛力,但要讓機(jī)器人學(xué)習(xí)全新的復(fù)雜行為,目前仍普遍需要大量的人工監(jiān)督和系統(tǒng)性再設(shè)計。
在GoogleDeepMind,我們一直在思考一個核心問題:如何讓機(jī)器人實現(xiàn)更全面、更持續(xù)的學(xué)習(xí)與適應(yīng)能力,從而在每次取得重大性能提升或掌握新技能時,減少對專家干預(yù)的依賴?
這一思考始終是我們機(jī)器人研究的核心驅(qū)動力。我們正在探索一種新的研究范式:讓兩個機(jī)器人智能體(agent)在相互對抗的環(huán)境中,達(dá)到更高的自主性,實現(xiàn)自我提升。這種范式旨在超越那些僅可以執(zhí)行預(yù)先編程的固定任務(wù)或適應(yīng)性有限的機(jī)器學(xué)習(xí)模型,轉(zhuǎn)而訓(xùn)練出能夠在實際操作中學(xué)習(xí)廣泛技能的agent。
基于我們在機(jī)器學(xué)習(xí)領(lǐng)域的前期工作,例如AlphaGo和AlphaFold項目,我們將目光聚焦在了乒乓球這項高難度運動上,將其作為理想的測試平臺。
我們之所以選擇乒乓球,是因為這項運動在一個相對受限但同時又高度動態(tài)的環(huán)境中,體現(xiàn)了機(jī)器人技術(shù)所面臨的最嚴(yán)峻挑戰(zhàn)。
要打好乒乓球,機(jī)器人必須掌握多種復(fù)雜技能:除了需要敏銳的感知能力外,還必須具備極高的精準(zhǔn)控制力,從而以恰當(dāng)?shù)慕嵌群退俣葦r截對方來球,并通過巧妙的戰(zhàn)略決策來戰(zhàn)勝對手。這些要素共同使得乒乓球成為開發(fā)與評估學(xué)習(xí)算法的絕佳領(lǐng)域——這些算法需要能夠處理實時交互、復(fù)雜的物理計算、高級推理,并制定出適應(yīng)性強(qiáng)的策略。
而這些能力,不僅可直接應(yīng)用于制造業(yè)等場景,甚至可能在未來適用于非結(jié)構(gòu)化的家庭環(huán)境。
自我提升挑戰(zhàn)
傳統(tǒng)的機(jī)器學(xué)習(xí)方法很難實現(xiàn)持續(xù)、自主的學(xué)習(xí)。以模仿學(xué)習(xí)為例,機(jī)器人通過模仿專家行為來學(xué)習(xí),通常要求為每一項技能或其變體提供大量的人類演示數(shù)據(jù);如果我們想讓機(jī)器人持續(xù)學(xué)習(xí)新任務(wù)或隨著時間的推移不斷提升性能,這種對專家數(shù)據(jù)收集的依賴便會成為一個瓶頸。
同樣地,強(qiáng)化學(xué)習(xí)通過獎勵或懲罰來引導(dǎo)agent進(jìn)行試錯訓(xùn)練,但這通常需要人類設(shè)計師精心設(shè)計復(fù)雜的數(shù)學(xué)獎勵函數(shù),從而精確捕捉多維任務(wù)中的預(yù)期行為,且這些函數(shù)還需要隨著機(jī)器人需要提升或?qū)W習(xí)新技能而進(jìn)行調(diào)整,這無疑限制了其可擴(kuò)展性。
從本質(zhì)上講,這兩種成熟的機(jī)器學(xué)習(xí)方法都涉及大量的人類參與,尤其是在目標(biāo)設(shè)定為讓機(jī)器人在初始編程之后仍能持續(xù)自我提升的情況下。
因此,我們提出了一個直接的挑戰(zhàn):機(jī)器人是否能夠在學(xué)習(xí)與提升的循環(huán)中,以極少甚至無需人類干預(yù)的方式,自主地學(xué)習(xí)并提升其技能?
在競爭中學(xué)習(xí):機(jī)器人vs.機(jī)器人
我們探索的一種創(chuàng)新方法借鑒了AlphaGo的策略:讓agent通過與自身競爭來學(xué)習(xí)。我們嘗試讓兩臺機(jī)器人手臂進(jìn)行乒乓球?qū)Q,這個想法雖然簡單,卻非常有效。當(dāng)其中一臺機(jī)器人發(fā)現(xiàn)更優(yōu)策略時,其對手被迫隨之適應(yīng)并提升自身能力,從而形成一個技能水平持續(xù)提升的循環(huán)。
為了支撐這種學(xué)習(xí)范式所需的大規(guī)模訓(xùn)練,我們設(shè)計了一個完全自主的乒乓球環(huán)境。該系統(tǒng)可以持續(xù)運行,具備自動球收集的功能,并支持遠(yuǎn)程監(jiān)控與控制,這使得我們能夠在無需人工干預(yù)的情況下進(jìn)行長時間的實驗。
作為第一步,我們通過強(qiáng)化學(xué)習(xí)在模擬環(huán)境中成功訓(xùn)練了一個機(jī)器人agent,并將其和復(fù)制版本部署在兩個機(jī)器人上,使它們能夠進(jìn)行合作式對打。隨后,我們在真實的機(jī)器人對戰(zhàn)環(huán)境中對agent進(jìn)行了數(shù)小時的微調(diào),最終獲得了一種能夠維持長時間對打的策略。接著,我們將研究重點轉(zhuǎn)向了競爭性的機(jī)器人對戰(zhàn)問題。
在競爭性對戰(zhàn)中,原本的合作式agent表現(xiàn)并不理想。這其實是可以預(yù)料的,因為在合作對打階段,球的來回通常會穩(wěn)定在一個相對狹窄的區(qū)域,這限制了agent能夠擊回的球的分布范圍。
我們的假設(shè)是,如果繼續(xù)在競爭性環(huán)境中進(jìn)行訓(xùn)練,并且獎勵每個機(jī)器人擊敗對手的行為,那么這種球的分布范圍會逐漸擴(kuò)大。盡管前景看起來不錯,但在現(xiàn)實世界中通過競爭性自我對戰(zhàn)來訓(xùn)練系統(tǒng)面臨著挑戰(zhàn)。由于模型規(guī)模的限制,分布范圍的擴(kuò)大實際上相當(dāng)嚴(yán)重。
本質(zhì)上,模型在有效學(xué)習(xí)新?lián)羟蚍绞降耐瑫r,難以避免地會遺忘舊的擊球方式,并且在訓(xùn)練過程中迅速陷入了局部最優(yōu)解:短暫的對決之后,一臺機(jī)器人會打出對手難以回?fù)舻闹苿偾?,而另一臺機(jī)器人則束手無策。
盡管機(jī)器人間的競爭性對戰(zhàn)仍然是一個重大難題,我們的團(tuán)隊同時也探索了機(jī)器人如何與人類進(jìn)行競爭性對戰(zhàn)。在訓(xùn)練初期,人類玩家通常更擅長保持球在場內(nèi),這增加了機(jī)器人可以學(xué)習(xí)的擊球分布范圍。我們?nèi)匀恍枰_發(fā)一種策略架構(gòu),其應(yīng)該包括具有詳細(xì)技能描述的低級控制器和負(fù)責(zé)選擇低級技能的高級控制器,以及支持從模擬到現(xiàn)實零樣本遷移的技術(shù),從而使系統(tǒng)能夠?qū)崟r適應(yīng)未曾遇到過的對手。
在用戶研究中,盡管機(jī)器人在與人類頂尖玩家的對決中全部落敗,但它在與初學(xué)者的對決中全部獲勝,并在與中級玩家的對決中取得了約50%的勝率,這顯示出其具備了相對穩(wěn)定的業(yè)余人類水平。
憑借這些創(chuàng)新,再加上相比合作模式更優(yōu)越的起點,我們已經(jīng)處于一個有利的位置,可以重新聚焦于機(jī)器人間的競爭性訓(xùn)練,并繼續(xù)推動系統(tǒng)的快速擴(kuò)展。
詳情查看:
當(dāng)VLM成為AI教練
我們探索的另一個有趣思路是:視覺語言模型(VLM)是否能夠扮演教練的角色,觀察機(jī)器人的表現(xiàn)并提供改進(jìn)建議?
該項目的一個關(guān)鍵洞見在于,VLM可以用于實現(xiàn)可解釋的機(jī)器人策略搜索。基于這一洞見,我們開發(fā)了SASPrompt(即summarize總結(jié)、analyze分析、synthesize合成)方法,其能夠利用VLM的檢索、推理和優(yōu)化能力,通過迭代學(xué)習(xí)與適應(yīng)機(jī)器人的行為,最終合成新的行為模式。我們的方法可以看作是一種新型可解釋策略搜索方法的早期實踐,并且搜索完全在LLM內(nèi)部完成。
此外,這種方法無需依賴明確的獎勵函數(shù)——VLM能夠直接根據(jù)任務(wù)描述中的觀察結(jié)果來推斷獎勵。
因此,VLM可以作為教練,持續(xù)分析“學(xué)生”(即機(jī)器人)的表現(xiàn),并提供相應(yīng)的改進(jìn)建議。
邁向真正自主學(xué)習(xí)的機(jī)器人
突破傳統(tǒng)編程和機(jī)器學(xué)習(xí)技術(shù)的局限性,對于機(jī)器人技術(shù)的未來發(fā)展至關(guān)重要。我們正在研究的方法,其目標(biāo)正是減少對繁瑣人類工作的依賴。我們的乒乓球項目,就探索了機(jī)器人自主獲取并提升復(fù)雜技能的途徑。
盡管仍面臨重大挑戰(zhàn)——例如,穩(wěn)定機(jī)器人之間的學(xué)習(xí)過程,以及擴(kuò)展基于VLM的教練系統(tǒng)——但這些方法無疑提供了獨特的機(jī)會。我們對此持樂觀態(tài)度,在這條道路上開展持續(xù)研究,將最終帶來更強(qiáng)大、適應(yīng)性更強(qiáng)的機(jī)器。這些機(jī)器能夠?qū)W習(xí)在我們這個結(jié)構(gòu)復(fù)雜的世界中有效且安全運作所需的各種技能。
這條探索之路充滿挑戰(zhàn),但真正智能且有益的機(jī)器人伙伴所帶來的巨大潛力,使得這項研究極具價值,值得我們不懈努力。
https://spectrum.ieee.org/deepmind-table-tennis-robots
翻譯:學(xué)術(shù)君
如需轉(zhuǎn)載或投稿,請直接在公眾號內(nèi)留言
小說:富家千金錯嫁鳳凰男被害重生,誓虐渣逆襲,財閥大佬寵上天
《財閥大佬,寵上天》作者:安纓心甘情愿嫁給我,是嗎?1 “童小姐,你真的自愿嫁給碩老師?他已經(jīng)到了癌癥晚期,最多活不過半年,女兒八個月大,年紀(jì)輕輕你就會變成托孤小寡婦,希望你慎重考慮,一旦簽字,開弓沒有回頭箭?!蓖吹拿媲?,擺著一份結(jié)婚登記表——。律師的聲音很緊張,迫切渴望她能夠迷途知返,不要等我繼續(xù)說|。
假千金逆襲成科技女王,財閥大佬寵上天,豪門生活燃翻天!
《小祖宗在財閥大佬心尖肆意撩火》作者:扶蘇里第一章,手法挺熟練才感盛夏,忽而立秋——|。邊陲火車慢悠悠的開往申城。窗外流云滾動,火車內(nèi)動蕩不平。初見從噩夢中驚醒,剛起身,就被拽了回來,她的手被拷在桌下的鐵環(huán)上——-。“砰”門被踢開|。逆天大長腿映入眼簾,白熾燈下君臨霄的膚色白的反光,面容深邃冷雋,..
假千金翻身成科技女王,財閥大佬寵上天,逆襲人生燃翻天!
《小祖宗在財閥大佬心尖肆意撩火》作者:扶蘇里第一章,手法挺熟練才感盛夏,忽而立秋_。邊陲火車慢悠悠的開往申城。窗外流云滾動,火車內(nèi)動蕩不平。初見從噩夢中驚醒,剛起身,就被拽了回來,她的手被拷在桌下的鐵環(huán)上。“砰”門被踢開。逆天大長腿映入眼簾,白熾燈下君臨霄的膚色白的反光,面容深邃冷雋,..
來源:紅網(wǎng)
作者:賴馨柔
編輯:暴冷松
本文為紅辣椒評論 原創(chuàng)文章,僅系作者個人觀點,不代表紅網(wǎng)立場。轉(zhuǎn)載請附原文出處鏈接和本聲明。