機(jī)器之心報(bào)道
冷貓
不知道大家是否還記得,人工智能先驅(qū)、強(qiáng)化學(xué)習(xí)之父、圖靈獎(jiǎng)獲得者RichardS.Sutton,在一個(gè)多月前的演講。
Sutton認(rèn)為,LLM現(xiàn)在學(xué)習(xí)人類(lèi)數(shù)據(jù)的知識(shí)已經(jīng)接近極限,依靠「模仿人類(lèi)」很難再有創(chuàng)新。
未來(lái)人工智能的發(fā)展需要從經(jīng)驗(yàn)中學(xué)習(xí),而這一路徑始終是「強(qiáng)化學(xué)習(xí)」。
這也是Sutton一以貫之的觀點(diǎn),不論是過(guò)去的文章《苦澀的教訓(xùn)(BitterLesson)》還是近期的研究工作,都能夠顯示出這位AI領(lǐng)域的核心人物,對(duì)于建立一個(gè)簡(jiǎn)單通用的,面向下一個(gè)「經(jīng)驗(yàn)時(shí)代」的強(qiáng)化學(xué)習(xí)算法的熱情。
近些天,Sutton再發(fā)新論文,在強(qiáng)化學(xué)習(xí)領(lǐng)域再次發(fā)力,將他在2024年的時(shí)序差分學(xué)習(xí)新算法SwiftTD拓展到控制領(lǐng)域,在與一些更強(qiáng)大的預(yù)處理算法結(jié)合使用時(shí),能夠展現(xiàn)出與深度強(qiáng)化學(xué)習(xí)算法相當(dāng)?shù)男阅鼙憩F(xiàn)。
論文標(biāo)題:Swift-Sarsa:FastandRobustLinearControl論文鏈接:https://arxiv.org/abs/2507.19539v1
Sutton在2024年提出了一種用于時(shí)序差分(TD)學(xué)習(xí)的新算法——SwiftTD。該算法在TrueOnlineTD(λ)的基礎(chǔ)上進(jìn)行了增強(qiáng),融合了步長(zhǎng)優(yōu)化、對(duì)有效學(xué)習(xí)率的約束以及步長(zhǎng)衰減機(jī)制。在實(shí)驗(yàn)中,SwiftTD在多個(gè)源自Atari游戲的預(yù)測(cè)任務(wù)中均優(yōu)于TrueOnlineTD(λ)和傳統(tǒng)的TD(λ),且對(duì)超參數(shù)的選擇具有較強(qiáng)的魯棒性。
在這篇論文中,作者將SwiftTD的核心思想與TrueOnlineSarsa(λ)相結(jié)合,提出了一種基于策略的強(qiáng)化學(xué)習(xí)算法——Swift-Sarsa。
此外,還提出了一個(gè)用于線(xiàn)性基于策略控制的簡(jiǎn)單基準(zhǔn)測(cè)試環(huán)境,稱(chēng)為「操作性條件反射基準(zhǔn)」(operantconditioningbenchmark)。
Swift-Sarsa
SwiftTD能夠比以往的TD學(xué)習(xí)算法更準(zhǔn)確地學(xué)習(xí)預(yù)測(cè)值。使其具備更優(yōu)預(yù)測(cè)能力的核心思想,同樣也可以應(yīng)用于控制算法中。將SwiftTD的關(guān)鍵思想與TrueOnlineSarsa(λ)(VanSeijen等,2016)結(jié)合,是將其應(yīng)用于控制問(wèn)題最直接的方式。
在控制問(wèn)題中,智能體在每一個(gè)時(shí)間步的輸出是一個(gè)具有d個(gè)分量的向量。Swift-Sarsa限于動(dòng)作數(shù)量離散的問(wèn)題。如果動(dòng)作向量的每個(gè)分量只能取有限個(gè)數(shù)值,那么整個(gè)動(dòng)作空間就可以表示為一個(gè)有限的離散動(dòng)作集合。
策略函數(shù)可以是任意函數(shù),通常會(huì)被設(shè)計(jì)為:價(jià)值越高的動(dòng)作被選擇的概率越大。兩種常用策略是:
1.?-貪婪策略(?-greedypolicy):以1-?的概率選擇具有最高價(jià)值的動(dòng)作,以?的概率隨機(jī)選擇一個(gè)動(dòng)作;
2.Softmax策略:將動(dòng)作價(jià)值轉(zhuǎn)化為離散概率分布。
關(guān)于SwiftTD算法,請(qǐng)參閱論文:
論文標(biāo)題:SwiftTD:AFastandRobustAlgorithmforTemporalDifferenceLearning論文鏈接:https://openreview.net/pdf?id=JdvFna9ZRF
操作性條件反射基準(zhǔn)測(cè)試
作者設(shè)計(jì)了一個(gè)名為操作性條件反射基準(zhǔn)(operantconditioningbenchmark)的測(cè)試基準(zhǔn),用于評(píng)估Swift-Sarsa的性能。
該基準(zhǔn)定義了一組控制問(wèn)題,這些問(wèn)題不需要復(fù)雜的探索策略,隨機(jī)策略也能偶爾選擇到最佳動(dòng)作。這些問(wèn)題的最優(yōu)策略可以由線(xiàn)性學(xué)習(xí)器表示。
在該基準(zhǔn)中的問(wèn)題里,觀測(cè)向量由n個(gè)二值分量組成,動(dòng)作向量由d個(gè)二值分量組成。n和d是超參數(shù),只要n>d,它們的任意組合都定義了一個(gè)有效的控制問(wèn)題。
在某些特定的時(shí)間步,觀測(cè)向量的前m個(gè)分量中恰好有一個(gè)為1,其余時(shí)間步則全部為0。當(dāng)前m個(gè)分量中的第i個(gè)在某個(gè)時(shí)間步為1時(shí),若智能體選擇的動(dòng)作向量中第i個(gè)分量為1且其余分量為0,則該智能體將在之后獲得一個(gè)延遲獎(jiǎng)勵(lì)。該獎(jiǎng)勵(lì)延遲k_1個(gè)時(shí)間步,其中k_1是一個(gè)變量,每次智能體選擇該獎(jiǎng)勵(lì)動(dòng)作時(shí)從區(qū)間(ISI_1,ISI_2)中均勻采樣。在所有其他時(shí)間步,獎(jiǎng)勵(lì)為0。
每隔k_2個(gè)時(shí)間步,觀測(cè)向量的前m個(gè)分量中會(huì)隨機(jī)有一個(gè)被置為1,其中k_2是一個(gè)變量,每次從區(qū)間(ITI_1,ITI_2)中均勻采樣。
在每一個(gè)時(shí)間步,觀測(cè)向量中其余n?m個(gè)分量中每一個(gè)以概率μ_t被置為1。初始時(shí)μ_1=0.05,之后按如下規(guī)則遞歸更新。
操作性條件反射基準(zhǔn)的靈感來(lái)源于Rafiee等人(2023)提出的動(dòng)物學(xué)習(xí)基準(zhǔn)。動(dòng)物學(xué)習(xí)基準(zhǔn)的設(shè)計(jì)靈感來(lái)自行為主義者在動(dòng)物身上進(jìn)行的經(jīng)典條件反射實(shí)驗(yàn),而操作性條件反射基準(zhǔn)則是受到了操作性條件反射實(shí)驗(yàn)的啟發(fā)。兩者的關(guān)鍵區(qū)別在于:
在操作性條件反射實(shí)驗(yàn)中,動(dòng)物所選擇的行為會(huì)影響?yīng)剟?lì)的出現(xiàn)頻率;而在經(jīng)典條件反射實(shí)驗(yàn)中,動(dòng)物無(wú)法控制獎(jiǎng)勵(lì)的出現(xiàn),只能學(xué)習(xí)去預(yù)測(cè)即將到來(lái)的獎(jiǎng)勵(lì)(如巴甫洛夫的狗實(shí)驗(yàn))。
實(shí)驗(yàn)結(jié)果
本論文在操作性條件反射基準(zhǔn)上針對(duì)不同的n值對(duì)Swift-Sarsa進(jìn)行了實(shí)驗(yàn)。
圖1展示了在兩種不同n值下,元步長(zhǎng)參數(shù)(meta-step-size)和初始步長(zhǎng)參數(shù)對(duì)平均獎(jiǎng)勵(lì)的影響。類(lèi)似于SwiftTD的表現(xiàn),Swift-Sarsa的性能隨著元步長(zhǎng)參數(shù)的增大而提升,表明步長(zhǎng)優(yōu)化帶來(lái)了明顯的好處。在較寬的參數(shù)范圍內(nèi),Swift-Sarsa實(shí)現(xiàn)的生命周期獎(jiǎng)勵(lì)接近最優(yōu)生命周期獎(jiǎng)勵(lì)(約為0.014)。當(dāng)干擾特征數(shù)量增加時(shí),問(wèn)題變得更具挑戰(zhàn)性,Swift-Sarsa的表現(xiàn)也隨之下降。
在第二組實(shí)驗(yàn)中,我們比較了步長(zhǎng)衰減(step-sizedecay)對(duì)Swift-Sarsa性能的影響,結(jié)果如圖2所示。與其在SwiftTD中的作用類(lèi)似,當(dāng)初始步長(zhǎng)參數(shù)設(shè)置過(guò)大時(shí),步長(zhǎng)衰減能夠提升Swift-Sarsa的性能。
值得注意的是,若將Swift-Sarsa與更強(qiáng)大的預(yù)處理方法結(jié)合使用,它在更復(fù)雜的問(wèn)題上(如Atari游戲)可能也能達(dá)到與深度強(qiáng)化學(xué)習(xí)算法相當(dāng)?shù)男阅芩健?/p>
更多信息,請(qǐng)參閱原論文。
延伸閱讀:與 只有10分鐘自救中國(guó)14億人必須“學(xué)會(huì)的自”救方:法、 的相關(guān)文章