機器之心報道
冷貓
不知道大家是否還記得,人工智能先驅(qū)、強化學習之父、圖靈獎獲得者RichardS.Sutton,在一個多月前的演講。
Sutton認為,LLM現(xiàn)在學習人類數(shù)據(jù)的知識已經(jīng)接近極限,依靠「模仿人類」很難再有創(chuàng)新。
未來人工智能的發(fā)展需要從經(jīng)驗中學習,而這一路徑始終是「強化學習」。
這也是Sutton一以貫之的觀點,不論是過去的文章《苦澀的教訓(BitterLesson)》還是近期的研究工作,都能夠顯示出這位AI領(lǐng)域的核心人物,對于建立一個簡單通用的,面向下一個「經(jīng)驗時代」的強化學習算法的熱情。
近些天,Sutton再發(fā)新論文,在強化學習領(lǐng)域再次發(fā)力,將他在2024年的時序差分學習新算法SwiftTD拓展到控制領(lǐng)域,在與一些更強大的預處理算法結(jié)合使用時,能夠展現(xiàn)出與深度強化學習算法相當?shù)男阅鼙憩F(xiàn)。
論文標題:Swift-Sarsa:FastandRobustLinearControl論文鏈接:https://arxiv.org/abs/2507.19539v1
Sutton在2024年提出了一種用于時序差分(TD)學習的新算法——SwiftTD。該算法在TrueOnlineTD(λ)的基礎(chǔ)上進行了增強,融合了步長優(yōu)化、對有效學習率的約束以及步長衰減機制。在實驗中,SwiftTD在多個源自Atari游戲的預測任務(wù)中均優(yōu)于TrueOnlineTD(λ)和傳統(tǒng)的TD(λ),且對超參數(shù)的選擇具有較強的魯棒性。
在這篇論文中,作者將SwiftTD的核心思想與TrueOnlineSarsa(λ)相結(jié)合,提出了一種基于策略的強化學習算法——Swift-Sarsa。
此外,還提出了一個用于線性基于策略控制的簡單基準測試環(huán)境,稱為「操作性條件反射基準」(operantconditioningbenchmark)。
Swift-Sarsa
SwiftTD能夠比以往的TD學習算法更準確地學習預測值。使其具備更優(yōu)預測能力的核心思想,同樣也可以應用于控制算法中。將SwiftTD的關(guān)鍵思想與TrueOnlineSarsa(λ)(VanSeijen等,2016)結(jié)合,是將其應用于控制問題最直接的方式。
在控制問題中,智能體在每一個時間步的輸出是一個具有d個分量的向量。Swift-Sarsa限于動作數(shù)量離散的問題。如果動作向量的每個分量只能取有限個數(shù)值,那么整個動作空間就可以表示為一個有限的離散動作集合。
策略函數(shù)可以是任意函數(shù),通常會被設(shè)計為:價值越高的動作被選擇的概率越大。兩種常用策略是:
1.?-貪婪策略(?-greedypolicy):以1-?的概率選擇具有最高價值的動作,以?的概率隨機選擇一個動作;
2.Softmax策略:將動作價值轉(zhuǎn)化為離散概率分布。
關(guān)于SwiftTD算法,請參閱論文:
論文標題:SwiftTD:AFastandRobustAlgorithmforTemporalDifferenceLearning論文鏈接:https://openreview.net/pdf?id=JdvFna9ZRF
操作性條件反射基準測試
作者設(shè)計了一個名為操作性條件反射基準(operantconditioningbenchmark)的測試基準,用于評估Swift-Sarsa的性能。
該基準定義了一組控制問題,這些問題不需要復雜的探索策略,隨機策略也能偶爾選擇到最佳動作。這些問題的最優(yōu)策略可以由線性學習器表示。
在該基準中的問題里,觀測向量由n個二值分量組成,動作向量由d個二值分量組成。n和d是超參數(shù),只要n>d,它們的任意組合都定義了一個有效的控制問題。
在某些特定的時間步,觀測向量的前m個分量中恰好有一個為1,其余時間步則全部為0。當前m個分量中的第i個在某個時間步為1時,若智能體選擇的動作向量中第i個分量為1且其余分量為0,則該智能體將在之后獲得一個延遲獎勵。該獎勵延遲k_1個時間步,其中k_1是一個變量,每次智能體選擇該獎勵動作時從區(qū)間(ISI_1,ISI_2)中均勻采樣。在所有其他時間步,獎勵為0。
每隔k_2個時間步,觀測向量的前m個分量中會隨機有一個被置為1,其中k_2是一個變量,每次從區(qū)間(ITI_1,ITI_2)中均勻采樣。
在每一個時間步,觀測向量中其余n?m個分量中每一個以概率μ_t被置為1。初始時μ_1=0.05,之后按如下規(guī)則遞歸更新。
操作性條件反射基準的靈感來源于Rafiee等人(2023)提出的動物學習基準。動物學習基準的設(shè)計靈感來自行為主義者在動物身上進行的經(jīng)典條件反射實驗,而操作性條件反射基準則是受到了操作性條件反射實驗的啟發(fā)。兩者的關(guān)鍵區(qū)別在于:
在操作性條件反射實驗中,動物所選擇的行為會影響獎勵的出現(xiàn)頻率;而在經(jīng)典條件反射實驗中,動物無法控制獎勵的出現(xiàn),只能學習去預測即將到來的獎勵(如巴甫洛夫的狗實驗)。
實驗結(jié)果
本論文在操作性條件反射基準上針對不同的n值對Swift-Sarsa進行了實驗。
圖1展示了在兩種不同n值下,元步長參數(shù)(meta-step-size)和初始步長參數(shù)對平均獎勵的影響。類似于SwiftTD的表現(xiàn),Swift-Sarsa的性能隨著元步長參數(shù)的增大而提升,表明步長優(yōu)化帶來了明顯的好處。在較寬的參數(shù)范圍內(nèi),Swift-Sarsa實現(xiàn)的生命周期獎勵接近最優(yōu)生命周期獎勵(約為0.014)。當干擾特征數(shù)量增加時,問題變得更具挑戰(zhàn)性,Swift-Sarsa的表現(xiàn)也隨之下降。
在第二組實驗中,我們比較了步長衰減(step-sizedecay)對Swift-Sarsa性能的影響,結(jié)果如圖2所示。與其在SwiftTD中的作用類似,當初始步長參數(shù)設(shè)置過大時,步長衰減能夠提升Swift-Sarsa的性能。
值得注意的是,若將Swift-Sarsa與更強大的預處理方法結(jié)合使用,它在更復雜的問題上(如Atari游戲)可能也能達到與深度強化學習算法相當?shù)男阅芩健?/p>
更多信息,請參閱原論文。
替身新娘的逆襲人生
小說:穿越成替嫁新娘,我反手撩了腹黑反派
小說:穿越替嫁新娘反撩腹黑反派,劇情從此野翻了