聞樂發(fā)自凹非寺量子位|公眾號(hào)QbitAI
干貨來了!
如何理解大模型推理能力?現(xiàn)在有來自谷歌DeepMind推理負(fù)責(zé)人DennyZhou的分享了。
就是那位和清華姚班馬騰宇等人證明了只要思維鏈足夠長,Transformer就能解決任何問題的GoogleBrain推理團(tuán)隊(duì)創(chuàng)建者。
DennyZhou圍繞大模型推理過程和方法,在斯坦福大學(xué)CS25上講了一堂“LLM推理”課。
讓我們也來跟著大神學(xué)習(xí)一下。
有推理過程的答案會(huì)讓模型更自信
首先,什么是大模型推理呢?
其實(shí)就是大語言模型在給出最終答案前的中間思考步驟
比如問
“artificialintelligence”每個(gè)單詞的最后一個(gè)字母連起來是什么?
有推理過程的回答會(huì)先分別找出“artificial”的最后一個(gè)字母是“l(fā)”,“intelligence”的最后一個(gè)字母是“e”,再把它們拼接成“l(fā)e”;而沒有推理的就直接給出“l(fā)e”這個(gè)結(jié)果。
這種推理過程和人類的思維過程無關(guān),而關(guān)鍵在于生成了大量的中間內(nèi)容。
那為什么中間思考步驟很重要呢?
一個(gè)原因是它可以讓復(fù)雜問題變得可解
簡單來說,對(duì)于能用布爾電路解決的問題,假設(shè)電路規(guī)模是T,哪怕是固定大小的Transformer模型,生成O(T)個(gè)中間步驟就能搞定。
但如果跳過中間步驟,直接讓模型輸出最終答案,要么需要極深的模型層數(shù)(增加計(jì)算成本),要么根本無法解決。
DennyZhou和馬騰宇等人的著作《ChainofThoughtEmpowersTransformerstoSolveInherentlySerialProblems》提到如果給Transformer引入思維鏈,就能大大提高模型推理能力。
這篇論文說明了只要引入思維鏈,那么無需擴(kuò)展模型的規(guī)模就能讓Transformer變得強(qiáng)大到能解決任何問題。
理論上來說,只要有足夠的CoT步驟,Transformer就可以模擬多項(xiàng)式大小電路可以執(zhí)行的任何計(jì)算,從而縮小了Transformer與圖靈機(jī)之間的差距。
另一方面是中間步驟可以提升答案的準(zhǔn)確性和可靠性
沒有推理步驟時(shí),模型可能靠“瞎猜”給出答案。
例如問:
我有3個(gè)蘋果,爸爸比我多2個(gè),一共多少個(gè)?”
直接輸出的答案可能是錯(cuò)誤的“5個(gè)”;
但有推理步驟的回答就是“爸爸有3+2=5個(gè),總共3+5=8個(gè)”),答案更可能正確。
這是因?yàn)橥评聿襟E迫使模型有理有據(jù)地推導(dǎo),尤其是對(duì)需要邏輯鏈條的問題(如數(shù)學(xué)、因果分析),減少了隨機(jī)猜測的概率。
就像做數(shù)學(xué)題一樣,一步步推導(dǎo)可比瞎蒙準(zhǔn)確率高多了。
并且,對(duì)于有推理過程的答案會(huì)讓模型更有信心
DennyZhou還強(qiáng)調(diào)預(yù)訓(xùn)練模型即使沒有經(jīng)過任何微調(diào),也具備推理能力
只不過,基于推理的輸出通常不會(huì)出現(xiàn)在輸出分布的優(yōu)先級(jí)部分,因此無法通過貪婪解碼(選擇概率最高的輸出)輸出。
那么我們?nèi)绾巫屗敵鐾评砗蟮拇鸢改兀?/p>
一種方法是提示
既然模型對(duì)于有推理過程的答案更有信心,那么我們可以通過思維鏈提示或者加上提示詞來讓模型進(jìn)行推理。
比如思維鏈提示,你可以給它一個(gè)帶步驟的例子,給它打個(gè)樣?;蛘吣憧梢愿嬖V它:讓我們一步步想。
不過,DennyZhou和XuezhiWang在《Chain-of-ThoughtReasoningWithoutPrompting》一文中提出其實(shí)不用這些提示,只要改變模型的解碼方式,就能讓預(yù)訓(xùn)練的語言模型展現(xiàn)出推理能力。
原來模型在生成答案時(shí),通常只用最可能的那個(gè)詞(貪心解碼),但如果看看排在后面的幾個(gè)可能的詞(top-k替代詞),會(huì)發(fā)現(xiàn)里面藏著一步步推理的路徑。
而且當(dāng)有這種推理路徑時(shí),模型對(duì)答案的信心也更高。
于是他們提出了CoT-decoding方法,就是從這些top-k的解碼路徑中,選出那些有推理過程且模型信心高的路徑,這樣能讓模型在各種推理任務(wù)上表現(xiàn)得更好,甚至能接近經(jīng)過指令微調(diào)的模型效果
不過,另一種方法就是監(jiān)督微調(diào)(SFT)
監(jiān)督微調(diào)就是用人類寫的帶步驟的題和答案訓(xùn)練模型,讓模型學(xué)著生成類似的步驟。
但這種方法有個(gè)問題是泛化性不太好,換個(gè)新場景可能就不靈了,而且模型做大了也沒用。
于是,研究人員對(duì)監(jiān)督微調(diào)進(jìn)行了改進(jìn),一種是自我改進(jìn),讓模型自己生成步驟和答案,然后用正確的那些訓(xùn)練自己,有點(diǎn)像學(xué)生自己做題糾錯(cuò)。
另一種是強(qiáng)化學(xué)習(xí)微調(diào),反復(fù)讓模型生成答案,多練正確的,少練錯(cuò)誤的。這里面,能判斷答案對(duì)不對(duì)的“驗(yàn)證器”很重要。
現(xiàn)在,強(qiáng)化學(xué)習(xí)微調(diào)已成為了引出推理的最強(qiáng)大的方法。
并且,DennyZhou認(rèn)為擴(kuò)展強(qiáng)化學(xué)習(xí)應(yīng)該專注于生成長響應(yīng),也就是《ChainofThoughtEmpowersTransformerstoSolveInherentlySerialProblems》這篇文章中的觀點(diǎn)。
另外,進(jìn)一步的重大改進(jìn)是聚合和檢索的方法
LLM是概率模型,其解碼時(shí)追求的是在給定問題下推理和最終答案的聯(lián)合概率最大,而我們想要的是給定問題下最終答案的概率最大,兩者并不一致。
于是有了以下改進(jìn)方法:
邊緣化和自一致性:生成多個(gè)回答,選擇出現(xiàn)最頻繁的答案。通用自一致性:讓LLM自己選擇最一致的答案,適用于非唯一答案的問題,比如“哪些國家的人比墨西哥人喝咖啡少”。檢索+推理:結(jié)合檢索和推理的方法,先回憶相關(guān)問題,再解決當(dāng)前問題。比如計(jì)算正方形面積的問題,先回憶兩點(diǎn)間距離公式,再計(jì)算邊長,進(jìn)而得到面積。
最后,DennyZhou總結(jié)了提升LLM推理能力的要點(diǎn)
推理比不推理好強(qiáng)化學(xué)習(xí)微調(diào)比監(jiān)督微調(diào)好聚合多個(gè)答案比單個(gè)答案好檢索+推理比僅推理好
并指出未來的突破方向是解決非唯一可驗(yàn)證答案的任務(wù),以及構(gòu)建實(shí)際應(yīng)用而非僅解決基準(zhǔn)測試問題。
DennyZhou介紹
DennyZhou是中科院博士,2017年加入Google前在微軟擔(dān)任了11年的高級(jí)研究員。
他創(chuàng)立并領(lǐng)導(dǎo)了GoogleBrain中的推理團(tuán)隊(duì),GoogleBrain現(xiàn)已成為GoogleDeepMind的一部分。
他的研究目標(biāo)是通過構(gòu)建具備推理能力的大型語言模型解決人工通用智能(AGI)問題,核心方向包括思維鏈、自洽性、任務(wù)分解、零樣本學(xué)習(xí)、組合泛化及大語言模型理論等,追求實(shí)現(xiàn)完美泛化。
在2022年,他榮獲谷歌研究技術(shù)影響力獎(jiǎng)、2022年WSDM時(shí)間考驗(yàn)獎(jiǎng)等。
近年來,他多次受邀在耶魯大學(xué)、哈佛大學(xué)、斯坦福大學(xué)等多所高校和機(jī)構(gòu)進(jìn)行主題為語言模型推理的演講。
這次DennyZhou在斯坦福大學(xué)CS25課程上用的課件已附在文末~
完整版pdf:https://dennyzhou.github.io/LLM-Reasoning-Stanford-CS-25.pdf
[1]https://x.com/denny_zhou/status/1948499173986201915[2]https://dennyzhou.github.io/
—完—
感人!網(wǎng)紅葉美迪,從昏迷到植物人,老公堅(jiān)持唱跳,她終于蘇醒
免責(zé)聲明:本文內(nèi)容由開放的智能模型自動(dòng)生成,僅供參考。