亓奇正
聞樂(lè)發(fā)自凹非寺量子位|公眾號(hào)QbitAI
干貨來(lái)了!
如何理解大模型推理能力?現(xiàn)在有來(lái)自谷歌DeepMind推理負(fù)責(zé)人DennyZhou的分享了。
就是那位和清華姚班馬騰宇等人證明了只要思維鏈足夠長(zhǎng),Transformer就能解決任何問(wèn)題的GoogleBrain推理團(tuán)隊(duì)創(chuàng)建者。
DennyZhou圍繞大模型推理過(guò)程和方法,在斯坦福大學(xué)CS25上講了一堂“LLM推理”課。
讓我們也來(lái)跟著大神學(xué)習(xí)一下。
有推理過(guò)程的答案會(huì)讓模型更自信
首先,什么是大模型推理呢?
其實(shí)就是大語(yǔ)言模型在給出最終答案前的中間思考步驟
比如問(wèn)
“artificialintelligence”每個(gè)單詞的最后一個(gè)字母連起來(lái)是什么?
有推理過(guò)程的回答會(huì)先分別找出“artificial”的最后一個(gè)字母是“l(fā)”,“intelligence”的最后一個(gè)字母是“e”,再把它們拼接成“l(fā)e”;而沒(méi)有推理的就直接給出“l(fā)e”這個(gè)結(jié)果。
這種推理過(guò)程和人類(lèi)的思維過(guò)程無(wú)關(guān),而關(guān)鍵在于生成了大量的中間內(nèi)容。
那為什么中間思考步驟很重要呢?
一個(gè)原因是它可以讓復(fù)雜問(wèn)題變得可解
簡(jiǎn)單來(lái)說(shuō),對(duì)于能用布爾電路解決的問(wèn)題,假設(shè)電路規(guī)模是T,哪怕是固定大小的Transformer模型,生成O(T)個(gè)中間步驟就能搞定。
但如果跳過(guò)中間步驟,直接讓模型輸出最終答案,要么需要極深的模型層數(shù)(增加計(jì)算成本),要么根本無(wú)法解決。
DennyZhou和馬騰宇等人的著作《ChainofThoughtEmpowersTransformerstoSolveInherentlySerialProblems》提到如果給Transformer引入思維鏈,就能大大提高模型推理能力。
這篇論文說(shuō)明了只要引入思維鏈,那么無(wú)需擴(kuò)展模型的規(guī)模就能讓Transformer變得強(qiáng)大到能解決任何問(wèn)題。
理論上來(lái)說(shuō),只要有足夠的CoT步驟,Transformer就可以模擬多項(xiàng)式大小電路可以執(zhí)行的任何計(jì)算,從而縮小了Transformer與圖靈機(jī)之間的差距。
另一方面是中間步驟可以提升答案的準(zhǔn)確性和可靠性
沒(méi)有推理步驟時(shí),模型可能靠“瞎猜”給出答案。
例如問(wèn):
我有3個(gè)蘋(píng)果,爸爸比我多2個(gè),一共多少個(gè)?”
直接輸出的答案可能是錯(cuò)誤的“5個(gè)”;
但有推理步驟的回答就是“爸爸有3+2=5個(gè),總共3+5=8個(gè)”),答案更可能正確。
這是因?yàn)橥评聿襟E迫使模型有理有據(jù)地推導(dǎo),尤其是對(duì)需要邏輯鏈條的問(wèn)題(如數(shù)學(xué)、因果分析),減少了隨機(jī)猜測(cè)的概率。
就像做數(shù)學(xué)題一樣,一步步推導(dǎo)可比瞎蒙準(zhǔn)確率高多了。
并且,對(duì)于有推理過(guò)程的答案會(huì)讓模型更有信心
DennyZhou還強(qiáng)調(diào)預(yù)訓(xùn)練模型即使沒(méi)有經(jīng)過(guò)任何微調(diào),也具備推理能力
只不過(guò),基于推理的輸出通常不會(huì)出現(xiàn)在輸出分布的優(yōu)先級(jí)部分,因此無(wú)法通過(guò)貪婪解碼(選擇概率最高的輸出)輸出。
那么我們?nèi)绾巫屗敵鐾评砗蟮拇鸢改兀?/p>
一種方法是提示
既然模型對(duì)于有推理過(guò)程的答案更有信心,那么我們可以通過(guò)思維鏈提示或者加上提示詞來(lái)讓模型進(jìn)行推理。
比如思維鏈提示,你可以給它一個(gè)帶步驟的例子,給它打個(gè)樣?;蛘吣憧梢愿嬖V它:讓我們一步步想。
不過(guò),DennyZhou和XuezhiWang在《Chain-of-ThoughtReasoningWithoutPrompting》一文中提出其實(shí)不用這些提示,只要改變模型的解碼方式,就能讓預(yù)訓(xùn)練的語(yǔ)言模型展現(xiàn)出推理能力。
原來(lái)模型在生成答案時(shí),通常只用最可能的那個(gè)詞(貪心解碼),但如果看看排在后面的幾個(gè)可能的詞(top-k替代詞),會(huì)發(fā)現(xiàn)里面藏著一步步推理的路徑。
而且當(dāng)有這種推理路徑時(shí),模型對(duì)答案的信心也更高。
于是他們提出了CoT-decoding方法,就是從這些top-k的解碼路徑中,選出那些有推理過(guò)程且模型信心高的路徑,這樣能讓模型在各種推理任務(wù)上表現(xiàn)得更好,甚至能接近經(jīng)過(guò)指令微調(diào)的模型效果
不過(guò),另一種方法就是監(jiān)督微調(diào)(SFT)
監(jiān)督微調(diào)就是用人類(lèi)寫(xiě)的帶步驟的題和答案訓(xùn)練模型,讓模型學(xué)著生成類(lèi)似的步驟。
但這種方法有個(gè)問(wèn)題是泛化性不太好,換個(gè)新場(chǎng)景可能就不靈了,而且模型做大了也沒(méi)用。
于是,研究人員對(duì)監(jiān)督微調(diào)進(jìn)行了改進(jìn),一種是自我改進(jìn),讓模型自己生成步驟和答案,然后用正確的那些訓(xùn)練自己,有點(diǎn)像學(xué)生自己做題糾錯(cuò)。
另一種是強(qiáng)化學(xué)習(xí)微調(diào),反復(fù)讓模型生成答案,多練正確的,少練錯(cuò)誤的。這里面,能判斷答案對(duì)不對(duì)的“驗(yàn)證器”很重要。
現(xiàn)在,強(qiáng)化學(xué)習(xí)微調(diào)已成為了引出推理的最強(qiáng)大的方法。
并且,DennyZhou認(rèn)為擴(kuò)展強(qiáng)化學(xué)習(xí)應(yīng)該專(zhuān)注于生成長(zhǎng)響應(yīng),也就是《ChainofThoughtEmpowersTransformerstoSolveInherentlySerialProblems》這篇文章中的觀點(diǎn)。
另外,進(jìn)一步的重大改進(jìn)是聚合和檢索的方法
LLM是概率模型,其解碼時(shí)追求的是在給定問(wèn)題下推理和最終答案的聯(lián)合概率最大,而我們想要的是給定問(wèn)題下最終答案的概率最大,兩者并不一致。
于是有了以下改進(jìn)方法:
邊緣化和自一致性:生成多個(gè)回答,選擇出現(xiàn)最頻繁的答案。通用自一致性:讓LLM自己選擇最一致的答案,適用于非唯一答案的問(wèn)題,比如“哪些國(guó)家的人比墨西哥人喝咖啡少”。檢索+推理:結(jié)合檢索和推理的方法,先回憶相關(guān)問(wèn)題,再解決當(dāng)前問(wèn)題。比如計(jì)算正方形面積的問(wèn)題,先回憶兩點(diǎn)間距離公式,再計(jì)算邊長(zhǎng),進(jìn)而得到面積。
最后,DennyZhou總結(jié)了提升LLM推理能力的要點(diǎn)
推理比不推理好強(qiáng)化學(xué)習(xí)微調(diào)比監(jiān)督微調(diào)好聚合多個(gè)答案比單個(gè)答案好檢索+推理比僅推理好
并指出未來(lái)的突破方向是解決非唯一可驗(yàn)證答案的任務(wù),以及構(gòu)建實(shí)際應(yīng)用而非僅解決基準(zhǔn)測(cè)試問(wèn)題。
DennyZhou介紹
DennyZhou是中科院博士,2017年加入Google前在微軟擔(dān)任了11年的高級(jí)研究員。
他創(chuàng)立并領(lǐng)導(dǎo)了GoogleBrain中的推理團(tuán)隊(duì),GoogleBrain現(xiàn)已成為GoogleDeepMind的一部分。
他的研究目標(biāo)是通過(guò)構(gòu)建具備推理能力的大型語(yǔ)言模型解決人工通用智能(AGI)問(wèn)題,核心方向包括思維鏈、自洽性、任務(wù)分解、零樣本學(xué)習(xí)、組合泛化及大語(yǔ)言模型理論等,追求實(shí)現(xiàn)完美泛化。
在2022年,他榮獲谷歌研究技術(shù)影響力獎(jiǎng)、2022年WSDM時(shí)間考驗(yàn)獎(jiǎng)等。
近年來(lái),他多次受邀在耶魯大學(xué)、哈佛大學(xué)、斯坦福大學(xué)等多所高校和機(jī)構(gòu)進(jìn)行主題為語(yǔ)言模型推理的演講。
這次DennyZhou在斯坦福大學(xué)CS25課程上用的課件已附在文末~
完整版pdf:https://dennyzhou.github.io/LLM-Reasoning-Stanford-CS-25.pdf
[1]https://x.com/denny_zhou/status/1948499173986201915[2]https://dennyzhou.github.io/
—完—
小說(shuō):末世女王重生,杠上戰(zhàn)少反被寵,緋聞變真愛(ài)!
簡(jiǎn)振軍從最初的不自在到習(xí)以為常,全然不知自和閨女都被溫水煮青蛙了。“今晚吃烤肉?。俊焙?jiǎn)振軍牛飲灌下一杯茶,捏著杯子轉(zhuǎn)到飯廳,簡(jiǎn)明玉正在往烤盤(pán)上放肉,黑豆守在桌子底下,黃幽幽的眼珠子跟著簡(jiǎn)明玉的手骨碌碌轉(zhuǎn)。剛才院子出響動(dòng),黑豆嗅到自家人的氣味,呆在屋子里動(dòng)都懶得動(dòng)一下,外面濕噠噠的,出去了后面會(huì)介紹。
小說(shuō):末世女王魂穿丞相嫡女,虐渣打臉搬空敵人財(cái)富爽翻天
1、《空間重生:獨(dú)寵喪尸女王》作者:竹鴿X 【摘要】喪尸女主,帶著仙法空間闖末世,成喪尸女王!彼時(shí)末世爆發(fā)不久,她則被親人推進(jìn)喪尸窩,成了一名喪尸。拾起仙法,激活空間,收攬小弟,營(yíng)救親人,她是讓人類(lèi)聞風(fēng)喪膽的喪尸女王!她上前幾步將手放進(jìn)祝月云手里,一如既往的溫暖,就和記憶中一樣,哪怕沒(méi)有任何后面會(huì)介紹——|。
小說(shuō):末世女王穿到正常世界?身負(fù)巨寶的她這次真的殺瘋了!
小說(shuō):她重生后變成末世女王,卻為了星際事業(yè)努力奮斗!今日推薦:《重生后末世大佬她去星際搞事業(yè)了》作者:荔枝有點(diǎn)酸。點(diǎn)擊文末超鏈接開(kāi)始觀看吧~379星落篇談崩所以她有些不以為意的笑著,并且不可一世的對(duì)幽靈道:“我若想抽身,沒(méi)有人能攔住我?!薄皩幮?,你太自大了?!庇撵`因?yàn)樗脑?huà),眸色又是一沉有幫助請(qǐng)點(diǎn)贊。
來(lái)源:紅網(wǎng)
作者:陳柔裕
編輯:溫哲湖
本文為紅辣椒評(píng)論 原創(chuàng)文章,僅系作者個(gè)人觀點(diǎn),不代表紅網(wǎng)立場(chǎng)。轉(zhuǎn)載請(qǐng)附原文出處鏈接和本聲明。