陳韻惠
當(dāng)AI開始像人一樣“反思錯(cuò)題”,小模型也能逆襲大十倍的對(duì)手。本文拆解一篇16頁(yè)實(shí)戰(zhàn)論文:用“反思-重試-獎(jiǎng)勵(lì)”三步法,讓15億參數(shù)的模型在函數(shù)調(diào)用和數(shù)學(xué)題上碾壓720億參數(shù)的“學(xué)霸”。作者親授3個(gè)可復(fù)制的訓(xùn)練技巧,教你把AI從一次性答題機(jī)器變成會(huì)自我糾錯(cuò)的“錯(cuò)題本”,效率直接拉滿。
今天想跟大家分享一篇有意思的AI論文,標(biāo)題有點(diǎn)長(zhǎng),叫《反思,重試,獎(jiǎng)勵(lì):通過強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)自我改進(jìn)的大語(yǔ)言模型》。
說(shuō)內(nèi)容前,我先說(shuō)說(shuō)自己是怎么發(fā)現(xiàn)這篇論文的。熟悉AI的同學(xué)大多知道一個(gè)網(wǎng)站叫HuggingFace,這個(gè)平臺(tái)不僅有各種大模型的訓(xùn)練場(chǎng)和技術(shù)討論區(qū),還開設(shè)了一個(gè)“每日論文”欄目。由于AI領(lǐng)域如今太過火熱,每天都有大量新論文發(fā)布,這個(gè)欄目就像是一個(gè)論文版的“知乎熱榜”——作者提交論文,讀者點(diǎn)贊排名。
今天要介紹的這篇論文,是這個(gè)欄目6月排行榜的第三位。論文作者并不是一個(gè)典型的高校研究學(xué)者,而是一家名叫Writer的人工智能創(chuàng)業(yè)公司的研究團(tuán)隊(duì),聯(lián)合作者一共有八個(gè)人。
也許正因?yàn)槭莿?chuàng)業(yè)企業(yè)的研究團(tuán)隊(duì),所以沒有那么在乎學(xué)術(shù)層面的論文慣例,整個(gè)論文加上引用也只有16頁(yè),讀起來(lái)也沒有故作高深,非常簡(jiǎn)單明了。
013個(gè)步驟,教會(huì)AI從錯(cuò)誤中學(xué)習(xí)
這篇論文——《反思、重試、獎(jiǎng)勵(lì):通過強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)自我改進(jìn)的大語(yǔ)言模型》——光是題目,你就能知道這項(xiàng)研究的核心結(jié)論是什么。
對(duì)我們?nèi)祟悂?lái)說(shuō),“從錯(cuò)誤中學(xué)習(xí)”是非常重要并且有效的學(xué)習(xí)方式之一。不信你去網(wǎng)上搜搜看,文具有一個(gè)專門的品類就叫“錯(cuò)題本”。我們?cè)谇髮W(xué)時(shí),當(dāng)一道題沒做對(duì)的時(shí)候,好的老師肯定不會(huì)直接說(shuō)答案,而是會(huì)引導(dǎo)我們反思:“你覺得問題出在什么地方?下次可以怎么改進(jìn)?”
而這篇論文的核心研究,就提出了一種巧妙的方法,能讓AI像人一樣,從錯(cuò)誤中不斷成長(zhǎng)。
研究團(tuán)隊(duì)發(fā)現(xiàn),即便是再?gòu)?qiáng)大的模型,也存在自己的“盲區(qū)”——它在某一個(gè)任務(wù)上表現(xiàn)得非常好,但并不代表它就一定能順利搞定類似的另一個(gè)任務(wù)。
面對(duì)這個(gè)問題,傳統(tǒng)的解決辦法是收集更多數(shù)據(jù),對(duì)模型進(jìn)行重新訓(xùn)練或微調(diào)。
但這樣的做法往往存在幾個(gè)現(xiàn)實(shí)難題:一是很多時(shí)候你并沒有更高質(zhì)量的新數(shù)據(jù)可用;二是即便訓(xùn)練了,也常常出現(xiàn)“打地鼠”式的問題——那就是優(yōu)化了一個(gè)點(diǎn),另一個(gè)原本表現(xiàn)不錯(cuò)的地方反而出了問題。
后來(lái),研究團(tuán)隊(duì)就換了一個(gè)思路:與其一遍遍喂AI數(shù)據(jù)、調(diào)優(yōu)模型,不如教會(huì)它怎么反思。只要讓AI掌握“怎么從錯(cuò)誤中總結(jié)經(jīng)驗(yàn)、改進(jìn)自己”的方法,它在面對(duì)不同任務(wù)時(shí),就能逐步自行進(jìn)化。用通俗的話說(shuō),就是不再一味“灌知識(shí)”,而是教它“怎么學(xué)”。
這個(gè)方法一共包含三個(gè)步驟,就像論文標(biāo)題里寫的那樣:反思、重試和獎(jiǎng)勵(lì)。
第一步,反思。當(dāng)模型在某個(gè)任務(wù)上第一次失敗時(shí),系統(tǒng)不會(huì)直接結(jié)束,而是讓它先生成一段自我反思的內(nèi)容,分析自己到底哪里出了問題。就像學(xué)生考試答錯(cuò)題后,會(huì)問自己:“我哪一步想錯(cuò)了?是不是公式用錯(cuò)了?”這一環(huán)節(jié)的核心目的,是讓AI開始自我覺察,并意識(shí)到錯(cuò)誤的原因。
第二步,重試。這時(shí)候,AI模型會(huì)帶著剛才的反思內(nèi)容,再去嘗試完成同一個(gè)任務(wù)。就像學(xué)生在弄明白上次哪里出錯(cuò)后,再去解同一類題目,就更容易成功。
第三步,獎(jiǎng)勵(lì)。如果模型在第二次嘗試中成功完成了任務(wù),系統(tǒng)就會(huì)對(duì)它在“反思階段”所生成的內(nèi)容進(jìn)行獎(jiǎng)勵(lì)。這里的“獎(jiǎng)勵(lì)”并不是我們理解中的發(fā)紅包,而是一種強(qiáng)化學(xué)習(xí)技術(shù)。簡(jiǎn)單來(lái)說(shuō),就是通過調(diào)整模型參數(shù),讓它更偏向于那些曾經(jīng)帶來(lái)正面結(jié)果的反思方式。
你可以把這個(gè)過程想象成一個(gè)老師在表?yè)P(yáng)學(xué)生:當(dāng)學(xué)生通過反思改正了錯(cuò)誤,終于做對(duì)了一道難題,老師會(huì)說(shuō):“你的反思很有幫助,繼續(xù)保持下去,你的數(shù)學(xué)會(huì)越來(lái)越好。”注意,老師夸獎(jiǎng)的不是解題方法本身,而是“反思”這一學(xué)習(xí)策略。所以學(xué)生就會(huì)知道,反思是有效果的,遇到問題的時(shí)候,就應(yīng)該用這種方式來(lái)解決。
所以,這個(gè)機(jī)制的創(chuàng)新點(diǎn)在于:研究人員獎(jiǎng)勵(lì)的并不是模型最后給出的正確答案,而是它中間生成的“反思過程”。
這樣的訓(xùn)練方式,讓模型不再依賴死記硬背某個(gè)問題的答案,而是逐漸學(xué)會(huì)了一種通用的、自我糾錯(cuò)和自我提升的能力。
02AI學(xué)會(huì)反思,效果如何?
研究團(tuán)隊(duì)不是光講概念,他們還做了兩個(gè)實(shí)驗(yàn),來(lái)實(shí)際驗(yàn)證這個(gè)機(jī)制的有效性。
這兩個(gè)實(shí)驗(yàn)對(duì)于AI來(lái)說(shuō)都不算簡(jiǎn)單,一個(gè)是函數(shù)調(diào)用,一個(gè)是數(shù)學(xué)方程求解,都屬于具有挑戰(zhàn)性、但又能夠清晰判斷對(duì)錯(cuò)的任務(wù)類型。
先說(shuō)函數(shù)調(diào)用。傳統(tǒng)技術(shù)開發(fā)需要對(duì)接各種API接口,要填入各種參數(shù)。這個(gè)任務(wù)就是看AI能不能正確地調(diào)用,這不同于那種沒有標(biāo)準(zhǔn)答案的寫作任務(wù),調(diào)用API,成功與否,判斷標(biāo)準(zhǔn)非常明確。
實(shí)驗(yàn)團(tuán)隊(duì)在多種規(guī)模大小的模型上都做了實(shí)驗(yàn),測(cè)試了這種機(jī)制,例如從15億參數(shù)的小模型到72億參數(shù)的模型不等。效果令人驚嘆。
一個(gè)只有15億參數(shù)的阿里千問小模型,在這個(gè)任務(wù)上,一次就答對(duì)的概率只有大約32.6%。
但是經(jīng)過今天介紹的這個(gè)反思訓(xùn)練后,第一次嘗試的準(zhǔn)確率就躍升到了48.6%,提升了16個(gè)百分點(diǎn)。如果允許它利用自己的反思再嘗試一次,第二次的成功率就達(dá)到了52.9%,這相比原始能力提高了20多個(gè)百分點(diǎn)。
再說(shuō)第二個(gè)任務(wù)——數(shù)學(xué)方程求解,它比函數(shù)調(diào)用更困難得多。
實(shí)驗(yàn)中,15億參數(shù)的模型在第一次嘗試時(shí),正確率只有6%,幾乎等于純靠蒙的水平,就好比初中數(shù)學(xué)100分滿分只考了個(gè)6分。
但當(dāng)模型引入“反思機(jī)制”訓(xùn)練后,第一次嘗試的正確率躍升到了34.9%,已經(jīng)是一個(gè)質(zhì)的飛躍。如果再讓它根據(jù)第一次的反思重試一遍,第二次的成功率更是提升到45%。
正確率從最初的6%到最后的45%,這個(gè)跨度就像從不及格一路提升到接近及格線。
還有一個(gè)更驚人的發(fā)現(xiàn)是,經(jīng)過這種學(xué)習(xí)方法訓(xùn)練的小模型,在能力上超過了參數(shù)量比自己大十倍的更高級(jí)模型。
研究團(tuán)隊(duì)同樣使用了千問的70億參數(shù)模型進(jìn)行訓(xùn)練,結(jié)果發(fā)現(xiàn),在這兩個(gè)任務(wù)上,學(xué)會(huì)“反思”的70億模型,表現(xiàn)都超過了不會(huì)反思的720億模型。要知道,這兩個(gè)模型都屬于阿里千問系列。
這就像一個(gè)經(jīng)過良好學(xué)習(xí)方法訓(xùn)練的高中生,在某些難題上,反而能打敗知識(shí)儲(chǔ)備多出十倍、但缺乏方法的博士生。
這個(gè)發(fā)現(xiàn)的現(xiàn)實(shí)意義在于,對(duì)于某些任務(wù)來(lái)說(shuō),并不一定非得依賴超大規(guī)模模型,如果能優(yōu)化訓(xùn)練方式,小模型不僅節(jié)省成本,也能具備很強(qiáng)的能力。
03我訓(xùn)練AI干活的方法
我之所以要介紹這篇論文,是因?yàn)樗暮诵慕Y(jié)論,對(duì)我們普通人是有借鑒價(jià)值的。
我觀察到身邊有一些同事在使用AI工具時(shí),往往只進(jìn)行一輪對(duì)話:給AI發(fā)一個(gè)任務(wù),等它完成后就結(jié)束了。有時(shí)即便AI明顯給出了錯(cuò)誤答案,回應(yīng)也只是簡(jiǎn)單一句“錯(cuò)了,再試一次”。
但按照這篇論文的啟發(fā),我們其實(shí)可以稍微調(diào)整一下話術(shù),比如說(shuō):“你的答案可能有問題,請(qǐng)分析一下哪里出錯(cuò)了,然后再重新回答一遍?!?/p>
其次,在一些具體場(chǎng)景下,我們可以給AI提供更明確的反思方向。
比如在做商業(yè)決策分析時(shí),讀完AI的第一輪回答后,你可以補(bǔ)充說(shuō):“你的分析似乎忽略了市場(chǎng)風(fēng)險(xiǎn)因素,請(qǐng)重新考慮并補(bǔ)充完整?!碑?dāng)然,這種方式前提是你自己能敏銳地識(shí)別出回答中的問題。
類似的反思提示詞還有很多,例如:
“請(qǐng)檢查一下你的推理過程,找出可能的邏輯漏洞。”
“分析一下你剛才的回答哪些地方可能不夠準(zhǔn)確?!?/p>
“如果讓你重新回答這個(gè)問題,你會(huì)怎么改進(jìn)?”
“你覺得你的答案已經(jīng)完全滿足問題要求了嗎?請(qǐng)?jiān)敿?xì)說(shuō)明?!?/p>
最后,我想分享一個(gè)我偶爾會(huì)用的小技巧,它和本文介紹的“反思機(jī)制”有異曲同工之妙。我給它起了個(gè)名字,叫做“PUA大法”。
這個(gè)方法尤其適用于那些重要且復(fù)雜的任務(wù),比如撰寫競(jìng)品分析報(bào)告或者調(diào)研文檔。我的做法是,先準(zhǔn)備好三到四個(gè)表現(xiàn)穩(wěn)定的大模型,比如從ChatGPT、Claude、DeepSeek、豆包、Kimi中挑選幾個(gè)。
我個(gè)人的習(xí)慣是:先把任務(wù)描述清楚,然后分別讓豆包、Kimi和DeepSeek先各自完成一次回答。
接下來(lái),我會(huì)打開ChatGPT,對(duì)它說(shuō):“我正在完成一個(gè)任務(wù),任務(wù)內(nèi)容是……我已經(jīng)請(qǐng)三個(gè)AI助手分別作答?,F(xiàn)在你是評(píng)審官,請(qǐng)你根據(jù)任務(wù)的特點(diǎn),制定一套100分制的評(píng)卷規(guī)則,然后分別對(duì)這三個(gè)助手的答案打分,并詳細(xì)說(shuō)明你的評(píng)分理由?!?/p>
接下來(lái),我就會(huì)把其他幾個(gè)AI的回答一個(gè)個(gè)發(fā)給ChatGPT。這時(shí)它會(huì)先搭建一套評(píng)分標(biāo)準(zhǔn),再對(duì)其他AI的回答進(jìn)行打分和點(diǎn)評(píng),比如給出85分、87分之類的分?jǐn)?shù),并詳細(xì)解釋打分理由。
然后,我就會(huì)開始“PUA”它,對(duì)它說(shuō):“你既然這么懂,那你自己來(lái)答一遍這個(gè)問題看看?”
它會(huì)乖乖照做,答完后,我繼續(xù)追問:“那你就按你剛才的評(píng)分規(guī)則,對(duì)你自己的回答也打個(gè)分,并說(shuō)明理由。”
它通常會(huì)開始進(jìn)行所謂的“公正打分”和自我評(píng)價(jià)——但你會(huì)發(fā)現(xiàn),它幾乎每次都比給其他AI打的分?jǐn)?shù)高,一般會(huì)打個(gè)90到95分之間。哪怕這樣,我也不會(huì)放過它,還要繼續(xù)追問:“那你這剩下的幾分是扣在哪里了?好好想想,再改一遍?!?/p>
當(dāng)然,它最后輸出的結(jié)果是不是滿分作品,其實(shí)并不重要。但在這個(gè)過程中,往往會(huì)冒出很多新思路和新角度,對(duì)我們?nèi)祟悂?lái)說(shuō)是很有啟發(fā)的。
這個(gè)方法其實(shí)很簡(jiǎn)單,說(shuō)到底,可能還是被我初中數(shù)學(xué)老師“深刻啟發(fā)”過。當(dāng)年他那種高壓反思式教學(xué),讓我一度對(duì)數(shù)學(xué)敬而遠(yuǎn)之。
不過還好,現(xiàn)在的AI沒有情緒,不會(huì)反抗,我們可以盡情用“PUA語(yǔ)氣”去激發(fā)它的智力潛力。
來(lái)源:紅網(wǎng)
作者:充靈萱
編輯:金俊德
本文為紅辣椒評(píng)論 原創(chuàng)文章,僅系作者個(gè)人觀點(diǎn),不代表紅網(wǎng)立場(chǎng)。轉(zhuǎn)載請(qǐng)附原文出處鏈接和本聲明。