巧芮
當(dāng)AI開始像人一樣“反思錯題”,小模型也能逆襲大十倍的對手。本文拆解一篇16頁實戰(zhàn)論文:用“反思-重試-獎勵”三步法,讓15億參數(shù)的模型在函數(shù)調(diào)用和數(shù)學(xué)題上碾壓720億參數(shù)的“學(xué)霸”。作者親授3個可復(fù)制的訓(xùn)練技巧,教你把AI從一次性答題機器變成會自我糾錯的“錯題本”,效率直接拉滿。
今天想跟大家分享一篇有意思的AI論文,標(biāo)題有點長,叫《反思,重試,獎勵:通過強化學(xué)習(xí)實現(xiàn)自我改進的大語言模型》。
說內(nèi)容前,我先說說自己是怎么發(fā)現(xiàn)這篇論文的。熟悉AI的同學(xué)大多知道一個網(wǎng)站叫HuggingFace,這個平臺不僅有各種大模型的訓(xùn)練場和技術(shù)討論區(qū),還開設(shè)了一個“每日論文”欄目。由于AI領(lǐng)域如今太過火熱,每天都有大量新論文發(fā)布,這個欄目就像是一個論文版的“知乎熱榜”——作者提交論文,讀者點贊排名。
今天要介紹的這篇論文,是這個欄目6月排行榜的第三位。論文作者并不是一個典型的高校研究學(xué)者,而是一家名叫Writer的人工智能創(chuàng)業(yè)公司的研究團隊,聯(lián)合作者一共有八個人。
也許正因為是創(chuàng)業(yè)企業(yè)的研究團隊,所以沒有那么在乎學(xué)術(shù)層面的論文慣例,整個論文加上引用也只有16頁,讀起來也沒有故作高深,非常簡單明了。
013個步驟,教會AI從錯誤中學(xué)習(xí)
這篇論文——《反思、重試、獎勵:通過強化學(xué)習(xí)實現(xiàn)自我改進的大語言模型》——光是題目,你就能知道這項研究的核心結(jié)論是什么。
對我們?nèi)祟悂碚f,“從錯誤中學(xué)習(xí)”是非常重要并且有效的學(xué)習(xí)方式之一。不信你去網(wǎng)上搜搜看,文具有一個專門的品類就叫“錯題本”。我們在求學(xué)時,當(dāng)一道題沒做對的時候,好的老師肯定不會直接說答案,而是會引導(dǎo)我們反思:“你覺得問題出在什么地方?下次可以怎么改進?”
而這篇論文的核心研究,就提出了一種巧妙的方法,能讓AI像人一樣,從錯誤中不斷成長。
研究團隊發(fā)現(xiàn),即便是再強大的模型,也存在自己的“盲區(qū)”——它在某一個任務(wù)上表現(xiàn)得非常好,但并不代表它就一定能順利搞定類似的另一個任務(wù)。
面對這個問題,傳統(tǒng)的解決辦法是收集更多數(shù)據(jù),對模型進行重新訓(xùn)練或微調(diào)。
但這樣的做法往往存在幾個現(xiàn)實難題:一是很多時候你并沒有更高質(zhì)量的新數(shù)據(jù)可用;二是即便訓(xùn)練了,也常常出現(xiàn)“打地鼠”式的問題——那就是優(yōu)化了一個點,另一個原本表現(xiàn)不錯的地方反而出了問題。
后來,研究團隊就換了一個思路:與其一遍遍喂AI數(shù)據(jù)、調(diào)優(yōu)模型,不如教會它怎么反思。只要讓AI掌握“怎么從錯誤中總結(jié)經(jīng)驗、改進自己”的方法,它在面對不同任務(wù)時,就能逐步自行進化。用通俗的話說,就是不再一味“灌知識”,而是教它“怎么學(xué)”。
這個方法一共包含三個步驟,就像論文標(biāo)題里寫的那樣:反思、重試和獎勵。
第一步,反思。當(dāng)模型在某個任務(wù)上第一次失敗時,系統(tǒng)不會直接結(jié)束,而是讓它先生成一段自我反思的內(nèi)容,分析自己到底哪里出了問題。就像學(xué)生考試答錯題后,會問自己:“我哪一步想錯了?是不是公式用錯了?”這一環(huán)節(jié)的核心目的,是讓AI開始自我覺察,并意識到錯誤的原因。
第二步,重試。這時候,AI模型會帶著剛才的反思內(nèi)容,再去嘗試完成同一個任務(wù)。就像學(xué)生在弄明白上次哪里出錯后,再去解同一類題目,就更容易成功。
第三步,獎勵。如果模型在第二次嘗試中成功完成了任務(wù),系統(tǒng)就會對它在“反思階段”所生成的內(nèi)容進行獎勵。這里的“獎勵”并不是我們理解中的發(fā)紅包,而是一種強化學(xué)習(xí)技術(shù)。簡單來說,就是通過調(diào)整模型參數(shù),讓它更偏向于那些曾經(jīng)帶來正面結(jié)果的反思方式。
你可以把這個過程想象成一個老師在表揚學(xué)生:當(dāng)學(xué)生通過反思改正了錯誤,終于做對了一道難題,老師會說:“你的反思很有幫助,繼續(xù)保持下去,你的數(shù)學(xué)會越來越好?!弊⒁?,老師夸獎的不是解題方法本身,而是“反思”這一學(xué)習(xí)策略。所以學(xué)生就會知道,反思是有效果的,遇到問題的時候,就應(yīng)該用這種方式來解決。
所以,這個機制的創(chuàng)新點在于:研究人員獎勵的并不是模型最后給出的正確答案,而是它中間生成的“反思過程”。
這樣的訓(xùn)練方式,讓模型不再依賴死記硬背某個問題的答案,而是逐漸學(xué)會了一種通用的、自我糾錯和自我提升的能力。
02AI學(xué)會反思,效果如何?
研究團隊不是光講概念,他們還做了兩個實驗,來實際驗證這個機制的有效性。
這兩個實驗對于AI來說都不算簡單,一個是函數(shù)調(diào)用,一個是數(shù)學(xué)方程求解,都屬于具有挑戰(zhàn)性、但又能夠清晰判斷對錯的任務(wù)類型。
先說函數(shù)調(diào)用。傳統(tǒng)技術(shù)開發(fā)需要對接各種API接口,要填入各種參數(shù)。這個任務(wù)就是看AI能不能正確地調(diào)用,這不同于那種沒有標(biāo)準(zhǔn)答案的寫作任務(wù),調(diào)用API,成功與否,判斷標(biāo)準(zhǔn)非常明確。
實驗團隊在多種規(guī)模大小的模型上都做了實驗,測試了這種機制,例如從15億參數(shù)的小模型到72億參數(shù)的模型不等。效果令人驚嘆。
一個只有15億參數(shù)的阿里千問小模型,在這個任務(wù)上,一次就答對的概率只有大約32.6%。
但是經(jīng)過今天介紹的這個反思訓(xùn)練后,第一次嘗試的準(zhǔn)確率就躍升到了48.6%,提升了16個百分點。如果允許它利用自己的反思再嘗試一次,第二次的成功率就達到了52.9%,這相比原始能力提高了20多個百分點。
再說第二個任務(wù)——數(shù)學(xué)方程求解,它比函數(shù)調(diào)用更困難得多。
實驗中,15億參數(shù)的模型在第一次嘗試時,正確率只有6%,幾乎等于純靠蒙的水平,就好比初中數(shù)學(xué)100分滿分只考了個6分。
但當(dāng)模型引入“反思機制”訓(xùn)練后,第一次嘗試的正確率躍升到了34.9%,已經(jīng)是一個質(zhì)的飛躍。如果再讓它根據(jù)第一次的反思重試一遍,第二次的成功率更是提升到45%。
正確率從最初的6%到最后的45%,這個跨度就像從不及格一路提升到接近及格線。
還有一個更驚人的發(fā)現(xiàn)是,經(jīng)過這種學(xué)習(xí)方法訓(xùn)練的小模型,在能力上超過了參數(shù)量比自己大十倍的更高級模型。
研究團隊同樣使用了千問的70億參數(shù)模型進行訓(xùn)練,結(jié)果發(fā)現(xiàn),在這兩個任務(wù)上,學(xué)會“反思”的70億模型,表現(xiàn)都超過了不會反思的720億模型。要知道,這兩個模型都屬于阿里千問系列。
這就像一個經(jīng)過良好學(xué)習(xí)方法訓(xùn)練的高中生,在某些難題上,反而能打敗知識儲備多出十倍、但缺乏方法的博士生。
這個發(fā)現(xiàn)的現(xiàn)實意義在于,對于某些任務(wù)來說,并不一定非得依賴超大規(guī)模模型,如果能優(yōu)化訓(xùn)練方式,小模型不僅節(jié)省成本,也能具備很強的能力。
03我訓(xùn)練AI干活的方法
我之所以要介紹這篇論文,是因為它的核心結(jié)論,對我們普通人是有借鑒價值的。
我觀察到身邊有一些同事在使用AI工具時,往往只進行一輪對話:給AI發(fā)一個任務(wù),等它完成后就結(jié)束了。有時即便AI明顯給出了錯誤答案,回應(yīng)也只是簡單一句“錯了,再試一次”。
但按照這篇論文的啟發(fā),我們其實可以稍微調(diào)整一下話術(shù),比如說:“你的答案可能有問題,請分析一下哪里出錯了,然后再重新回答一遍?!?/p>
其次,在一些具體場景下,我們可以給AI提供更明確的反思方向。
比如在做商業(yè)決策分析時,讀完AI的第一輪回答后,你可以補充說:“你的分析似乎忽略了市場風(fēng)險因素,請重新考慮并補充完整?!碑?dāng)然,這種方式前提是你自己能敏銳地識別出回答中的問題。
類似的反思提示詞還有很多,例如:
“請檢查一下你的推理過程,找出可能的邏輯漏洞?!?/p>
“分析一下你剛才的回答哪些地方可能不夠準(zhǔn)確?!?/p>
“如果讓你重新回答這個問題,你會怎么改進?”
“你覺得你的答案已經(jīng)完全滿足問題要求了嗎?請詳細(xì)說明?!?/p>
最后,我想分享一個我偶爾會用的小技巧,它和本文介紹的“反思機制”有異曲同工之妙。我給它起了個名字,叫做“PUA大法”。
這個方法尤其適用于那些重要且復(fù)雜的任務(wù),比如撰寫競品分析報告或者調(diào)研文檔。我的做法是,先準(zhǔn)備好三到四個表現(xiàn)穩(wěn)定的大模型,比如從ChatGPT、Claude、DeepSeek、豆包、Kimi中挑選幾個。
我個人的習(xí)慣是:先把任務(wù)描述清楚,然后分別讓豆包、Kimi和DeepSeek先各自完成一次回答。
接下來,我會打開ChatGPT,對它說:“我正在完成一個任務(wù),任務(wù)內(nèi)容是……我已經(jīng)請三個AI助手分別作答?,F(xiàn)在你是評審官,請你根據(jù)任務(wù)的特點,制定一套100分制的評卷規(guī)則,然后分別對這三個助手的答案打分,并詳細(xì)說明你的評分理由?!?/p>
接下來,我就會把其他幾個AI的回答一個個發(fā)給ChatGPT。這時它會先搭建一套評分標(biāo)準(zhǔn),再對其他AI的回答進行打分和點評,比如給出85分、87分之類的分?jǐn)?shù),并詳細(xì)解釋打分理由。
然后,我就會開始“PUA”它,對它說:“你既然這么懂,那你自己來答一遍這個問題看看?”
它會乖乖照做,答完后,我繼續(xù)追問:“那你就按你剛才的評分規(guī)則,對你自己的回答也打個分,并說明理由?!?/p>
它通常會開始進行所謂的“公正打分”和自我評價——但你會發(fā)現(xiàn),它幾乎每次都比給其他AI打的分?jǐn)?shù)高,一般會打個90到95分之間。哪怕這樣,我也不會放過它,還要繼續(xù)追問:“那你這剩下的幾分是扣在哪里了?好好想想,再改一遍?!?/p>
當(dāng)然,它最后輸出的結(jié)果是不是滿分作品,其實并不重要。但在這個過程中,往往會冒出很多新思路和新角度,對我們?nèi)祟悂碚f是很有啟發(fā)的。
這個方法其實很簡單,說到底,可能還是被我初中數(shù)學(xué)老師“深刻啟發(fā)”過。當(dāng)年他那種高壓反思式教學(xué),讓我一度對數(shù)學(xué)敬而遠之。
不過還好,現(xiàn)在的AI沒有情緒,不會反抗,我們可以盡情用“PUA語氣”去激發(fā)它的智力潛力。
《斗羅大陸2絕世唐門第六季》在線免費播放動漫斗羅大陸2絕世唐門...
《斗羅大陸2絕世唐門第三季》全集高清在線觀看_斗羅大陸2絕世唐門第三季免費觀看_斗羅大陸2絕世唐門第三季迅雷下載_234影院斗羅大陸2絕世唐門第三季
《斗羅大陸2絕世唐門10動漫》免費在線觀看全集-沒事影院
《斗羅大陸2絕世唐門第四季》動漫免費觀看全集-豬豬影院斗羅大陸2絕世唐門第四季
斗羅大陸2絕世唐門第五季_第1集在線觀看_櫻花動漫網(wǎng)
《斗羅大陸2絕世唐門第五季》高清完整版免費在線觀看-動漫-櫻花動漫-專注動漫的門戶網(wǎng)站斗羅大陸2絕世唐門第五季
來源:紅網(wǎng)
作者:諸語夢
編輯:蔡明幸
本文為紅辣椒評論 原創(chuàng)文章,僅系作者個人觀點,不代表紅網(wǎng)立場。轉(zhuǎn)載請附原文出處鏈接和本聲明。