逮自怡
機(jī)器之心報(bào)道
Panda
僅靠提示詞優(yōu)化就能超越DeepSeek開(kāi)發(fā)的GRPO強(qiáng)化學(xué)習(xí)算法?
是的,你沒(méi)有看錯(cuò)。近日上線arXiv的一篇論文正是憑此吸引了無(wú)數(shù)眼球。
這篇論文提出的GEPA(Genetic-Pareto)采用了一種名為reflectivepromptevolution(反思式提示詞進(jìn)化)的技術(shù),可以實(shí)現(xiàn)比GRPO高20%的性能,同時(shí)還能將rollout次數(shù)減少到原來(lái)的1/35。
那么,GEPA究竟是如何做到這一點(diǎn)的呢?讓我們翻開(kāi)這篇來(lái)自UC伯克利和斯坦福等多家機(jī)構(gòu)的論文一探究竟。
論文標(biāo)題:GEPA:ReflectivePromptEvolutionCanOutperformReinforcementLearning論文地址:https://arxiv.org/abs/2507.19457
GEPA:反思式提示詞進(jìn)化
GEPA的全稱(chēng)是Genetic-Pareto(遺傳-帕累托),這是一種用于復(fù)合式AI系統(tǒng)的樣本高效型優(yōu)化器,其核心原理包括:
遺傳式提示詞進(jìn)化利用自然語(yǔ)言反饋的反思基于帕累托的候選選擇
下圖給出了GEPA的概況。
下面則給出了GEPA的算法。
GEPA的輸入是一個(gè)復(fù)合AI系統(tǒng)Φ,其中包含待優(yōu)化的簡(jiǎn)單提示詞、訓(xùn)練數(shù)據(jù)集D_train、該任務(wù)的標(biāo)準(zhǔn)評(píng)估指標(biāo)μ、反饋函數(shù)μ_f以及總部署預(yù)算B。
遺傳式優(yōu)化循環(huán)
給定一個(gè)復(fù)合AI系統(tǒng)Φ,優(yōu)化過(guò)程的目標(biāo)是確定一組參數(shù)?Π,Θ?_Φ,以最大化其在任務(wù)分布上的得分。
GEPA首先會(huì)初始化一個(gè)候選池P,其中候選項(xiàng)是該復(fù)合系統(tǒng)中一個(gè)帶有可學(xué)習(xí)參數(shù)?Π,Θ?_Φ的具體實(shí)例。
一開(kāi)始,該候選池僅包含基礎(chǔ)系統(tǒng)的參數(shù)——這是唯一候選。然后,GEPA進(jìn)入優(yōu)化循環(huán),迭代地提出新的候選項(xiàng)并將其添加到池中,持續(xù)此過(guò)程直至耗盡評(píng)估預(yù)算。
通過(guò)突變或雜交修改現(xiàn)有候選集,GEPA可以迭代式地提出效果越來(lái)越好的候選項(xiàng)。相關(guān)信息則來(lái)自收集的rollout的學(xué)習(xí)信號(hào)以及跟蹤每個(gè)新候選集的祖先。這使得GEPA能夠在優(yōu)化過(guò)程中沿著遺傳樹(shù)積累經(jīng)驗(yàn)教訓(xùn)。每個(gè)新候選項(xiàng)都會(huì)繼承其父級(jí)的學(xué)習(xí)信號(hào),以及當(dāng)前rollout的信號(hào)。
在每次迭代中,GEPA都會(huì)從候選池中識(shí)別出有希望的候選項(xiàng)(候選項(xiàng)選擇),并提議一個(gè)新的候選項(xiàng)(可能通過(guò)基于反思反饋對(duì)模塊中的提示詞執(zhí)行突變,或在兩個(gè)候選項(xiàng)之間進(jìn)行雜交)并在小批量任務(wù)上評(píng)估這個(gè)新變體。如果新提出的候選項(xiàng)在本地小批量數(shù)據(jù)上相對(duì)于其父集表現(xiàn)出更高的性能,GEPA會(huì)將該新候選項(xiàng)添加到候選池P中。這需要跟蹤內(nèi)部數(shù)據(jù)結(jié)構(gòu),包括跟蹤新候選項(xiàng)的祖先,以及在D_pareto(用于候選項(xiàng)選擇的驗(yàn)證集)上對(duì)新候選項(xiàng)進(jìn)行全面評(píng)估。
預(yù)算耗盡后,GEPA將返回在D_pareto上總體性能最佳的候選項(xiàng)。
反思式提示詞突變
在復(fù)合AI系統(tǒng)執(zhí)行過(guò)程中生成的自然語(yǔ)言軌跡能夠體現(xiàn)其中間推理和底層推理步驟,從而提供對(duì)每個(gè)模塊行為和職責(zé)的豐富可見(jiàn)性。
當(dāng)這些軌跡與系統(tǒng)的最終結(jié)果(例如成功或失?。┡鋵?duì)時(shí),就能提供重要的診斷價(jià)值,從而幫助將錯(cuò)誤或成功追溯到做出的具體決策——可達(dá)模塊級(jí)別。
然后,LLM可以通過(guò)反思利用這些軌跡進(jìn)行隱式credit分配,將最終結(jié)果的成敗歸因到相關(guān)模塊。這種反思過(guò)程可用于對(duì)各個(gè)模塊進(jìn)行有針對(duì)性的更新,從而對(duì)整個(gè)系統(tǒng)的行為進(jìn)行大規(guī)模且有效的更新。
GEPA的操作如下:給定一個(gè)在優(yōu)化循環(huán)的當(dāng)前迭代中進(jìn)行突變的候選模塊,GEPA使用候選參數(shù)更新系統(tǒng),在系統(tǒng)中選擇一個(gè)目標(biāo)模塊進(jìn)行改進(jìn)(通過(guò)循環(huán)調(diào)度確保所有模塊都收到更新),并在從訓(xùn)練數(shù)據(jù)集中采樣的小批量上生成一些rollout,記錄它們的結(jié)果(成功/失敗)。
通過(guò)檢查系統(tǒng)的執(zhí)行軌跡,GEPA可以識(shí)別目標(biāo)模塊的輸入、輸出和推理。據(jù)此,GEPA使用LLM反思性地檢查這些信息,將成功或失敗歸因于模塊提示詞的元素,并為目標(biāo)模塊提出新的指令。然后,一個(gè)新的候選模塊被提出,作為當(dāng)前指令的副本,目標(biāo)模塊的提示詞也更新為新提出的提示詞。
GEPA用于執(zhí)行反思提示詞更新的元提示詞可見(jiàn)原論文附錄部分。
評(píng)估軌跡作為診斷信號(hào):雖然系統(tǒng)自身的執(zhí)行軌跡已經(jīng)提供了有用的信息,可以成功進(jìn)行反思和提示詞更新,但該團(tuán)隊(duì)發(fā)現(xiàn)了另一個(gè)高度診斷性的信息來(lái)源:評(píng)估指標(biāo)μ。
通常,評(píng)估指標(biāo)μ會(huì)應(yīng)用豐富的策略來(lái)執(zhí)行評(píng)估,以得出最終分?jǐn)?shù)。例如,代碼評(píng)估環(huán)境會(huì)運(yùn)行一系列步驟(編譯、執(zhí)行、性能分析等),每個(gè)步驟都會(huì)生成自然語(yǔ)言軌跡,然后提供標(biāo)量獎(jiǎng)勵(lì)。
該團(tuán)隊(duì)建議,除了系統(tǒng)自身的執(zhí)行軌跡之外,還應(yīng)使用這些評(píng)估軌跡來(lái)執(zhí)行反思信用分配和有針對(duì)性的提示詞更新。GEPA將其操作化為對(duì)評(píng)估指標(biāo)μ的簡(jiǎn)單更新,以創(chuàng)建反饋函數(shù)μ_f,該函數(shù)會(huì)識(shí)別評(píng)估指標(biāo)執(zhí)行過(guò)程中生成的相關(guān)文本軌跡,并返回最終分?jǐn)?shù)以及反饋文本(feedback_text)。只要可用,這樣的反饋函數(shù)還可以提供模塊級(jí)反饋(例如,在multi-hop系統(tǒng)中,評(píng)估器可以在系統(tǒng)每一跳之后提供反饋)。
基于帕累托的候選選擇
GEPA是一種高度模塊化的算法,能夠支持在每次優(yōu)化迭代中選擇候選的各種策略。最關(guān)鍵的是,候選選擇策略的選擇決定了優(yōu)化器所采用的探索-利用權(quán)衡。
一種簡(jiǎn)單的策略是始終選擇池中表現(xiàn)最佳的候選。然而,這可能導(dǎo)致優(yōu)化器陷入提示詞空間內(nèi)的局部最優(yōu):一旦找到占優(yōu)策略,就很難超越它,優(yōu)化器會(huì)在沒(méi)有學(xué)習(xí)新的、可能更好的策略的情況下耗盡其預(yù)算。
圖6a展示了使用此策略生成的示例搜索樹(shù)。具體來(lái)說(shuō),請(qǐng)注意搜索過(guò)程如何找到一個(gè)新的策略(第一個(gè)子節(jié)點(diǎn)),然后不斷嘗試改進(jìn)它,但在多次迭代中都失敗了,最終耗盡了所有的rollout預(yù)算。
為了解決這個(gè)問(wèn)題,GEPA采用了基于帕累托的illumination策略(Mouret&Clune,2015),如算法2所示。
具體來(lái)說(shuō),GEPA會(huì)確定池中所有候選項(xiàng)中每個(gè)訓(xùn)練實(shí)例所取得的最高分?jǐn)?shù),從而創(chuàng)建一個(gè)迄今為止優(yōu)化過(guò)程所取得分?jǐn)?shù)的「帕累托前沿」。然后,GEPA會(huì)編制一份至少在一項(xiàng)訓(xùn)練任務(wù)中取得最佳分?jǐn)?shù)的候選項(xiàng)列表。這會(huì)實(shí)現(xiàn)對(duì)候選池的過(guò)濾,篩選出那些采用了「獲勝」策略的候選項(xiàng),從而保留在任何反思突變中發(fā)現(xiàn)的所有寶貴見(jiàn)解。
接下來(lái),GEPA會(huì)修剪那些嚴(yán)格占優(yōu)的候選項(xiàng):例如,如果候選項(xiàng)2僅在任務(wù)1上取得最佳分?jǐn)?shù),但候選項(xiàng)3在任務(wù)1和任務(wù)2上都取得了相同的最佳分?jǐn)?shù),則將候選項(xiàng)2移除。
最后,GEPA會(huì)從修剪后的列表中隨機(jī)抽取一個(gè)候選項(xiàng),為在更多訓(xùn)練實(shí)例中取得最佳分?jǐn)?shù)的候選項(xiàng)分配更高的選擇概率。
在實(shí)踐中,該策略有助于GEPA避免陷入局部最優(yōu),而無(wú)需過(guò)度擴(kuò)大搜索范圍。通過(guò)將資源集中在那些已經(jīng)展現(xiàn)出有效「獲勝」策略的有潛力的候選項(xiàng)上,GEPA可有效地平衡探索與利用,從而能夠在優(yōu)化預(yù)算范圍內(nèi)持續(xù)改進(jìn)。
GEPA表現(xiàn)如何?
該團(tuán)隊(duì)也通過(guò)實(shí)驗(yàn)驗(yàn)證了GEPA的表現(xiàn),并將結(jié)果總結(jié)成了5點(diǎn)觀察。
觀察1:反思式提示詞進(jìn)化具有極高的樣本效率,其性能甚至超越權(quán)重空間強(qiáng)化學(xué)習(xí)。
在所有四個(gè)基準(zhǔn)測(cè)試中,GEPA在復(fù)合AI系統(tǒng)中展現(xiàn)出了快速的適應(yīng)性和強(qiáng)大的泛化能力——其性能比GRPO(使用LoRA進(jìn)行24,000次rollout)高19%,同時(shí)rollout次數(shù)減少到了其1/35。
觀察2:反思式提示詞進(jìn)化可使單獨(dú)的指令優(yōu)化性能優(yōu)于聯(lián)合式指令和少樣本優(yōu)化。
該團(tuán)隊(duì)使用兩個(gè)領(lǐng)先模型(GPT-4.1mini和Qwen38B)在四個(gè)不同的任務(wù)中對(duì)GEPA與MIPROv2(一種最先進(jìn)的聯(lián)合式指令和少樣本優(yōu)化器)進(jìn)行了比較。
實(shí)驗(yàn)發(fā)現(xiàn),GEPA在所有設(shè)置下均始終優(yōu)于MIPROv2,在GPT-4.1mini上實(shí)現(xiàn)了高達(dá)11.1%的優(yōu)勢(shì),在Qwen38B上實(shí)現(xiàn)了高達(dá)10.3%的優(yōu)勢(shì)。此外,在所有基準(zhǔn)測(cè)試和兩個(gè)模型中,GEPA和GEPA+Merge的總增益均是MIPROv2基線的兩倍以上(分別為+16.02%和+14.29%,而MIPROv2為+7.04%)。
值得注意的是,不同于與先前的一些研究結(jié)果(指令優(yōu)化主要通過(guò)準(zhǔn)樣本(Quasi-Exemplars)實(shí)現(xiàn)改進(jìn)),GEPA的提示詞通常包含完成任務(wù)的詳細(xì)聲明式指令,如圖2所示。
觀察3:下一候選項(xiàng)的選擇策略對(duì)優(yōu)化軌跡和最終性能有顯著影響,其中基于帕累托的采樣方法具有明顯的優(yōu)勢(shì)。
GEPA的目標(biāo)是通過(guò)利用新版本中的反饋來(lái)迭代優(yōu)化提示詞。為了測(cè)試基于帕累托的候選選擇策略的效果,該團(tuán)隊(duì)考慮了一個(gè)簡(jiǎn)單的基準(zhǔn)來(lái)實(shí)例化SelectCandidate策略:始終選擇當(dāng)前表現(xiàn)最佳的候選項(xiàng)。
如表2中的消融結(jié)果所示,這種方法通常會(huì)導(dǎo)致對(duì)提示詞搜索空間的探索不夠理想,最終導(dǎo)致性能不佳——采用基于帕累托的采樣策略的GEPA比SelectBestCandidate策略的性能高出8.17%,在所有基準(zhǔn)測(cè)試中保持了+6.4%的總體優(yōu)勢(shì)。
圖6展示了這種簡(jiǎn)單策略與該團(tuán)隊(duì)提出的基于帕累托的采樣策略在優(yōu)化軌跡上的顯著差異。
始終選擇當(dāng)前最佳候選往往會(huì)在下一次迭代中立即帶來(lái)改進(jìn),但隨后會(huì)導(dǎo)致優(yōu)化器停滯,耗盡其整個(gè)部署預(yù)算來(lái)嘗試進(jìn)一步改進(jìn)該特定候選。相比之下,該團(tuán)隊(duì)基于帕累托的采樣方法通過(guò)考慮所有Pareto最優(yōu)候選(代表迄今為止發(fā)現(xiàn)的所有「獲勝」策略)來(lái)擴(kuò)展搜索范圍,從而確保在探索和利用權(quán)衡之間取得緊密平衡——最終在相同的部署預(yù)算內(nèi)收斂到性能更高的解答。
觀察4:經(jīng)過(guò)指令優(yōu)化的提示詞比少樣本演示提示詞計(jì)算成本更低,泛化能力更強(qiáng)。
除了強(qiáng)大的泛化能力外,反思式進(jìn)化的指令還具有顯著的實(shí)用優(yōu)勢(shì):它們通常比少樣本演示提示詞更短,因此計(jì)算效率更高。這種優(yōu)勢(shì)在復(fù)雜任務(wù)中尤為明顯,因?yàn)榧词故菃蝹€(gè)少樣本演示也可能非常長(zhǎng)。當(dāng)使用最新技術(shù)優(yōu)化少樣本示例時(shí),問(wèn)題會(huì)進(jìn)一步加劇。諸如MIPROv2等先進(jìn)方法,可以聯(lián)合優(yōu)化多個(gè)演示以便同時(shí)使用,從而進(jìn)一步增加提示詞長(zhǎng)度。
觀察5:系統(tǒng)感知型雜交策略可以帶來(lái)巨大的收益,但突變和雜交之間的最優(yōu)預(yù)算分配以及何時(shí)調(diào)用合并仍需進(jìn)一步研究。
該團(tuán)隊(duì)確定了一種獨(dú)特的系統(tǒng)感知型雜交策略,并將其做成了一個(gè)操作Merge。
GEPA+Merge的性能比GEPA高出5%,在GEPA已經(jīng)擁有的強(qiáng)勁性能基礎(chǔ)上再提升2%。詳細(xì)結(jié)果見(jiàn)表1。該團(tuán)隊(duì)將這些收益歸因于GEPA+Merge能夠識(shí)別不同的優(yōu)化譜系,這些譜系已經(jīng)學(xué)習(xí)了互補(bǔ)策略(通過(guò)演化不同的模塊),并通過(guò)從每個(gè)譜系中挑選不同模塊的最佳版本來(lái)合并它們,從而提出一個(gè)單一的最優(yōu)候選方案。
最后,如果你也疑惑GEPA的讀音是什么又怎么與JEPA區(qū)分,YannLeCun發(fā)推給出了相當(dāng)詳細(xì)的解釋?zhuān)?/p>
高分之作《最后一個(gè)女?dāng)繆y師》TOP3情節(jié)情感大戲華麗登場(chǎng)!
原來(lái)早在這個(gè)時(shí)候,葉錦就已經(jīng)介入了他們的生活,而她卻像個(gè)傻子一樣被蒙在鼓里……溫頌清低頭看著孟景書(shū)那肖似孟廷修的臉,眼底只剩下失望:“好,這也是我最后一次接你了?!彼饝?yīng)得很干脆,孟景書(shū)反倒有些反應(yīng)不過(guò)來(lái),小手緊攥著紅領(lǐng)巾:“你什么意思?”溫頌清沒(méi)有回答,帶著他直接去了孟廷修的部隊(duì)。軍區(qū)是什么。
特別推薦潛力好書(shū)《最后一個(gè)女?dāng)繆y師》,甜蜜橋段讓你入坑不后悔!
人氣巨獻(xiàn)《最后一個(gè)女?dāng)繆y師》,錯(cuò)過(guò)它是你的遺憾!《最后一個(gè)女?dāng)繆y師》作者:黑朵兒
來(lái)源:紅網(wǎng)
作者:何左薇
編輯:郁瑋奇
本文為紅辣椒評(píng)論 原創(chuàng)文章,僅系作者個(gè)人觀點(diǎn),不代表紅網(wǎng)立場(chǎng)。轉(zhuǎn)載請(qǐng)附原文出處鏈接和本聲明。