2025 阿里云「AI 安全」全球挑戰(zhàn)賽開賽,為何這家企業(yè)投入百萬獎金尋找「AI 正義黑客」?
女子一家一年半內(nèi) 4 人確診癌癥,且家里都有癌癥病史,遺傳到底起多大作用?日常該注意哪些問題進行預(yù)防?
機器之心報道
Panda
僅靠提示詞優(yōu)化就能超越DeepSeek開發(fā)的GRPO強化學(xué)習(xí)算法?
是的,你沒有看錯。近日上線arXiv的一篇論文正是憑此吸引了無數(shù)眼球。
這篇論文提出的GEPA(Genetic-Pareto)采用了一種名為reflectivepromptevolution(反思式提示詞進化)的技術(shù),可以實現(xiàn)比GRPO高20%的性能,同時還能將rollout次數(shù)減少到原來的1/35。
那么,GEPA究竟是如何做到這一點的呢?讓我們翻開這篇來自UC伯克利和斯坦福等多家機構(gòu)的論文一探究竟。
論文標(biāo)題:GEPA:ReflectivePromptEvolutionCanOutperformReinforcementLearning論文地址:https://arxiv.org/abs/2507.19457
GEPA:反思式提示詞進化
GEPA的全稱是Genetic-Pareto(遺傳-帕累托),這是一種用于復(fù)合式AI系統(tǒng)的樣本高效型優(yōu)化器,其核心原理包括:
遺傳式提示詞進化利用自然語言反饋的反思基于帕累托的候選選擇
下圖給出了GEPA的概況。
下面則給出了GEPA的算法。
GEPA的輸入是一個復(fù)合AI系統(tǒng)Φ,其中包含待優(yōu)化的簡單提示詞、訓(xùn)練數(shù)據(jù)集D_train、該任務(wù)的標(biāo)準(zhǔn)評估指標(biāo)μ、反饋函數(shù)μ_f以及總部署預(yù)算B。
遺傳式優(yōu)化循環(huán)
給定一個復(fù)合AI系統(tǒng)Φ,優(yōu)化過程的目標(biāo)是確定一組參數(shù)?Π,Θ?_Φ,以最大化其在任務(wù)分布上的得分。
GEPA首先會初始化一個候選池P,其中候選項是該復(fù)合系統(tǒng)中一個帶有可學(xué)習(xí)參數(shù)?Π,Θ?_Φ的具體實例。
一開始,該候選池僅包含基礎(chǔ)系統(tǒng)的參數(shù)——這是唯一候選。然后,GEPA進入優(yōu)化循環(huán),迭代地提出新的候選項并將其添加到池中,持續(xù)此過程直至耗盡評估預(yù)算。
通過突變或雜交修改現(xiàn)有候選集,GEPA可以迭代式地提出效果越來越好的候選項。相關(guān)信息則來自收集的rollout的學(xué)習(xí)信號以及跟蹤每個新候選集的祖先。這使得GEPA能夠在優(yōu)化過程中沿著遺傳樹積累經(jīng)驗教訓(xùn)。每個新候選項都會繼承其父級的學(xué)習(xí)信號,以及當(dāng)前rollout的信號。
在每次迭代中,GEPA都會從候選池中識別出有希望的候選項(候選項選擇),并提議一個新的候選項(可能通過基于反思反饋對模塊中的提示詞執(zhí)行突變,或在兩個候選項之間進行雜交)并在小批量任務(wù)上評估這個新變體。如果新提出的候選項在本地小批量數(shù)據(jù)上相對于其父集表現(xiàn)出更高的性能,GEPA會將該新候選項添加到候選池P中。這需要跟蹤內(nèi)部數(shù)據(jù)結(jié)構(gòu),包括跟蹤新候選項的祖先,以及在D_pareto(用于候選項選擇的驗證集)上對新候選項進行全面評估。
預(yù)算耗盡后,GEPA將返回在D_pareto上總體性能最佳的候選項。
反思式提示詞突變
在復(fù)合AI系統(tǒng)執(zhí)行過程中生成的自然語言軌跡能夠體現(xiàn)其中間推理和底層推理步驟,從而提供對每個模塊行為和職責(zé)的豐富可見性。
當(dāng)這些軌跡與系統(tǒng)的最終結(jié)果(例如成功或失?。┡鋵r,就能提供重要的診斷價值,從而幫助將錯誤或成功追溯到做出的具體決策——可達(dá)模塊級別。
然后,LLM可以通過反思利用這些軌跡進行隱式credit分配,將最終結(jié)果的成敗歸因到相關(guān)模塊。這種反思過程可用于對各個模塊進行有針對性的更新,從而對整個系統(tǒng)的行為進行大規(guī)模且有效的更新。
GEPA的操作如下:給定一個在優(yōu)化循環(huán)的當(dāng)前迭代中進行突變的候選模塊,GEPA使用候選參數(shù)更新系統(tǒng),在系統(tǒng)中選擇一個目標(biāo)模塊進行改進(通過循環(huán)調(diào)度確保所有模塊都收到更新),并在從訓(xùn)練數(shù)據(jù)集中采樣的小批量上生成一些rollout,記錄它們的結(jié)果(成功/失?。?/p>
通過檢查系統(tǒng)的執(zhí)行軌跡,GEPA可以識別目標(biāo)模塊的輸入、輸出和推理。據(jù)此,GEPA使用LLM反思性地檢查這些信息,將成功或失敗歸因于模塊提示詞的元素,并為目標(biāo)模塊提出新的指令。然后,一個新的候選模塊被提出,作為當(dāng)前指令的副本,目標(biāo)模塊的提示詞也更新為新提出的提示詞。
GEPA用于執(zhí)行反思提示詞更新的元提示詞可見原論文附錄部分。
評估軌跡作為診斷信號:雖然系統(tǒng)自身的執(zhí)行軌跡已經(jīng)提供了有用的信息,可以成功進行反思和提示詞更新,但該團隊發(fā)現(xiàn)了另一個高度診斷性的信息來源:評估指標(biāo)μ。
通常,評估指標(biāo)μ會應(yīng)用豐富的策略來執(zhí)行評估,以得出最終分?jǐn)?shù)。例如,代碼評估環(huán)境會運行一系列步驟(編譯、執(zhí)行、性能分析等),每個步驟都會生成自然語言軌跡,然后提供標(biāo)量獎勵。
該團隊建議,除了系統(tǒng)自身的執(zhí)行軌跡之外,還應(yīng)使用這些評估軌跡來執(zhí)行反思信用分配和有針對性的提示詞更新。GEPA將其操作化為對評估指標(biāo)μ的簡單更新,以創(chuàng)建反饋函數(shù)μ_f,該函數(shù)會識別評估指標(biāo)執(zhí)行過程中生成的相關(guān)文本軌跡,并返回最終分?jǐn)?shù)以及反饋文本(feedback_text)。只要可用,這樣的反饋函數(shù)還可以提供模塊級反饋(例如,在multi-hop系統(tǒng)中,評估器可以在系統(tǒng)每一跳之后提供反饋)。
基于帕累托的候選選擇
GEPA是一種高度模塊化的算法,能夠支持在每次優(yōu)化迭代中選擇候選的各種策略。最關(guān)鍵的是,候選選擇策略的選擇決定了優(yōu)化器所采用的探索-利用權(quán)衡。
一種簡單的策略是始終選擇池中表現(xiàn)最佳的候選。然而,這可能導(dǎo)致優(yōu)化器陷入提示詞空間內(nèi)的局部最優(yōu):一旦找到占優(yōu)策略,就很難超越它,優(yōu)化器會在沒有學(xué)習(xí)新的、可能更好的策略的情況下耗盡其預(yù)算。
圖6a展示了使用此策略生成的示例搜索樹。具體來說,請注意搜索過程如何找到一個新的策略(第一個子節(jié)點),然后不斷嘗試改進它,但在多次迭代中都失敗了,最終耗盡了所有的rollout預(yù)算。
為了解決這個問題,GEPA采用了基于帕累托的illumination策略(Mouret&Clune,2015),如算法2所示。
具體來說,GEPA會確定池中所有候選項中每個訓(xùn)練實例所取得的最高分?jǐn)?shù),從而創(chuàng)建一個迄今為止優(yōu)化過程所取得分?jǐn)?shù)的「帕累托前沿」。然后,GEPA會編制一份至少在一項訓(xùn)練任務(wù)中取得最佳分?jǐn)?shù)的候選項列表。這會實現(xiàn)對候選池的過濾,篩選出那些采用了「獲勝」策略的候選項,從而保留在任何反思突變中發(fā)現(xiàn)的所有寶貴見解。
接下來,GEPA會修剪那些嚴(yán)格占優(yōu)的候選項:例如,如果候選項2僅在任務(wù)1上取得最佳分?jǐn)?shù),但候選項3在任務(wù)1和任務(wù)2上都取得了相同的最佳分?jǐn)?shù),則將候選項2移除。
最后,GEPA會從修剪后的列表中隨機抽取一個候選項,為在更多訓(xùn)練實例中取得最佳分?jǐn)?shù)的候選項分配更高的選擇概率。
在實踐中,該策略有助于GEPA避免陷入局部最優(yōu),而無需過度擴大搜索范圍。通過將資源集中在那些已經(jīng)展現(xiàn)出有效「獲勝」策略的有潛力的候選項上,GEPA可有效地平衡探索與利用,從而能夠在優(yōu)化預(yù)算范圍內(nèi)持續(xù)改進。
GEPA表現(xiàn)如何?
該團隊也通過實驗驗證了GEPA的表現(xiàn),并將結(jié)果總結(jié)成了5點觀察。
觀察1:反思式提示詞進化具有極高的樣本效率,其性能甚至超越權(quán)重空間強化學(xué)習(xí)。
在所有四個基準(zhǔn)測試中,GEPA在復(fù)合AI系統(tǒng)中展現(xiàn)出了快速的適應(yīng)性和強大的泛化能力——其性能比GRPO(使用LoRA進行24,000次rollout)高19%,同時rollout次數(shù)減少到了其1/35。
觀察2:反思式提示詞進化可使單獨的指令優(yōu)化性能優(yōu)于聯(lián)合式指令和少樣本優(yōu)化。
該團隊使用兩個領(lǐng)先模型(GPT-4.1mini和Qwen38B)在四個不同的任務(wù)中對GEPA與MIPROv2(一種最先進的聯(lián)合式指令和少樣本優(yōu)化器)進行了比較。
實驗發(fā)現(xiàn),GEPA在所有設(shè)置下均始終優(yōu)于MIPROv2,在GPT-4.1mini上實現(xiàn)了高達(dá)11.1%的優(yōu)勢,在Qwen38B上實現(xiàn)了高達(dá)10.3%的優(yōu)勢。此外,在所有基準(zhǔn)測試和兩個模型中,GEPA和GEPA+Merge的總增益均是MIPROv2基線的兩倍以上(分別為+16.02%和+14.29%,而MIPROv2為+7.04%)。
值得注意的是,不同于與先前的一些研究結(jié)果(指令優(yōu)化主要通過準(zhǔn)樣本(Quasi-Exemplars)實現(xiàn)改進),GEPA的提示詞通常包含完成任務(wù)的詳細(xì)聲明式指令,如圖2所示。
觀察3:下一候選項的選擇策略對優(yōu)化軌跡和最終性能有顯著影響,其中基于帕累托的采樣方法具有明顯的優(yōu)勢。
GEPA的目標(biāo)是通過利用新版本中的反饋來迭代優(yōu)化提示詞。為了測試基于帕累托的候選選擇策略的效果,該團隊考慮了一個簡單的基準(zhǔn)來實例化SelectCandidate策略:始終選擇當(dāng)前表現(xiàn)最佳的候選項。
如表2中的消融結(jié)果所示,這種方法通常會導(dǎo)致對提示詞搜索空間的探索不夠理想,最終導(dǎo)致性能不佳——采用基于帕累托的采樣策略的GEPA比SelectBestCandidate策略的性能高出8.17%,在所有基準(zhǔn)測試中保持了+6.4%的總體優(yōu)勢。
圖6展示了這種簡單策略與該團隊提出的基于帕累托的采樣策略在優(yōu)化軌跡上的顯著差異。
始終選擇當(dāng)前最佳候選往往會在下一次迭代中立即帶來改進,但隨后會導(dǎo)致優(yōu)化器停滯,耗盡其整個部署預(yù)算來嘗試進一步改進該特定候選。相比之下,該團隊基于帕累托的采樣方法通過考慮所有Pareto最優(yōu)候選(代表迄今為止發(fā)現(xiàn)的所有「獲勝」策略)來擴展搜索范圍,從而確保在探索和利用權(quán)衡之間取得緊密平衡——最終在相同的部署預(yù)算內(nèi)收斂到性能更高的解答。
觀察4:經(jīng)過指令優(yōu)化的提示詞比少樣本演示提示詞計算成本更低,泛化能力更強。
除了強大的泛化能力外,反思式進化的指令還具有顯著的實用優(yōu)勢:它們通常比少樣本演示提示詞更短,因此計算效率更高。這種優(yōu)勢在復(fù)雜任務(wù)中尤為明顯,因為即使是單個少樣本演示也可能非常長。當(dāng)使用最新技術(shù)優(yōu)化少樣本示例時,問題會進一步加劇。諸如MIPROv2等先進方法,可以聯(lián)合優(yōu)化多個演示以便同時使用,從而進一步增加提示詞長度。
觀察5:系統(tǒng)感知型雜交策略可以帶來巨大的收益,但突變和雜交之間的最優(yōu)預(yù)算分配以及何時調(diào)用合并仍需進一步研究。
該團隊確定了一種獨特的系統(tǒng)感知型雜交策略,并將其做成了一個操作Merge。
GEPA+Merge的性能比GEPA高出5%,在GEPA已經(jīng)擁有的強勁性能基礎(chǔ)上再提升2%。詳細(xì)結(jié)果見表1。該團隊將這些收益歸因于GEPA+Merge能夠識別不同的優(yōu)化譜系,這些譜系已經(jīng)學(xué)習(xí)了互補策略(通過演化不同的模塊),并通過從每個譜系中挑選不同模塊的最佳版本來合并它們,從而提出一個單一的最優(yōu)候選方案。
最后,如果你也疑惑GEPA的讀音是什么又怎么與JEPA區(qū)分,YannLeCun發(fā)推給出了相當(dāng)詳細(xì)的解釋: