在三個(gè)月前,OpenAI研究員ShunyuYao發(fā)表了一篇關(guān)于AI的下半場的博客引起了廣泛討論。他在博客中指出,AI研究正在從“能不能做”轉(zhuǎn)向“學(xué)得是否有效”,傳統(tǒng)的基準(zhǔn)測試已經(jīng)難以衡量AI的實(shí)際效用,他指出現(xiàn)有的評估方式中,模型被要求獨(dú)立完成每個(gè)任務(wù),然后取平均得分。這種方式忽略了任務(wù)之間的連貫性,無法評估模型長期適應(yīng)能力和更類人的動(dòng)態(tài)學(xué)習(xí)能力。
圖出自ShunyuYaoBlog:Thesecondhalf
什么是更類人的動(dòng)態(tài)學(xué)習(xí)能力?不妨想象一下,一位學(xué)生在做數(shù)學(xué)題時(shí),通過前面題目的解答經(jīng)驗(yàn),逐漸掌握更高效的解題方法,在后續(xù)題目中表現(xiàn)越來越好。這種在實(shí)踐中不斷優(yōu)化策略、提升能力的過程,正是人類智能靈活性與適應(yīng)性的體現(xiàn)。
而對于LLM而言,能否具備類似的“成長”能力,關(guān)乎其能否真正邁向通用人工智能的殿堂。但長期以來,由于缺乏有效的評估手段,這一重要維度始終隱藏在迷霧之中。
來自復(fù)旦大學(xué)自然語言處理實(shí)驗(yàn)室和字節(jié)跳動(dòng)Seed等單位的研究人員,共同提出了一種全新的大模型評測范式:EvaLearn——一個(gè)評估大模型學(xué)習(xí)能力與學(xué)習(xí)效率的開創(chuàng)性基準(zhǔn),為理解模型的類人學(xué)習(xí)潛力提供了全新視角。
作為首個(gè)專注于量化LLM學(xué)習(xí)能力與效率的基準(zhǔn),EvaLearn以「連續(xù)問題求解」為核心,重新定義了大語言模型的評估邏輯。目前該項(xiàng)目開源僅一個(gè)月,官方倉庫的星標(biāo)數(shù)便突破400+,讓我們來看看這個(gè)工作為何廣受關(guān)注。
論文鏈接:https://arxiv.org/pdf/2506.02672項(xiàng)目鏈接:https://github.com/ByteDance-Seed/EvaLearn
傳統(tǒng)基準(zhǔn)的局限顯而易見:它們將問題視為孤立樣本,模型無法從之前的解答中積累經(jīng)驗(yàn),自然也無從評估其「學(xué)習(xí)效率」與「適應(yīng)能力」。
EvaLearn從零構(gòu)建了648個(gè)具有挑戰(zhàn)性的問題,將這些問題組織為182個(gè)序列,每個(gè)序列包含來自同一任務(wù)類型的7個(gè)問題,要求模型按順序求解——前序問題的經(jīng)驗(yàn),將直接影響后續(xù)表現(xiàn)的評估。
圖1EvaLearn的評估流程
在評測方面,如上圖所示,EvaLearn不采用并行評估方式,而是要求模型按順序解決問題,從而系統(tǒng)地評估大語言模型(LLM)的學(xué)習(xí)能力和效率。
這648個(gè)高難度問題覆蓋六大核心任務(wù):
摘要(Sum):評估模型能否通過利用先前經(jīng)驗(yàn)提高總結(jié)的準(zhǔn)確性和覆蓋范圍;分類(Cla):評估模型從解決一系列分類問題中提升其分類技能的能力;信息抽?。‥x):衡量模型能否逐步提高關(guān)鍵信息提取的準(zhǔn)確性和完整性;邏輯推理(LR):測試模型能否從先前錯(cuò)誤中學(xué)習(xí)并提高邏輯推理能力;數(shù)學(xué)推理(MR):檢驗(yàn)?zāi)P湍芊裢ㄟ^利用早期問題的反饋快速掌握數(shù)學(xué)解題方法;序列推理(SR):評估模型能否通過從歷史經(jīng)驗(yàn)中學(xué)習(xí)來增強(qiáng)其解決基于序列問題的能力,包括理清事件步驟和推理邏輯。
每個(gè)問題都配有一個(gè)由專業(yè)標(biāo)注員編寫的細(xì)致評分標(biāo)準(zhǔn)(rubric),結(jié)合GPT-4o作為「驗(yàn)證器」,來判斷模型生成的答案的正確性。經(jīng)過大量實(shí)驗(yàn),基于rubric的驗(yàn)證器,在評價(jià)各種水平的模型時(shí),評估準(zhǔn)確率均超過95%。這實(shí)現(xiàn)了高效的自動(dòng)化評測。
研究團(tuán)隊(duì)EvaLearn上對九個(gè)前沿大語言模型進(jìn)行了全面研究,總結(jié)了幾個(gè)關(guān)鍵發(fā)現(xiàn):
(1)模型在不同任務(wù)類型中展現(xiàn)出多樣的學(xué)習(xí)能力。大部分模型通常更擅長利用先前經(jīng)驗(yàn)來解決涉及數(shù)學(xué)和邏輯推理的任務(wù),而諸如總結(jié)之類的任務(wù)則更傾向于依賴在預(yù)訓(xùn)練期間獲取的知識以及模型的固有能力。此外,不同任務(wù)的學(xué)習(xí)效率也有顯著差異。
(2)基于思維鏈的大語言模型在學(xué)習(xí)能力和學(xué)習(xí)效率上通常優(yōu)于非基于思維鏈的大語言模型。它們能更好地利用經(jīng)驗(yàn)解決新問題,并且表現(xiàn)出更高的學(xué)習(xí)穩(wěn)定性,更有可能在一系列任務(wù)中連續(xù)解決多個(gè)問題。
(3)反饋學(xué)習(xí)(即將來自驗(yàn)證器的評價(jià)和反饋?zhàn)鳛樯舷挛奶峁┠茏屇P徒柚鷮ο惹敖鉀Q方案的反饋及基于評分標(biāo)準(zhǔn)的評估來優(yōu)化問題解決,顯著提升學(xué)習(xí)能力與效率。相較于示例學(xué)習(xí)(指將先前的問題和規(guī)范解決方案作為上下文提供),反饋學(xué)習(xí)的效果更為顯著。
(4)學(xué)習(xí)能力和學(xué)習(xí)效率的指標(biāo)共同提供了對模型學(xué)習(xí)潛力的全面評估,兩種動(dòng)態(tài)能力與靜態(tài)模型能力沒有很強(qiáng)的相關(guān)性。即使是靜態(tài)性能較高的大語言模型,也并非在所有任務(wù)的學(xué)習(xí)能力上都具有明顯優(yōu)勢。
評估指標(biāo)
為了評價(jià)模型的學(xué)習(xí)能力和學(xué)習(xí)潛力,EvaLearn設(shè)計(jì)了一套全面的評估指標(biāo)體系,從多個(gè)維度刻畫模型的動(dòng)態(tài)學(xué)習(xí)能力:
整體序列準(zhǔn)確率(Acc):連續(xù)任務(wù)中,模型答對的總題數(shù)占總題數(shù)的比例,直接反映整體表現(xiàn),值越高越好。準(zhǔn)確率曲線斜率(k):通過擬合各位置的準(zhǔn)確率變化曲線,斜率k體現(xiàn)學(xué)習(xí)速度,k越大,說明模型從前期問題中學(xué)習(xí)越快,后續(xù)準(zhǔn)確率提升越明顯。首次正確位置(P_first):模型第一次答對問題的位置,P_first值越小,說明越快找到解題思路。連續(xù)正確次數(shù)(N_consec):用于評估模型學(xué)習(xí)的穩(wěn)定性與經(jīng)驗(yàn)復(fù)用能力。模型連續(xù)答對的題數(shù),值越高,說明學(xué)習(xí)穩(wěn)定性越強(qiáng),能更好復(fù)用已有經(jīng)驗(yàn)。熱身后準(zhǔn)確率(Acc_pw-K):該指標(biāo)重點(diǎn)關(guān)注模型在經(jīng)過一定數(shù)量問題的“熱身”后,積累了一定經(jīng)驗(yàn)時(shí)的準(zhǔn)確率表現(xiàn)。它體現(xiàn)了模型在適應(yīng)任務(wù)、積累經(jīng)驗(yàn)后的實(shí)際適應(yīng)與提升水平,排除了模型初始狀態(tài)對整體評估的干擾。
大模型在EvaLearn上的表現(xiàn)
研究人員們比較兩種問題求解范式:并行求解和順序求解,以研究大語言模型的學(xué)習(xí)能力和效率。
并行求解(ParallelSolving)
零樣本(Zero-shot):模型獨(dú)立地解決每個(gè)問題,無法訪問之前問題的任何經(jīng)驗(yàn)。這種設(shè)置與多數(shù)現(xiàn)有基準(zhǔn)測試方法一致,評估模型在無學(xué)習(xí)機(jī)會(huì)下解決復(fù)雜問題的固有能力。
少樣本(Few-shot):針對每個(gè)問題,模型會(huì)獲得三個(gè)來自同一任務(wù)的示例(即3-shot),以指導(dǎo)輸出格式和解題方法。每類任務(wù)內(nèi)的問題共享相同的示例。
順序求解(SequentialSolving)
示例學(xué)習(xí)(DemonstrationLearning):在解決當(dāng)前問題之前,模型會(huì)獲得同一序列中之前所有問題及其標(biāo)準(zhǔn)答案,類似于上下文學(xué)習(xí)。
反饋學(xué)習(xí)(FeedbackLearning):在解決當(dāng)前問題時(shí),模型可以訪問之前所有問題、它們的解答以及針對模型自身前次解答的詳細(xì)反饋。這些反饋是由評審使用實(shí)例級評分標(biāo)準(zhǔn)生成的。本設(shè)置評估模型是否能利用自身經(jīng)驗(yàn)改善隨后的表現(xiàn)。系統(tǒng)提示如圖22所示。
研究者在所有實(shí)驗(yàn)中評估了九個(gè)最前沿的LLMs,包括“思維型”和“非思維型”模型,結(jié)果如表1。
表1:反饋學(xué)習(xí)與零樣本并行求解之間的整體準(zhǔn)確率差異
研究問題一:
LLMs能否通過問題序列進(jìn)行學(xué)習(xí)?
發(fā)現(xiàn)一:
LLMs在從問題序列中學(xué)習(xí)的能力存在差異,且這種差異不僅體現(xiàn)在模型之間,也體現(xiàn)在任務(wù)類型之間。此外,大多數(shù)模型在“熱身階段”后表現(xiàn)更佳。
表1總結(jié)了反饋學(xué)習(xí)與零樣本并行求解之間的整體準(zhǔn)確率差異。研究者觀察到,有五個(gè)模型從順序?qū)W習(xí)中獲益,有四個(gè)模型表現(xiàn)略有下降,思維型模型在表現(xiàn)上變化更顯著,例如OpenAI-o3-mini在整體上提升了+10.5%,為提升幅度最大者。這說明某些模型可以有效利用先前的經(jīng)驗(yàn)來解決同一任務(wù)中的問題。
在任務(wù)類型方面,大多數(shù)LLMs在數(shù)學(xué)推理和分類任務(wù)中通過學(xué)習(xí)獲得了提升。但在摘要任務(wù)中,大多數(shù)模型表現(xiàn)下降(9個(gè)模型中有7個(gè)下降),這可能是因?yàn)檎蝿?wù)更依賴模型預(yù)訓(xùn)練時(shí)獲得的知識和指令遵循能力,額外引入的經(jīng)驗(yàn)反而會(huì)干擾模型完成任務(wù)。
此外,研究人員還對“熱身后準(zhǔn)確率(Acc_pw-K)”進(jìn)行了分析,結(jié)果發(fā)現(xiàn)多數(shù)模型在序列后期表現(xiàn)更為出色,特別是思維型模型。這意味著它們能夠?qū)⒃缙趩栴}當(dāng)作練習(xí),不斷優(yōu)化自身,進(jìn)而提升后續(xù)任務(wù)的表現(xiàn),圖3左側(cè)清晰地展現(xiàn)了這一現(xiàn)象。
圖2左側(cè)為Claude-3.7-Sonnet-Thinking的熱身后準(zhǔn)確率結(jié)果,右側(cè)為DeepSeek-R1的逐位置準(zhǔn)確率結(jié)果
發(fā)現(xiàn)二:
學(xué)習(xí)穩(wěn)定性在不同任務(wù)和模型之間差異顯著。對于某些任務(wù)(如摘要),當(dāng)前的模型更擅長利用其固有知識來解決問題,而不是依賴從先前問題中獲得的經(jīng)驗(yàn)。
圖3左側(cè)為連續(xù)正確解的平均數(shù)量(N_consec),右側(cè)為首次正確解的平均位置(P_first)。結(jié)果以O(shè)penAI-o3-mini為例展示,每個(gè)節(jié)點(diǎn)代表一個(gè)序列。
研究者通過分析N_consec指標(biāo)來進(jìn)一步研究LLMs的學(xué)習(xí)穩(wěn)定性。圖2左側(cè)顯示了o3-mini的結(jié)果。圖中每個(gè)彩色節(jié)點(diǎn)代表數(shù)據(jù)集中的一個(gè)問題序列,節(jié)點(diǎn)位置越高表示模型在該序列中連續(xù)解答正確的問題越多。
結(jié)果表明,這一指標(biāo)在不同任務(wù)之間差異明顯,對于大多數(shù)模型來說,邏輯推理任務(wù)上更難連續(xù)做對題目。
在思維型模型與非思維型模型之間,這一指標(biāo)的表現(xiàn)也存在顯著差異。結(jié)果發(fā)現(xiàn)思維型模型相比非思維型模型通常具有更高的連續(xù)正確解答數(shù)。這說明思維型模型不僅更能從先前經(jīng)驗(yàn)中受益提升表現(xiàn),還能保持更高的穩(wěn)定性,更有可能連續(xù)解答多個(gè)相關(guān)問題。
有趣的是,在摘要任務(wù)中,模型的N_consec值較高,但Acc_pw-K卻明顯下降,這表明其在序列后期的問題上表現(xiàn)反而不如前期問題。這意味著在此類任務(wù)中,連續(xù)解題能力可能更多依賴模型固有的知識和靜態(tài)能力,而不是從序列中學(xué)習(xí)到的經(jīng)驗(yàn)。
發(fā)現(xiàn)三:
學(xué)習(xí)能力為評估模型提供了一個(gè)獨(dú)立于靜態(tài)性能的新視角,揭示了其潛在的學(xué)習(xí)能力。
表2結(jié)果進(jìn)一步表明,并行解題的高表現(xiàn)不代表學(xué)習(xí)能力優(yōu)異。邏輯推理任務(wù)中,Claude-3。7-Sonnet-Thinking的并行表現(xiàn)不及DeepSeek-R1與Doubao-1。5-Thinking-Pro,但通過反饋學(xué)習(xí)范式大幅提升;o3-mini則在兩種設(shè)置下均表現(xiàn)最佳。再如數(shù)學(xué)推理任務(wù),DeepSeek-R1零樣本表現(xiàn)優(yōu)于o3-mini,卻未能從經(jīng)驗(yàn)中有效學(xué)習(xí),反而在反饋學(xué)習(xí)中性能下降。
值得注意的是,靜態(tài)能力相近的模型可能學(xué)習(xí)能力迥異:Claude-3。7-Sonnet-Thinking與GPT-4o在序列推理任務(wù)中零樣本準(zhǔn)確率均為31。7%,但前者提升14。5%,后者僅提升0。5%;而在數(shù)學(xué)推理中,GPT-4o的學(xué)習(xí)能力反超前者。這說明學(xué)習(xí)能力不僅因模型而異,也因任務(wù)而變。
這些發(fā)現(xiàn)表明,學(xué)習(xí)能力是評估模型的重要獨(dú)立維度,與靜態(tài)性能無關(guān)且具有任務(wù)差異性。研究者在問題三中進(jìn)一步分析不同學(xué)習(xí)范式下的模型表現(xiàn),為該結(jié)論提供了更多佐證。
研究問題二:
大語言模型在從一系列問題中
學(xué)習(xí)的效率如何?
圖4所有模型和任務(wù)在反饋學(xué)習(xí)中擬合的逐位置準(zhǔn)確率曲線斜率(k)結(jié)果
發(fā)現(xiàn)四:
不同模型和任務(wù)類型之間的學(xué)習(xí)效率存在顯著差異。
總體而言,多數(shù)非思維型模型在經(jīng)驗(yàn)積累中進(jìn)步更快,思維型模型則表現(xiàn)出更穩(wěn)定的收益。
圖2右側(cè)呈現(xiàn)了DeepSeek-R1的逐位準(zhǔn)確率曲線,圖4熱圖則匯總了這些曲線的斜率(k),直接反映模型學(xué)習(xí)效率。研究發(fā)現(xiàn),多數(shù)非思維型模型的逐位準(zhǔn)確率曲線斜率更陡峭,這可能與其起始性能較低、更易抓住“低垂的果實(shí)”有關(guān)。相比之下,思維型模型的學(xué)習(xí)過程更穩(wěn)定。這表明思維型模型更擅長利用先前問題的信息(包括評判模型反饋),從而實(shí)現(xiàn)更高效的推理與更穩(wěn)定的性能提升。
此外,多數(shù)模型在數(shù)學(xué)推理任務(wù)中展現(xiàn)正向?qū)W習(xí)效率,但在順序推理任務(wù)上普遍出現(xiàn)性能下降,這說明即便在有明確解題路徑與反饋的推理任務(wù)中,學(xué)習(xí)效率也會(huì)因任務(wù)特性產(chǎn)生顯著差異,受多重因素影響。
因此,我們可以得出結(jié)論:模型的學(xué)習(xí)效率受靜態(tài)能力、任務(wù)類型與推理方法共同影響:非思維型模型借助經(jīng)驗(yàn)實(shí)現(xiàn)快速提升,思維型模型則以更穩(wěn)定的方式持續(xù)進(jìn)步。
研究問題三:
不同的學(xué)習(xí)方式
是否會(huì)帶來性能差異?
發(fā)現(xiàn)五:
不同的解題方式會(huì)顯著影響模型性能。
模型可通過示例學(xué)習(xí)積累經(jīng)驗(yàn),反饋學(xué)習(xí)則能進(jìn)一步強(qiáng)化其學(xué)習(xí)能力。值得注意的是,學(xué)習(xí)能力與模型的靜態(tài)能力并無強(qiáng)相關(guān)性。
圖5呈現(xiàn)了模型在四種解題方法下的表現(xiàn)。研究者發(fā)現(xiàn),對多數(shù)模型而言,示例學(xué)習(xí)的效果通常優(yōu)于并行的少樣本學(xué)習(xí)。以Claude-3。7-Sonnet-Thinking為例,其在五個(gè)任務(wù)中相較于少樣本設(shè)置均實(shí)現(xiàn)持續(xù)提升。這背后的關(guān)鍵原因在于,示例學(xué)習(xí)讓模型能夠訪問序列中所有先前問題及標(biāo)準(zhǔn)答案,進(jìn)而從過往經(jīng)驗(yàn)中有效學(xué)習(xí)。
圖5四種求解方法的整體準(zhǔn)確率對比,包括兩種并行方法(即零樣本和少樣本)與兩種序列方法(即示例學(xué)習(xí)和反饋學(xué)習(xí))
此外,圖6、7、8比較了模型采用反饋學(xué)習(xí)與示例學(xué)習(xí)兩種學(xué)習(xí)范式后在熱身后準(zhǔn)確率(Acc_pw-K)和斜率k方面的差異。結(jié)果表明,對于大多數(shù)模型,反饋學(xué)習(xí)比示例學(xué)習(xí)能獲得更高的平均總體準(zhǔn)確率和更大的學(xué)習(xí)效率。
圖6所有模型和任務(wù)中,反饋學(xué)習(xí)與示例學(xué)習(xí)的斜率差異(Δk)熱圖
圖7反饋學(xué)習(xí)(上)和示范學(xué)習(xí)(下)的熱身后準(zhǔn)確率(Acc_pw-K)結(jié)果
值得注意的是,每個(gè)大模型在某些任務(wù)中都表現(xiàn)出較強(qiáng)的學(xué)習(xí)能力,但沒有任何模型能在所有任務(wù)中始終實(shí)現(xiàn)穩(wěn)定的學(xué)習(xí)提升。這些結(jié)果表明,每個(gè)模型都有其優(yōu)勢,學(xué)習(xí)能力與靜態(tài)表現(xiàn)之間并不強(qiáng)相關(guān)。因此,學(xué)習(xí)能力和效率提供了一個(gè)評估模型表現(xiàn)的新視角,有助于理解當(dāng)前模型與人類能力之間的差距。
發(fā)現(xiàn)六:
首個(gè)正確解答的位置平均值(P_first)在不同模型和任務(wù)之間存在差異,這一指標(biāo)揭示了模型的學(xué)習(xí)潛力。
研究人員們還分析了首個(gè)正確解答的位置平均值P_first,發(fā)現(xiàn)這一指標(biāo)對于不同任務(wù)之間的模型表現(xiàn)差異很大。例如,在邏輯推理序列中,大多數(shù)模型都難以早期解出首個(gè)問題,只有o3-mini和Doubao-1。5-Thinking-Pro能持續(xù)取得早期成功。九個(gè)模型中有七個(gè)在有反饋的情況下,能更早解出問題。
這表明,與僅提供標(biāo)準(zhǔn)答案相比,反饋更能促進(jìn)模型學(xué)習(xí)和掌握任務(wù)。例如,在邏輯推理任務(wù)中,o3-mini有時(shí)在只使用示例學(xué)習(xí)時(shí)無法解出任何問題,但在使用反饋學(xué)習(xí)后,能在每個(gè)序列中至少解出一個(gè)問題。因此,P_first能綜合反映模型的靜態(tài)能力、學(xué)習(xí)能力和學(xué)習(xí)速度,從而揭示其學(xué)習(xí)潛力。
結(jié)語
研究人員們提出了EvaLearn,這是一個(gè)新穎的基準(zhǔn)測試框架,用于在特定任務(wù)中對模型的學(xué)習(xí)能力和效率進(jìn)行序列化評估。
EvaLearn配備了一套全面的評估指標(biāo),揭示了在多種任務(wù)中,包括依賴思維過程和不依賴思維過程的任務(wù),前沿模型之間顯著的性能差異,這些指標(biāo)從多個(gè)角度全面評估了模型的學(xué)習(xí)表現(xiàn)。EvaLearn提供了更現(xiàn)實(shí)、動(dòng)態(tài)的評估方式,幫助研究人員更好地理解模型與人類之間的差距,推動(dòng)更強(qiáng)大模型的發(fā)展。
此外,研究者發(fā)現(xiàn),盡管某些模型能夠有效利用教師模型對先前解答的反饋來提升學(xué)習(xí)效果,但另一些模型卻難以從這類反饋中獲益。EvaLearn為評估大型語言模型的潛力提供了新的視角,是邁向動(dòng)態(tài)評估的重要開創(chuàng)性一步。
寵文:她卻落荒而逃:“說好了離婚不反悔的,你還是不是男人!”
入骨情深,七歲結(jié)緣誤惹天價(jià)總裁老公,終成眷屬!
五本現(xiàn)言甜寵文:總裁男神花式寵溺,得手傻白甜嬌妻,寵妻無下限
免責(zé)聲明:本文內(nèi)容由開放的智能模型自動(dòng)生成,僅供參考。