謝玉芳
在三個月前,OpenAI研究員ShunyuYao發(fā)表了一篇關(guān)于AI的下半場的博客引起了廣泛討論。他在博客中指出,AI研究正在從“能不能做”轉(zhuǎn)向“學(xué)得是否有效”,傳統(tǒng)的基準測試已經(jīng)難以衡量AI的實際效用,他指出現(xiàn)有的評估方式中,模型被要求獨立完成每個任務(wù),然后取平均得分。這種方式忽略了任務(wù)之間的連貫性,無法評估模型長期適應(yīng)能力和更類人的動態(tài)學(xué)習(xí)能力。
圖出自ShunyuYaoBlog:Thesecondhalf
什么是更類人的動態(tài)學(xué)習(xí)能力?不妨想象一下,一位學(xué)生在做數(shù)學(xué)題時,通過前面題目的解答經(jīng)驗,逐漸掌握更高效的解題方法,在后續(xù)題目中表現(xiàn)越來越好。這種在實踐中不斷優(yōu)化策略、提升能力的過程,正是人類智能靈活性與適應(yīng)性的體現(xiàn)。
而對于LLM而言,能否具備類似的“成長”能力,關(guān)乎其能否真正邁向通用人工智能的殿堂。但長期以來,由于缺乏有效的評估手段,這一重要維度始終隱藏在迷霧之中。
來自復(fù)旦大學(xué)自然語言處理實驗室和字節(jié)跳動Seed等單位的研究人員,共同提出了一種全新的大模型評測范式:EvaLearn——一個評估大模型學(xué)習(xí)能力與學(xué)習(xí)效率的開創(chuàng)性基準,為理解模型的類人學(xué)習(xí)潛力提供了全新視角。
作為首個專注于量化LLM學(xué)習(xí)能力與效率的基準,EvaLearn以「連續(xù)問題求解」為核心,重新定義了大語言模型的評估邏輯。目前該項目開源僅一個月,官方倉庫的星標數(shù)便突破400+,讓我們來看看這個工作為何廣受關(guān)注。
論文鏈接:https://arxiv.org/pdf/2506.02672項目鏈接:https://github.com/ByteDance-Seed/EvaLearn
傳統(tǒng)基準的局限顯而易見:它們將問題視為孤立樣本,模型無法從之前的解答中積累經(jīng)驗,自然也無從評估其「學(xué)習(xí)效率」與「適應(yīng)能力」。
EvaLearn從零構(gòu)建了648個具有挑戰(zhàn)性的問題,將這些問題組織為182個序列,每個序列包含來自同一任務(wù)類型的7個問題,要求模型按順序求解——前序問題的經(jīng)驗,將直接影響后續(xù)表現(xiàn)的評估。
圖1EvaLearn的評估流程
在評測方面,如上圖所示,EvaLearn不采用并行評估方式,而是要求模型按順序解決問題,從而系統(tǒng)地評估大語言模型(LLM)的學(xué)習(xí)能力和效率。
這648個高難度問題覆蓋六大核心任務(wù):
摘要(Sum):評估模型能否通過利用先前經(jīng)驗提高總結(jié)的準確性和覆蓋范圍;分類(Cla):評估模型從解決一系列分類問題中提升其分類技能的能力;信息抽?。‥x):衡量模型能否逐步提高關(guān)鍵信息提取的準確性和完整性;邏輯推理(LR):測試模型能否從先前錯誤中學(xué)習(xí)并提高邏輯推理能力;數(shù)學(xué)推理(MR):檢驗?zāi)P湍芊裢ㄟ^利用早期問題的反饋快速掌握數(shù)學(xué)解題方法;序列推理(SR):評估模型能否通過從歷史經(jīng)驗中學(xué)習(xí)來增強其解決基于序列問題的能力,包括理清事件步驟和推理邏輯。
每個問題都配有一個由專業(yè)標注員編寫的細致評分標準(rubric),結(jié)合GPT-4o作為「驗證器」,來判斷模型生成的答案的正確性。經(jīng)過大量實驗,基于rubric的驗證器,在評價各種水平的模型時,評估準確率均超過95%。這實現(xiàn)了高效的自動化評測。
研究團隊EvaLearn上對九個前沿大語言模型進行了全面研究,總結(jié)了幾個關(guān)鍵發(fā)現(xiàn):
(1)模型在不同任務(wù)類型中展現(xiàn)出多樣的學(xué)習(xí)能力。大部分模型通常更擅長利用先前經(jīng)驗來解決涉及數(shù)學(xué)和邏輯推理的任務(wù),而諸如總結(jié)之類的任務(wù)則更傾向于依賴在預(yù)訓(xùn)練期間獲取的知識以及模型的固有能力。此外,不同任務(wù)的學(xué)習(xí)效率也有顯著差異。
(2)基于思維鏈的大語言模型在學(xué)習(xí)能力和學(xué)習(xí)效率上通常優(yōu)于非基于思維鏈的大語言模型。它們能更好地利用經(jīng)驗解決新問題,并且表現(xiàn)出更高的學(xué)習(xí)穩(wěn)定性,更有可能在一系列任務(wù)中連續(xù)解決多個問題。
(3)反饋學(xué)習(xí)(即將來自驗證器的評價和反饋作為上下文提供)能讓模型借助對先前解決方案的反饋及基于評分標準的評估來優(yōu)化問題解決,顯著提升學(xué)習(xí)能力與效率。相較于示例學(xué)習(xí)(指將先前的問題和規(guī)范解決方案作為上下文提供),反饋學(xué)習(xí)的效果更為顯著。
(4)學(xué)習(xí)能力和學(xué)習(xí)效率的指標共同提供了對模型學(xué)習(xí)潛力的全面評估,兩種動態(tài)能力與靜態(tài)模型能力沒有很強的相關(guān)性。即使是靜態(tài)性能較高的大語言模型,也并非在所有任務(wù)的學(xué)習(xí)能力上都具有明顯優(yōu)勢。
評估指標
為了評價模型的學(xué)習(xí)能力和學(xué)習(xí)潛力,EvaLearn設(shè)計了一套全面的評估指標體系,從多個維度刻畫模型的動態(tài)學(xué)習(xí)能力:
整體序列準確率(Acc):連續(xù)任務(wù)中,模型答對的總題數(shù)占總題數(shù)的比例,直接反映整體表現(xiàn),值越高越好。準確率曲線斜率(k):通過擬合各位置的準確率變化曲線,斜率k體現(xiàn)學(xué)習(xí)速度,k越大,說明模型從前期問題中學(xué)習(xí)越快,后續(xù)準確率提升越明顯。首次正確位置(P_first):模型第一次答對問題的位置,P_first值越小,說明越快找到解題思路。連續(xù)正確次數(shù)(N_consec):用于評估模型學(xué)習(xí)的穩(wěn)定性與經(jīng)驗復(fù)用能力。模型連續(xù)答對的題數(shù),值越高,說明學(xué)習(xí)穩(wěn)定性越強,能更好復(fù)用已有經(jīng)驗。熱身后準確率(Acc_pw-K):該指標重點關(guān)注模型在經(jīng)過一定數(shù)量問題的“熱身”后,積累了一定經(jīng)驗時的準確率表現(xiàn)。它體現(xiàn)了模型在適應(yīng)任務(wù)、積累經(jīng)驗后的實際適應(yīng)與提升水平,排除了模型初始狀態(tài)對整體評估的干擾。
大模型在EvaLearn上的表現(xiàn)
研究人員們比較兩種問題求解范式:并行求解和順序求解,以研究大語言模型的學(xué)習(xí)能力和效率。
并行求解(ParallelSolving)
零樣本(Zero-shot):模型獨立地解決每個問題,無法訪問之前問題的任何經(jīng)驗。這種設(shè)置與多數(shù)現(xiàn)有基準測試方法一致,評估模型在無學(xué)習(xí)機會下解決復(fù)雜問題的固有能力。
少樣本(Few-shot):針對每個問題,模型會獲得三個來自同一任務(wù)的示例(即3-shot),以指導(dǎo)輸出格式和解題方法。每類任務(wù)內(nèi)的問題共享相同的示例。
順序求解(SequentialSolving)
示例學(xué)習(xí)(DemonstrationLearning):在解決當前問題之前,模型會獲得同一序列中之前所有問題及其標準答案,類似于上下文學(xué)習(xí)。
反饋學(xué)習(xí)(FeedbackLearning):在解決當前問題時,模型可以訪問之前所有問題、它們的解答以及針對模型自身前次解答的詳細反饋。這些反饋是由評審使用實例級評分標準生成的。本設(shè)置評估模型是否能利用自身經(jīng)驗改善隨后的表現(xiàn)。系統(tǒng)提示如圖22所示。
研究者在所有實驗中評估了九個最前沿的LLMs,包括“思維型”和“非思維型”模型,結(jié)果如表1。
表1:反饋學(xué)習(xí)與零樣本并行求解之間的整體準確率差異
研究問題一:
LLMs能否通過問題序列進行學(xué)習(xí)?
發(fā)現(xiàn)一:
LLMs在從問題序列中學(xué)習(xí)的能力存在差異,且這種差異不僅體現(xiàn)在模型之間,也體現(xiàn)在任務(wù)類型之間。此外,大多數(shù)模型在“熱身階段”后表現(xiàn)更佳。
表1總結(jié)了反饋學(xué)習(xí)與零樣本并行求解之間的整體準確率差異。研究者觀察到,有五個模型從順序?qū)W習(xí)中獲益,有四個模型表現(xiàn)略有下降,思維型模型在表現(xiàn)上變化更顯著,例如OpenAI-o3-mini在整體上提升了+10.5%,為提升幅度最大者。這說明某些模型可以有效利用先前的經(jīng)驗來解決同一任務(wù)中的問題。
在任務(wù)類型方面,大多數(shù)LLMs在數(shù)學(xué)推理和分類任務(wù)中通過學(xué)習(xí)獲得了提升。但在摘要任務(wù)中,大多數(shù)模型表現(xiàn)下降(9個模型中有7個下降),這可能是因為摘要任務(wù)更依賴模型預(yù)訓(xùn)練時獲得的知識和指令遵循能力,額外引入的經(jīng)驗反而會干擾模型完成任務(wù)。
此外,研究人員還對“熱身后準確率(Acc_pw-K)”進行了分析,結(jié)果發(fā)現(xiàn)多數(shù)模型在序列后期表現(xiàn)更為出色,特別是思維型模型。這意味著它們能夠?qū)⒃缙趩栴}當作練習(xí),不斷優(yōu)化自身,進而提升后續(xù)任務(wù)的表現(xiàn),圖3左側(cè)清晰地展現(xiàn)了這一現(xiàn)象。
圖2左側(cè)為Claude-3.7-Sonnet-Thinking的熱身后準確率結(jié)果,右側(cè)為DeepSeek-R1的逐位置準確率結(jié)果
發(fā)現(xiàn)二:
學(xué)習(xí)穩(wěn)定性在不同任務(wù)和模型之間差異顯著。對于某些任務(wù)(如摘要),當前的模型更擅長利用其固有知識來解決問題,而不是依賴從先前問題中獲得的經(jīng)驗。
圖3左側(cè)為連續(xù)正確解的平均數(shù)量(N_consec),右側(cè)為首次正確解的平均位置(P_first)。結(jié)果以O(shè)penAI-o3-mini為例展示,每個節(jié)點代表一個序列。
研究者通過分析N_consec指標來進一步研究LLMs的學(xué)習(xí)穩(wěn)定性。圖2左側(cè)顯示了o3-mini的結(jié)果。圖中每個彩色節(jié)點代表數(shù)據(jù)集中的一個問題序列,節(jié)點位置越高表示模型在該序列中連續(xù)解答正確的問題越多。
結(jié)果表明,這一指標在不同任務(wù)之間差異明顯,對于大多數(shù)模型來說,邏輯推理任務(wù)上更難連續(xù)做對題目。
在思維型模型與非思維型模型之間,這一指標的表現(xiàn)也存在顯著差異。結(jié)果發(fā)現(xiàn)思維型模型相比非思維型模型通常具有更高的連續(xù)正確解答數(shù)。這說明思維型模型不僅更能從先前經(jīng)驗中受益提升表現(xiàn),還能保持更高的穩(wěn)定性,更有可能連續(xù)解答多個相關(guān)問題。
有趣的是,在摘要任務(wù)中,模型的N_consec值較高,但Acc_pw-K卻明顯下降,這表明其在序列后期的問題上表現(xiàn)反而不如前期問題。這意味著在此類任務(wù)中,連續(xù)解題能力可能更多依賴模型固有的知識和靜態(tài)能力,而不是從序列中學(xué)習(xí)到的經(jīng)驗。
發(fā)現(xiàn)三:
學(xué)習(xí)能力為評估模型提供了一個獨立于靜態(tài)性能的新視角,揭示了其潛在的學(xué)習(xí)能力。
表2結(jié)果進一步表明,并行解題的高表現(xiàn)不代表學(xué)習(xí)能力優(yōu)異。邏輯推理任務(wù)中,Claude-3。7-Sonnet-Thinking的并行表現(xiàn)不及DeepSeek-R1與Doubao-1。5-Thinking-Pro,但通過反饋學(xué)習(xí)范式大幅提升;o3-mini則在兩種設(shè)置下均表現(xiàn)最佳。再如數(shù)學(xué)推理任務(wù),DeepSeek-R1零樣本表現(xiàn)優(yōu)于o3-mini,卻未能從經(jīng)驗中有效學(xué)習(xí),反而在反饋學(xué)習(xí)中性能下降。
值得注意的是,靜態(tài)能力相近的模型可能學(xué)習(xí)能力迥異:Claude-3。7-Sonnet-Thinking與GPT-4o在序列推理任務(wù)中零樣本準確率均為31。7%,但前者提升14。5%,后者僅提升0。5%;而在數(shù)學(xué)推理中,GPT-4o的學(xué)習(xí)能力反超前者。這說明學(xué)習(xí)能力不僅因模型而異,也因任務(wù)而變。
這些發(fā)現(xiàn)表明,學(xué)習(xí)能力是評估模型的重要獨立維度,與靜態(tài)性能無關(guān)且具有任務(wù)差異性。研究者在問題三中進一步分析不同學(xué)習(xí)范式下的模型表現(xiàn),為該結(jié)論提供了更多佐證。
研究問題二:
大語言模型在從一系列問題中
學(xué)習(xí)的效率如何?
圖4所有模型和任務(wù)在反饋學(xué)習(xí)中擬合的逐位置準確率曲線斜率(k)結(jié)果
發(fā)現(xiàn)四:
不同模型和任務(wù)類型之間的學(xué)習(xí)效率存在顯著差異。
總體而言,多數(shù)非思維型模型在經(jīng)驗積累中進步更快,思維型模型則表現(xiàn)出更穩(wěn)定的收益。
圖2右側(cè)呈現(xiàn)了DeepSeek-R1的逐位準確率曲線,圖4熱圖則匯總了這些曲線的斜率(k),直接反映模型學(xué)習(xí)效率。研究發(fā)現(xiàn),多數(shù)非思維型模型的逐位準確率曲線斜率更陡峭,這可能與其起始性能較低、更易抓住“低垂的果實”有關(guān)。相比之下,思維型模型的學(xué)習(xí)過程更穩(wěn)定。這表明思維型模型更擅長利用先前問題的信息(包括評判模型反饋),從而實現(xiàn)更高效的推理與更穩(wěn)定的性能提升。
此外,多數(shù)模型在數(shù)學(xué)推理任務(wù)中展現(xiàn)正向?qū)W習(xí)效率,但在順序推理任務(wù)上普遍出現(xiàn)性能下降,這說明即便在有明確解題路徑與反饋的推理任務(wù)中,學(xué)習(xí)效率也會因任務(wù)特性產(chǎn)生顯著差異,受多重因素影響。
因此,我們可以得出結(jié)論:模型的學(xué)習(xí)效率受靜態(tài)能力、任務(wù)類型與推理方法共同影響:非思維型模型借助經(jīng)驗實現(xiàn)快速提升,思維型模型則以更穩(wěn)定的方式持續(xù)進步。
研究問題三:
不同的學(xué)習(xí)方式
是否會帶來性能差異?
發(fā)現(xiàn)五:
不同的解題方式會顯著影響模型性能。
模型可通過示例學(xué)習(xí)積累經(jīng)驗,反饋學(xué)習(xí)則能進一步強化其學(xué)習(xí)能力。值得注意的是,學(xué)習(xí)能力與模型的靜態(tài)能力并無強相關(guān)性。
圖5呈現(xiàn)了模型在四種解題方法下的表現(xiàn)。研究者發(fā)現(xiàn),對多數(shù)模型而言,示例學(xué)習(xí)的效果通常優(yōu)于并行的少樣本學(xué)習(xí)。以Claude-3。7-Sonnet-Thinking為例,其在五個任務(wù)中相較于少樣本設(shè)置均實現(xiàn)持續(xù)提升。這背后的關(guān)鍵原因在于,示例學(xué)習(xí)讓模型能夠訪問序列中所有先前問題及標準答案,進而從過往經(jīng)驗中有效學(xué)習(xí)。
圖5四種求解方法的整體準確率對比,包括兩種并行方法(即零樣本和少樣本)與兩種序列方法(即示例學(xué)習(xí)和反饋學(xué)習(xí))
此外,圖6、7、8比較了模型采用反饋學(xué)習(xí)與示例學(xué)習(xí)兩種學(xué)習(xí)范式后在熱身后準確率(Acc_pw-K)和斜率k方面的差異。結(jié)果表明,對于大多數(shù)模型,反饋學(xué)習(xí)比示例學(xué)習(xí)能獲得更高的平均總體準確率和更大的學(xué)習(xí)效率。
圖6所有模型和任務(wù)中,反饋學(xué)習(xí)與示例學(xué)習(xí)的斜率差異(Δk)熱圖
圖7反饋學(xué)習(xí)(上)和示范學(xué)習(xí)(下)的熱身后準確率(Acc_pw-K)結(jié)果
值得注意的是,每個大模型在某些任務(wù)中都表現(xiàn)出較強的學(xué)習(xí)能力,但沒有任何模型能在所有任務(wù)中始終實現(xiàn)穩(wěn)定的學(xué)習(xí)提升。這些結(jié)果表明,每個模型都有其優(yōu)勢,學(xué)習(xí)能力與靜態(tài)表現(xiàn)之間并不強相關(guān)。因此,學(xué)習(xí)能力和效率提供了一個評估模型表現(xiàn)的新視角,有助于理解當前模型與人類能力之間的差距。
發(fā)現(xiàn)六:
首個正確解答的位置平均值(P_first)在不同模型和任務(wù)之間存在差異,這一指標揭示了模型的學(xué)習(xí)潛力。
研究人員們還分析了首個正確解答的位置平均值P_first,發(fā)現(xiàn)這一指標對于不同任務(wù)之間的模型表現(xiàn)差異很大。例如,在邏輯推理序列中,大多數(shù)模型都難以早期解出首個問題,只有o3-mini和Doubao-1。5-Thinking-Pro能持續(xù)取得早期成功。九個模型中有七個在有反饋的情況下,能更早解出問題。
這表明,與僅提供標準答案相比,反饋更能促進模型學(xué)習(xí)和掌握任務(wù)。例如,在邏輯推理任務(wù)中,o3-mini有時在只使用示例學(xué)習(xí)時無法解出任何問題,但在使用反饋學(xué)習(xí)后,能在每個序列中至少解出一個問題。因此,P_first能綜合反映模型的靜態(tài)能力、學(xué)習(xí)能力和學(xué)習(xí)速度,從而揭示其學(xué)習(xí)潛力。
結(jié)語
研究人員們提出了EvaLearn,這是一個新穎的基準測試框架,用于在特定任務(wù)中對模型的學(xué)習(xí)能力和效率進行序列化評估。
EvaLearn配備了一套全面的評估指標,揭示了在多種任務(wù)中,包括依賴思維過程和不依賴思維過程的任務(wù),前沿模型之間顯著的性能差異,這些指標從多個角度全面評估了模型的學(xué)習(xí)表現(xiàn)。EvaLearn提供了更現(xiàn)實、動態(tài)的評估方式,幫助研究人員更好地理解模型與人類之間的差距,推動更強大模型的發(fā)展。
此外,研究者發(fā)現(xiàn),盡管某些模型能夠有效利用教師模型對先前解答的反饋來提升學(xué)習(xí)效果,但另一些模型卻難以從這類反饋中獲益。EvaLearn為評估大型語言模型的潛力提供了新的視角,是邁向動態(tài)評估的重要開創(chuàng)性一步。
從打工者到創(chuàng)業(yè)先鋒:一位普通青年加盟尊寶比薩的故事
最近幾年,正新雞排成為了街頭巷尾常見的美食之一。它的火爆讓很多人看到了創(chuàng)業(yè)的機會,而一位普通人的開店經(jīng)歷更是讓人感慨萬千。這位創(chuàng)業(yè)者從零開始,最終用自己的努力在正新雞排這個平臺上實現(xiàn)了夢想--。初入正新雞排:選擇與期待起初,這位創(chuàng)業(yè)者并沒有太多餐飲行業(yè)的經(jīng)驗。他只是在路過一家正新雞排門店時,被店內(nèi)有幫助請點贊——。
普通人的創(chuàng)業(yè)坦白局:我靠 5000 塊啟動金逆襲的真相
可開店的人太多了,競爭激烈,我的生意并不好做|。一個偶然的機會,我在批發(fā)市場看到有賣情趣內(nèi)衣的攤位,款式雖說另類,但我感覺,這個方向不失為一個新路子,畢竟少有人敢碰這個領(lǐng)域-。我囤了一批“特別”的衣物上架,沒想到還真吸引了不少客戶,銷量漸漸多了起來。因為這類商品算冷門,大家普遍有好奇心理,加上到此結(jié)束了?-。
98年小伙每天2小時開網(wǎng)店月入5萬,有哪些啟示?
沒想到生意出奇的好,開店第一天就賣出了300張餅,一周后日銷量漲至600張以上,第一年營業(yè)額就達到了110萬元。后來,有人主動找上門求加盟,經(jīng)過摸索,他采用標準化生產(chǎn)的經(jīng)營方式,保證質(zhì)量和口味,至今已有50多家加盟店,并計劃今年開到100家店-_。看了這位90后的創(chuàng)業(yè)經(jīng)歷后,網(wǎng)友們爭議很大,有佩服的也有懷疑的——-。..
來源:紅網(wǎng)
作者:倪雨華
編輯:譙高陽
本文為紅辣椒評論 原創(chuàng)文章,僅系作者個人觀點,不代表紅網(wǎng)立場。轉(zhuǎn)載請附原文出處鏈接和本聲明。