本文第一作者王少博為上海交通大學(xué)博士生,現(xiàn)于阿里Qwen團(tuán)隊(duì)實(shí)習(xí),此前有CVPR滿分一作論文。通訊作者為其導(dǎo)師、上海交大助理教授張林峰。本文其他作者來(lái)自上交EPICLab、NTU、NUS、微軟、上海AILab、港科大(廣州)等。
從未微調(diào)目標(biāo)數(shù)據(jù)集,一個(gè)預(yù)訓(xùn)練模型竟能自己篩選出「黃金訓(xùn)練樣本」?
上海交通大學(xué)等團(tuán)隊(duì)提出DataWhisperer——首個(gè)免訓(xùn)練的注意力驅(qū)動(dòng)數(shù)據(jù)選擇框架。它直接利用預(yù)訓(xùn)練模型的上下文學(xué)習(xí)(ICL)能力,無(wú)需額外微調(diào)打分模型,僅用10%數(shù)據(jù)就能讓微調(diào)效果逼近全量數(shù)據(jù)!
就像一位精通教學(xué)的導(dǎo)師,看一眼題庫(kù)就知道該讓學(xué)生重點(diǎn)練什么題。
論文標(biāo)題:DataWhisperer:EfficientDataSelectionforTask-SpecificLLMFine-TuningviaFew-ShotIn-ContextLearning論文鏈接:arxiv.org/pdf/2505.12212GitHub地址:gszfwsb/Data-Whisperer關(guān)鍵詞:數(shù)據(jù)選擇、上下文學(xué)習(xí)、小樣本泛化、結(jié)構(gòu)對(duì)齊
精調(diào)大模型,數(shù)據(jù)挑對(duì)才關(guān)鍵
模型說:「別給我扔幾百萬(wàn)條數(shù)據(jù)了,你先告訴我哪些題值得看!」
傳統(tǒng)的數(shù)據(jù)選擇方法:
要先訓(xùn)練個(gè)打分模型;要調(diào)一堆啟發(fā)式參數(shù);要花一堆時(shí)間還不一定好用;
而DataWhisperer就像摸魚同學(xué)中的學(xué)霸——不看全書也能穩(wěn)拿高分。
方法機(jī)制:只靠模型自身,打分挑數(shù)據(jù)
DataWhisperer是一種以大模型自身為評(píng)估器、完全免訓(xùn)練的數(shù)據(jù)子集選擇方法。
1.ICL少樣本構(gòu)建
隨機(jī)采樣若干「示范樣本」和「查詢樣本」,構(gòu)建ICL提示;讓待精調(diào)的大模型嘗試回答這些查詢?nèi)蝿?wù);根據(jù)回答質(zhì)量,給每個(gè)「示范樣本」打一個(gè)分。
2.引入注意力感知權(quán)重
為了讓「題目權(quán)重」更加合理,DataWhisperer不只看輸出結(jié)果;它利用Transformer的注意力權(quán)重,度量每個(gè)示例對(duì)模型推理的「影響力」;最終打分由模型輸出與注意力貢獻(xiàn)共同決定,更穩(wěn)定、更合理。
這種打分機(jī)制是完全無(wú)需訓(xùn)練、無(wú)需人工標(biāo)注的!
DataWhisperer不是「拍腦袋選題」,理論也站得住腳!
在傳統(tǒng)精調(diào)中,模型通過梯度下降顯式更新參數(shù),比如注意力權(quán)重的關(guān)鍵值(Key)矩陣W_K和數(shù)值(Value)矩陣W_V:
而在ICL過程中,雖然模型參數(shù)固定不變,但通過上下文中的示例(demonstrationtokens)對(duì)注意力進(jìn)行加權(quán),使得模型在預(yù)測(cè)時(shí)行為發(fā)生了「類精調(diào)」式的變化:
也就是說,ICL就像是在不動(dòng)參數(shù)的前提下,用「語(yǔ)言上下文」在行為上更新了模型。
精調(diào)誰(shuí)還全訓(xùn)?我10%數(shù)據(jù)照樣打贏!
讓我們看看DataWhisperer的「壓軸戰(zhàn)績(jī)」:
GSM8K數(shù)學(xué)題:10%數(shù)據(jù)打出72.46%,還比全量數(shù)據(jù)(71.39%)更高;DialogSum總結(jié)任務(wù):用Qwen模型達(dá)到43%,比最強(qiáng)SOTA方法高出2.5個(gè)點(diǎn);BioInstruct任務(wù)也同樣提升顯著。
別人還在選題,我已經(jīng)開始精調(diào)了
DataWhisperer引入了一個(gè)新的效率指標(biāo):Selection-to-TuningRatio(STR),即選擇過程耗時(shí)與全量精調(diào)耗時(shí)之比。
在該指標(biāo)下,DataWhisperer以STR≈0.03~0.2的水平,大幅領(lǐng)先現(xiàn)有所有方法。相比之下,許多傳統(tǒng)方法(如Nuggets)STR>1,意味著「選題還不如直接精調(diào)快」。
DataWhisperer用極低成本完成了模型適配所需的「預(yù)判題型」工作。
小模型選題,大模型精調(diào),誰(shuí)用誰(shuí)知道!
DataWhisperer支持弱模型作為「選題器」,強(qiáng)模型作為「學(xué)習(xí)者」的弱選強(qiáng)訓(xùn)(weak-to-strong)機(jī)制。
例如,使用Qwen-2.5-3B-Instruct選題、再用Qwen-2.5-7B-Instruct精調(diào),最終性能幾乎不降,卻帶來(lái)更低計(jì)算負(fù)擔(dān)。
DataWhisperer成功實(shí)現(xiàn)了從小模型到大模型間的「知識(shí)前置遷移」,適用于資源受限場(chǎng)景下的精調(diào)任務(wù)。
演示題和查詢題怎么配?精細(xì)搭配才能挑好!
DataWhisperer進(jìn)一步分析了ICL中示例(n_d)與查詢(n_q)數(shù)量對(duì)選擇效果的影響。
結(jié)果顯示,n_d=10、n_q=5是穩(wěn)定優(yōu)選配置。在此之后增加樣本數(shù)量,效果提升趨于飽和。
這表明DataWhisperer對(duì)輸入規(guī)模具有良好的魯棒性,不是靠堆樣本,而是真挑核心
哪層注意力最好用?
DataWhisperer的注意力打分依賴于Transformer的層級(jí)結(jié)構(gòu)。作者分別測(cè)試了淺層、中層、深層注意力用于打分的效果。
結(jié)果發(fā)現(xiàn),中間層(如Layer13)提供的語(yǔ)義信息更穩(wěn)定,選題效果更佳,符合語(yǔ)言模型內(nèi)部語(yǔ)義聚合的層次分布規(guī)律。
DataWhisperer巧妙借力模型結(jié)構(gòu),使「注意力」真正發(fā)揮了「注意」的功能。
模型偏好什么題?簡(jiǎn)單好懂才是王道
進(jìn)一步的分析中,作者使用GPT-4o-mini對(duì)被選中樣本的困惑度(perplexity)進(jìn)行了評(píng)估。
發(fā)現(xiàn)DataWhisperer傾向選擇困惑度較低的樣本,說明模型更喜歡「簡(jiǎn)單題」,也符合Sorscher等人在小樣本學(xué)習(xí)中的「易例優(yōu)先」理論。
對(duì)比分析:到底比哪些方法強(qiáng)?
DataWhisperer在所有主流數(shù)據(jù)選擇方法對(duì)比中均展現(xiàn)出領(lǐng)先效果:
GraNd:基于梯度;EL2N:基于預(yù)測(cè)誤差;CCS:注重多樣性;Nuggets:需要額外精調(diào)打分器;STAFF:組合打分策略。
DataWhisperer在準(zhǔn)確率、效率、穩(wěn)定性三個(gè)維度全面領(lǐng)先,尤其在低預(yù)算(1%、5%、10%)場(chǎng)景中優(yōu)勢(shì)明顯。
DataWhisperer的秘訣:ICL就是精調(diào)的「影子」
DataWhisperer并非經(jīng)驗(yàn)規(guī)則,而是基于理論支撐。
論文從注意力機(jī)制視角出發(fā),分析了ICL過程中上下文樣本對(duì)模型輸出的影響,實(shí)質(zhì)上等價(jià)于一種隱式的參數(shù)更新
ICL調(diào)整注意力權(quán)重≈Fine-Tuning調(diào)整參數(shù)矩陣
兩者都是為了「讓模型在未來(lái)輸入中表現(xiàn)更好」。
這一結(jié)構(gòu)上的對(duì)應(yīng)性解釋了DataWhisperer能有效選出訓(xùn)練子集:它無(wú)需調(diào)模型參數(shù),就能「預(yù)訓(xùn)」出訓(xùn)練效益
啟示與未來(lái)方向
DataWhisperer所倡導(dǎo)的是一種新范式:結(jié)構(gòu)感知、推理驅(qū)動(dòng)的數(shù)據(jù)選擇方法,為L(zhǎng)LM訓(xùn)練過程引入「自解釋、自判斷」的機(jī)制。
值得注意的是,字節(jié)Seed最新的工作(https://arxiv.org/abs/2505.07293),也用了類似few-shot和attention結(jié)合的方法。
接下來(lái)值得探索的方向包括:
1.將方法遷移至法律、醫(yī)療、工程等復(fù)雜結(jié)構(gòu)任務(wù);
2.引入人類反饋或語(yǔ)言理解偏好,進(jìn)一步增強(qiáng)「任務(wù)對(duì)齊」能力;
3.結(jié)合prompt工程,控制示例順序以提升效果;
4.與合成數(shù)據(jù)方法融合,構(gòu)建任務(wù)驅(qū)動(dòng)的多源樣本庫(kù)。
總之,DataWhisperer并不是簡(jiǎn)單優(yōu)化效率的技巧,而是揭示了一個(gè)事實(shí):
任務(wù)對(duì)齊不必依賴人類標(biāo)簽、不必堆數(shù)據(jù)量。結(jié)構(gòu)化的推理機(jī)制與任務(wù)映射,本身就可以引導(dǎo)模型學(xué)習(xí)方向
未來(lái)的大模型訓(xùn)練也許不再是「知道做什么」,而是「知道問什么」。
葉琈珣 上一世善待姨娘, 友善庶妹, 卻不想, 姨娘偽善, 庶妹狠毒, 害她母親胞弟, 污蔑舅舅一家, 害其滿門將抄斬, 將她釘在地牢之中, 毀她絕世容顏 再次醒來(lái), 她回到十五歲那年, 舅舅凱旋歸朝, 弟弟還健在, 一朝回京, 只為復(fù)仇, 姨娘人面獸心, 她就手撕面具 庶妹兩面三刀, 陰狠手辣, 她就步步回?fù)簦?刀刀致命。 渣爹虛偽, 她不再心慈手軟 因?yàn)樗溃?對(duì)敵人手軟, 就是將自己推向深淵, 萬(wàn)劫不復(fù)。 這一世, 她寧愿負(fù)天下人, 不叫天下人負(fù)她; 這一世, 且看他翻手為云覆手為雨; 這一世, 他定要要扭轉(zhuǎn)乾坤! 一朝歸來(lái), 滿城煙雨!免責(zé)聲明:本文內(nèi)容由開放的智能模型自動(dòng)生成,僅供參考。