RefineX團隊投稿量子位|公眾號QbitAI
在噪聲污染嚴重影響預(yù)訓(xùn)練數(shù)據(jù)的質(zhì)量時,如何能夠高效且精細地精煉數(shù)據(jù)?
中科院計算所與阿里Qwen等團隊聯(lián)合提出RefineX,一個通過程序化編輯任務(wù)實現(xiàn)大規(guī)模、精準預(yù)訓(xùn)練數(shù)據(jù)精煉的新框架。
其核心優(yōu)勢在于:將專家指導(dǎo)的高質(zhì)量端到端優(yōu)化結(jié)果,蒸餾為極簡的基于編輯操作的刪除程序。
通過這一高精度蒸餾流程,可以訓(xùn)練出高效可靠的優(yōu)化模型(refinemodel),系統(tǒng)地優(yōu)化語料中的每個實例。
在高效精煉數(shù)據(jù)的同時,可靠地保留原始文本的多樣性和自然性。
用RefineX凈化后的20Btoken數(shù)據(jù)訓(xùn)練750M模型時,其在常識推理、科學(xué)問答等10項任務(wù)的平均得分達到44.7,較原始數(shù)據(jù)提升7.2%。
大模型的預(yù)訓(xùn)練數(shù)據(jù)
預(yù)訓(xùn)練數(shù)據(jù)的質(zhì)量直接決定了模型的知識深度與推理能力上限。
當(dāng)互聯(lián)網(wǎng)成為海量訓(xùn)練數(shù)據(jù)的來源,噪聲污染也隨之而來——植入的廣告、破碎的HTML標(biāo)簽、無意義的亂碼等,不僅降低數(shù)據(jù)效用,更可能引發(fā)模型幻覺。
然而,大規(guī)模的去除這些噪聲來提升預(yù)訓(xùn)練數(shù)據(jù)的質(zhì)量是十分困難的,因為同時要兼顧兩個要素:
高效:由于數(shù)據(jù)規(guī)模龐大,精煉必須能夠高效低成本的進行可靠:精煉應(yīng)該最大化的保留有價值信息,并不引入額外的模型或人工偏好而破壞原始數(shù)據(jù)的本質(zhì)。
傳統(tǒng)數(shù)據(jù)精煉方案主要集中于規(guī)則過濾和端到端重寫。但是,規(guī)則過濾(如C4/Gopher)只能文檔級粗篩選擇,誤傷高價值內(nèi)容,且無法做到字符級的精準修正;端到端重寫盡管重寫質(zhì)量高,但推理成本極高,無法應(yīng)用于大規(guī)模數(shù)據(jù)。
更危險的是,端到端重寫過程常擅自修改術(shù)語與句式從而引入模型偏好的不可控性,如:
原始:“Climatechange[廣告]impactstheenvironment”重寫:“Climatechangeimpactsecosystems”#篡改關(guān)鍵術(shù)語
而RefineX框架受ProX等新興工作的啟發(fā),選擇了一條新的去噪路徑:
上圖展示了基于程序的精煉流程,以及ProX和RefineX中精煉模型的訓(xùn)練數(shù)據(jù)構(gòu)建比較。
ProX的限制在于直接訓(xùn)練來自專家輸出的噪聲精煉程序,復(fù)雜的prompt組合極大增加了這項任務(wù)的生成難度,從而降低蒸餾數(shù)據(jù)質(zhì)量。
而RefineX在蒸餾數(shù)據(jù)的處理上進行了創(chuàng)新,將蒸餾數(shù)據(jù)的構(gòu)建結(jié)構(gòu)分為兩個明確的階段:首先執(zhí)行端到端精煉,然后通過將精煉后的文本與原始文本進行比較來生成更可靠的監(jiān)督程序。
這個兩階段過程產(chǎn)生了顯著更可靠的監(jiān)督,有效消除了生成過程中引入的過度編輯風(fēng)險,最終生成一個更有效且更魯棒的精煉模型。
高效可靠的規(guī)?;珶?/p>
上圖展示了RefineX的核心工作流程。
RefineX的目標(biāo)是降低專家模型直接生成用于蒸餾的精煉程序難度,同時盡可能保留端到端輸出中的有效精煉操作。
為實現(xiàn)這兩個目標(biāo),RefineX首先在精心設(shè)計的指令下提示專家模型生成高質(zhì)量的精煉文本。然后,將精煉文本與原始輸入進行比較,基于最小編輯距離提取可靠的刪除操作序列。
這些操作被轉(zhuǎn)換為預(yù)定義的程序函數(shù)集,作為可信的監(jiān)督信息來訓(xùn)練緊湊的精煉模型。
訓(xùn)練完成后,模型通過推理生成可靠的精煉程序,隨后執(zhí)行這些程序以高效地在語料庫中執(zhí)行細粒度精煉。
為徹底規(guī)避模型偏好帶來的新增內(nèi)容或者過度修改的風(fēng)險,僅保留精煉過程中的刪除操作,RefineX限制程序函數(shù)為刪行、刪字符、保留全部。上面是具體的函數(shù)定義。
“只刪不改”可以很好得保護原始文本,使拼寫偏差等非關(guān)鍵缺陷得以保留——它們將在預(yù)訓(xùn)練中被數(shù)十萬億token自然中和,而不會污染數(shù)據(jù)的多樣性本質(zhì)。
另外,RefineX使用最小編輯距離算法來捕獲原文本和端到端精煉后文本的差異,并過濾非法的插入和替換操作以及低質(zhì)量數(shù)據(jù),將可靠的刪除操作與預(yù)定義好的函數(shù)對齊,和原文本組成文本-程序?qū)τ糜趦?yōu)化模型的訓(xùn)練。
RefineX使用動態(tài)分塊機制來保持長上下文的內(nèi)容捕獲,提升模型的長上下文處理能力。
論文使用Qwen2.5-72B-Instruct模型作為專家模型進行端到端精煉,消耗萬卡小時來處理得到大約200萬個高質(zhì)量蒸餾樣本,用于訓(xùn)練0.6B的Qwen-3-Base模型作為優(yōu)化模型。
較小的參數(shù)量可以實現(xiàn)較高的推理速度保證精煉的高效性,嚴謹?shù)恼麴s數(shù)據(jù)處理方法保證了優(yōu)化模型的可靠性。
從頭預(yù)訓(xùn)練實驗
為了評估優(yōu)化數(shù)據(jù)對模型性能的影響,RefinX團隊使用每種方法優(yōu)化后的語料庫,從頭開始預(yù)訓(xùn)練不同規(guī)模的LLMs,并在下游任務(wù)中評估它們。
結(jié)果顯示,盡管在不同任務(wù)中表現(xiàn)最佳的變體可能來自不同的數(shù)據(jù)源,RefineX在每個單獨的任務(wù)上都取得了最佳結(jié)果。
當(dāng)用RefineX凈化后的20Btoken數(shù)據(jù)訓(xùn)練750M模型時,其在常識推理、科學(xué)問答等10項任務(wù)的平均得分達到44.7,比原始數(shù)據(jù)提高了+7.2%,比Comb提高了+5.9%,甚至比最強的先前細粒度改進方法Prox-C還要高+2.6%。
在數(shù)據(jù)效率的改善上,模型使用10B凈化token的表現(xiàn)超越其使用20B傳統(tǒng)過濾數(shù)據(jù)的性能,表明RefineX可以有效地通過刪除垃圾文本降低訓(xùn)練單文本的token開銷,從而在訓(xùn)練token總數(shù)限制下讓模型預(yù)訓(xùn)練考慮更加多樣的文本。
無論是對原始數(shù)據(jù)進行改進還是對先前過濾的數(shù)據(jù)集進行改進,使用RefineX訓(xùn)練的模型始終在平均得分上獲得最高分,并贏得最多任務(wù)。
有效提升文本質(zhì)量
論文使用文本質(zhì)量打分器DataMan來對收集的混亂的文本數(shù)據(jù)進行預(yù)分類,并觀察精煉前后的質(zhì)量變化。
可以看到,在文本質(zhì)量層面,RefineX對低質(zhì)內(nèi)容的改善率高達42.2%,且嚴格保持“零新增詞匯”,杜絕了任何幻覺風(fēng)險。而端到端方案雖提升率更高,卻以每千token新增15個外部詞匯為代價,埋下了語義篡改的隱患。
RefineX提供了一個可靠又高效的大規(guī)模預(yù)訓(xùn)練數(shù)據(jù)細化的新范式。真正的數(shù)據(jù)凈化不是重塑文本,而是以最小干預(yù)剝離噪聲,讓知識的原初脈絡(luò)自由呼吸。
arxiv:https://arxiv.org/abs/2507.03253huggingface:https://huggingface.co/papers/2507.03253github:https://github.com/byronBBL/RefineX
免責(zé)聲明:本文內(nèi)容由開放的智能模型自動生成,僅供參考。