小紅書NLP團(tuán)隊(duì)投稿量子位|公眾號QbitAI
大模型也能“通人情”?
行業(yè)首個(gè)社交大模型全景解析:既能兼顧社交理解與平臺規(guī)則,又能洞察理解用戶。
小紅書重磅推出RedOne——一款面向SNS(社交網(wǎng)絡(luò)服務(wù))領(lǐng)域的定制化LLM,旨在突破單一任務(wù)基線模型的性能瓶頸,并且構(gòu)建全面覆蓋SNS任務(wù)的基座模型。
相較于基礎(chǔ)模型,RedOne在8個(gè)主要的SNS任務(wù)上平均提升14.02%,在SNS雙語評測基準(zhǔn)上提升7.56%。同時(shí),在線上測試中,相較于單任務(wù)微調(diào)的基線模型,RedOne將有害內(nèi)容檢測(HarmfulContentDetection)中的曝光率降低11.23%,將瀏覽后搜索(Post-viewSearch)中的點(diǎn)擊頁面率提升14.95%。
圖1:不同模型在SNS領(lǐng)域上的平均表現(xiàn)
RedOne訓(xùn)練框架
隨著在線平臺和移動應(yīng)用的高速發(fā)展,SNS成為當(dāng)前信息傳播的核心載體,覆蓋著交流溝通、知識分享、情感表達(dá)等多元場景。然而,SNS的數(shù)據(jù)與通用領(lǐng)域的文本語料又呈現(xiàn)出截然不同的特征:
1)高度非規(guī)范化:縮寫、諧音梗、跨語種表達(dá)層出不窮;2)強(qiáng)上下文依賴:同一句話在不同話題或社群文化中意義迥異;3)顯著情緒化:用戶情感張力隨熱點(diǎn)事件劇烈波動。
因此,多元的場景疊加復(fù)雜的數(shù)據(jù),不僅帶來語言形式的極端多樣化、用戶角色的頻繁切換,還伴隨著隱性而微妙的對話規(guī)范,使依賴傳統(tǒng)自然語言處理(NatureLanguageProcessing,NLP)的平臺內(nèi)容管理和交互質(zhì)量優(yōu)化面臨前所未有的挑戰(zhàn)。
面對上述SNS的治理困境,社區(qū)開始嘗試引入LLM尋求突破,但大多聚焦于單一任務(wù)層面。這一方面導(dǎo)致了同一場景內(nèi)DataScalingLaw的邊際收益呈現(xiàn)遞減并逐漸消失的趨勢,另一方面難以在多語言、多文化、多任務(wù)的真實(shí)場景中靈活遷移。
這一現(xiàn)象的根源在于:當(dāng)前SNS領(lǐng)域?qū)S媚P偷挠?xùn)練過程無法充分學(xué)習(xí)多元領(lǐng)域知識,導(dǎo)致性能觸頂、泛化失靈,無法滿足平臺內(nèi)容治理、交互質(zhì)量優(yōu)化等現(xiàn)實(shí)中的迫切需求。
因此,研究團(tuán)隊(duì)重磅推出RedOne——首款全面覆蓋SNS各種場景的定制化LLM。
依托超大規(guī)模的真實(shí)數(shù)據(jù),RedOne采用“繼續(xù)預(yù)訓(xùn)練(CPT)→監(jiān)督微調(diào)(SFT)→偏好優(yōu)化(PO)”的三階段訓(xùn)練策略:先注入社交文化知識基礎(chǔ),再強(qiáng)化多元任務(wù)能力,最終對齊平臺規(guī)范和人類偏好,讓模型“既懂社交、又懂規(guī)則、更懂用戶”。
圖2:RedOne的訓(xùn)練框架
繼續(xù)預(yù)訓(xùn)練(ContinuePretraining,CPT)
為了給LLM注入SNS領(lǐng)域的基礎(chǔ)知識,研究人員開展了分為三個(gè)子階段的CPT:數(shù)據(jù)收集與構(gòu)建、數(shù)據(jù)篩選與混合、以及領(lǐng)域繼續(xù)預(yù)訓(xùn)練。
數(shù)據(jù)收集與構(gòu)建
研究者從以下兩個(gè)來源收集所需的數(shù)據(jù):
1)通用高質(zhì)量數(shù)據(jù)。他們選擇了若干高質(zhì)量的開源預(yù)訓(xùn)練語料庫,以保持模型的基本泛化能力,并且為了提高訓(xùn)練效率,他們將所有通用數(shù)據(jù)統(tǒng)一構(gòu)建為單句文本格式,并根據(jù)預(yù)定義的文本長度閾值進(jìn)行分割和拼接處理。
2)SNS領(lǐng)域數(shù)據(jù)。他們從社交網(wǎng)絡(luò)平臺和開放網(wǎng)頁收集了大規(guī)模的訓(xùn)練數(shù)據(jù),涵蓋了多種社交溝通模式,包括非正式討論、短評論、諷刺語句、情緒化內(nèi)容等,并且為了更好地學(xué)習(xí)預(yù)訓(xùn)練數(shù)據(jù)中的潛在信息,他們結(jié)合了用戶互動數(shù)據(jù)來指導(dǎo)訓(xùn)練過程。具體來說,他們將上下文與其對應(yīng)的用戶互動數(shù)據(jù)進(jìn)行分組,這樣可以自然地聚類語義相關(guān)的SNS內(nèi)容,無需額外的處理。
結(jié)合以上兩種預(yù)料,他們構(gòu)建了一個(gè)包含超過千億tokens的大規(guī)模數(shù)據(jù)集,為后續(xù)的任務(wù)處理打下基礎(chǔ)。
數(shù)據(jù)篩選與混合
考慮到數(shù)據(jù)質(zhì)量對模型訓(xùn)練至關(guān)重要,他們精心設(shè)計(jì)了一個(gè)數(shù)據(jù)篩選流程,包含面向任務(wù)的規(guī)則篩選和基于小型LLM的篩選。前者主要識別HTML標(biāo)簽、重復(fù)語句等錯(cuò)誤內(nèi)容,后者則關(guān)注全文一致性和語氣適當(dāng)性等評價(jià)角度。
此外,他們又應(yīng)用了RegMix方法來識別最優(yōu)的數(shù)據(jù)混合分布并篩除不必要的數(shù)據(jù)。最終,他們構(gòu)建了一個(gè)包含200億tokens的高質(zhì)量數(shù)據(jù)集供訓(xùn)練使用。
領(lǐng)域繼續(xù)預(yù)訓(xùn)練
通過以上的數(shù)據(jù)收集、構(gòu)建、篩選與混合,他們得到了一個(gè)全面覆蓋SNS領(lǐng)域的超大規(guī)模高質(zhì)量數(shù)據(jù)集,以指導(dǎo)領(lǐng)域繼續(xù)預(yù)訓(xùn)練。具體來說,他們基于Qwen2.5的開源模型繼續(xù)訓(xùn)練,并使用相同的配置參數(shù),充分發(fā)揮其在多個(gè)領(lǐng)域的強(qiáng)大能力。
通過這一領(lǐng)域特定的繼續(xù)預(yù)訓(xùn)練過程,他們最終獲得了一個(gè)能夠有效捕捉SNS特有語言模式的模型,同時(shí)保持了通用語言建模能力的最小衰減。
監(jiān)督微調(diào)(SupervisedFine-Tuning,SFT)
為了彌合預(yù)訓(xùn)練目標(biāo)與實(shí)際應(yīng)用需求之間的差距,他們精心設(shè)計(jì)了以下的SFT任務(wù)。
任務(wù)定義與數(shù)據(jù)構(gòu)建
SFT訓(xùn)練數(shù)據(jù)對模型在領(lǐng)域任務(wù)中的最終指令跟隨能力具有重要影響。為此,他們整理了大量的生成內(nèi)容,包括筆記、評論和互動信息等,以期通過源于真實(shí)環(huán)境的信號來改善模型的決策行為。
表1:SNS任務(wù)和能力的映射
特別在數(shù)據(jù)整理過程中,他們著重保留了具有典型SNS特征的語言風(fēng)格,以確保數(shù)據(jù)在SNS場景中的代表性和實(shí)用性。在這之后,他們整合得到SNS應(yīng)用所需的六項(xiàng)核心能力:內(nèi)容理解、信息提取、語義匹配、用戶行為建模、對話和角色模擬、以及翻譯能力,并將每項(xiàng)能力映射到具體任務(wù)上,以對齊現(xiàn)實(shí)世界中的挑戰(zhàn),如上圖所示。
此外,在SFT過程中,他們還引入了開源的通用領(lǐng)域指令數(shù)據(jù),以緩解模型的災(zāi)難性遺忘,保持良好的泛化能力。
雙步訓(xùn)練
在領(lǐng)域特定的SFT中,雙步混合微調(diào)已被證明能夠有效增強(qiáng)領(lǐng)域特定能力。
對于RedOne,他們第一步使用結(jié)合大規(guī)模通用數(shù)據(jù)的完整SNS數(shù)據(jù)集對模型進(jìn)行訓(xùn)練,使模型能夠?qū)W習(xí)SNS領(lǐng)域內(nèi)多樣化的任務(wù)格式,同時(shí)保持其通用能力;第二步,他們將SNS領(lǐng)域數(shù)據(jù)比例提高,進(jìn)一步精調(diào)模型,顯著提升其在領(lǐng)域關(guān)鍵任務(wù)上的表現(xiàn)。
偏好優(yōu)化(PreferenceOptimization,PO)
在SNS場景中,像查詢-筆記相關(guān)性建模這樣的任務(wù)常常會生成多個(gè)合理但質(zhì)量差異較大的輸出。雖然SFT能夠改善指令跟隨能力,但它未能充分利用這些候選輸出中的隱性偏好信號,導(dǎo)致過擬合和泛化能力不足。
為了克服這一局限,研究人員精心構(gòu)建了偏好數(shù)據(jù)集,并通過直接偏好優(yōu)化(DirectPreferenceOptimization,DPO)進(jìn)一步提升模型的領(lǐng)域適應(yīng)能力。
偏好數(shù)據(jù)構(gòu)建
為了更好地與人類偏好對齊并利用數(shù)據(jù)標(biāo)簽中蘊(yùn)含的信息,他們根據(jù)不同任務(wù)類型的特點(diǎn),采用了不同的偏好對構(gòu)建策略。具體來說,他們將數(shù)據(jù)分為兩類,并針對每類任務(wù)采取不同的策略:
1)主觀任務(wù)。對于情感對話和角色扮演等主觀任務(wù),他們的主要目標(biāo)是實(shí)現(xiàn)與人類偏好對齊。因此,他們首先邀請領(lǐng)域?qū)<覍δP蜕傻幕貞?yīng)進(jìn)行偏好標(biāo)注,然后訓(xùn)練與人類偏好能夠匹配的判別模型,最后利用這些判別模型擴(kuò)展特定數(shù)據(jù)。
2)客觀任務(wù)。對于答案明確的客觀任務(wù),他們的目標(biāo)則側(cè)重于提取并利用數(shù)據(jù)標(biāo)簽中的隱性結(jié)構(gòu)信息。具體來說,他們采用了兩種方法:首先利用問題本身包含正確答案和錯(cuò)誤選項(xiàng)的內(nèi)在結(jié)構(gòu)來構(gòu)建偏好對;其次結(jié)合模型生成的答案和真實(shí)標(biāo)簽構(gòu)建偏好對,以針對模型的特定不足進(jìn)行優(yōu)化。
通過整合以上的定制化方法,他們系統(tǒng)性地處理了所有數(shù)據(jù),構(gòu)建了能夠有效捕捉人類偏好和隱性數(shù)據(jù)信息的偏好優(yōu)化數(shù)據(jù)集,為模型性能的進(jìn)一步提升打下基礎(chǔ)。
直接偏好優(yōu)化
為了充分利用偏好數(shù)據(jù)集中的豐富信號,他們采用DPO作為基于偏好的微調(diào)算法,使模型能夠更好地與平臺規(guī)則和人類偏好對齊,同時(shí)充分挖掘真實(shí)標(biāo)簽中蘊(yùn)含的潛在信息。
RedOne顯著優(yōu)于基礎(chǔ)模型
表2:7B規(guī)模LLM對比實(shí)驗(yàn)
表3:32B規(guī)模LLM對比實(shí)驗(yàn)
圖3:RedOne與基礎(chǔ)模型的對比
他們在多個(gè)通用和SNS領(lǐng)域任務(wù)上對RedOne和各種開閉源模型進(jìn)行了全面對比,如表2和表3所示。同時(shí),他們還對比了RedOne與其基座模型(Qwen2.5)在六種通用和SNS任務(wù)維度上的表現(xiàn),如圖3所示。
可以看到,RedOne不僅在通用任務(wù)中保持優(yōu)異的表現(xiàn),甚至在部分任務(wù)上超越了其基座模型,而且在SNS領(lǐng)域展現(xiàn)了卓越的效果,甚至在大多數(shù)任務(wù)中都達(dá)到了與更大模型相當(dāng)?shù)男阅?。另外,RedOne隨著模型規(guī)模的增加性能持續(xù)提升,表現(xiàn)出了巨大的潛力。
表4:RedOne與基于任務(wù)微調(diào)模型的對比
為了進(jìn)一步探討基礎(chǔ)模型對任務(wù)特定微調(diào)的影響,并驗(yàn)證RedOne的有效性,他們評估了基于基座模型Qwen2.5-7B和RedOne-7B的任務(wù)微調(diào)對比結(jié)果,如表4所示。
基于RedOne的微調(diào)(RedOne-Finetuned)在所有數(shù)據(jù)集上均超過了基于Qwen2.5的微調(diào)(Qwen2.5-Finetuned),表明領(lǐng)域后訓(xùn)練能夠?yàn)橄掠稳蝿?wù)特定微調(diào)提供更強(qiáng)的基礎(chǔ)。同時(shí),即使未經(jīng)微調(diào)的RedOne表現(xiàn)也十分強(qiáng)勁,進(jìn)一步驗(yàn)證了領(lǐng)域適配的優(yōu)勢。
消融實(shí)驗(yàn)
表5:關(guān)于三階段訓(xùn)練策略的消融實(shí)驗(yàn)結(jié)果
為量化每個(gè)訓(xùn)練階段的貢獻(xiàn),他們進(jìn)行了一系列消融實(shí)驗(yàn),結(jié)果如表5所示。
引入CPT后,模型在通用任務(wù)上的表現(xiàn)僅出現(xiàn)基本可以忽略的下降,卻在所有SNS任務(wù)上取得大幅提升,證明以領(lǐng)域數(shù)據(jù)進(jìn)行CPT可有效注入社交語境知識。在CPT基礎(chǔ)上進(jìn)行SFT,模型在SNS、社交翻譯等任務(wù)上性能進(jìn)一步提升,說明精細(xì)的任務(wù)定義與雙步混合微調(diào)策略能夠有效釋放模型在特定領(lǐng)域的潛能。最后引入PO,使模型輸出更加契合平臺規(guī)則與用戶偏好,整體性能得到再一步提升,印證了定制偏好數(shù)據(jù)與DPO算法協(xié)同的效果。
綜合來看,三階段訓(xùn)練呈現(xiàn)“層層遞進(jìn)、相互增強(qiáng)”的正向疊加,有力保證了RedOne在通用性能幾乎無損的前提下,取得SNS場景的全面領(lǐng)先。
線上實(shí)驗(yàn)
表6:線上實(shí)驗(yàn)的結(jié)果
為進(jìn)一步驗(yàn)證RedOne在真實(shí)場景中的應(yīng)用價(jià)值,他們在內(nèi)部的多個(gè)SNS業(yè)務(wù)線上對其落地,并與當(dāng)前基于單任務(wù)微調(diào)的模型進(jìn)行A/B對照,如表6所示。
結(jié)果顯示:在有害內(nèi)容檢測中,RedOne將違規(guī)筆記曝光率降低11.23%,顯著強(qiáng)化了平臺的安全屏障;在瀏覽后搜索中,用戶點(diǎn)擊頁面率提升14.95%,有效增強(qiáng)了筆記閱讀后的內(nèi)容發(fā)現(xiàn)與深度互動。
泛化性實(shí)驗(yàn)
圖4:不同規(guī)模模型在OOD任務(wù)上的表現(xiàn)
為了評估在領(lǐng)域適配過程中保留通用能力的價(jià)值,他們設(shè)計(jì)了OOD魯棒性實(shí)驗(yàn),結(jié)果如圖4所示。
具體來說,他們從SNSBenchmark中選取了Note?Taxonomy、Note?Hashtag和Note?MRC三項(xiàng)任務(wù)來構(gòu)造測試數(shù)據(jù),其中第一項(xiàng)原本并不存在于訓(xùn)練集中,后兩者在SFT階段中被刻意移除。然后他們對比了結(jié)合通用語料和SNS數(shù)據(jù)與僅使用SNS數(shù)據(jù)兩種設(shè)定下不同規(guī)模模型訓(xùn)練后的性能。
可以看到引入通用領(lǐng)域數(shù)據(jù)能夠顯著提升模型在OOD任務(wù)上的泛化能力,且這一優(yōu)勢隨模型規(guī)模增大而愈發(fā)明顯。這表明,在進(jìn)行特定領(lǐng)域后訓(xùn)練時(shí),適當(dāng)混合通用知識不僅不會影響專業(yè)任務(wù)上的表現(xiàn),反而有助于提升模型的泛化能力。
實(shí)例研究
表7:RedOne和基礎(chǔ)模型在SNS任務(wù)中的回答示例展示
為直觀展示RedOne的用戶行為建模能力,他們在瀏覽后搜索任務(wù)上進(jìn)行了案例研究,如表7所示。
輸入的上下文是一條關(guān)于“增高樂福鞋”的種草筆記,具有明顯的購買意向。Qwen生成了一條寬泛的購物查詢,關(guān)鍵詞籠統(tǒng),難以直接定位目標(biāo)商品。而RedOne則精準(zhǔn)鎖定了“增高樂福鞋”等核心產(chǎn)品詞,清晰地反映了用戶的需求。
未來與展望
SNS?的治理難和LLM的適配難為現(xiàn)實(shí)里如平臺內(nèi)容管理、交互質(zhì)量優(yōu)化等應(yīng)用場景提出了嚴(yán)峻挑戰(zhàn)。作為首個(gè)全面覆蓋SNS領(lǐng)域的定制化LLM,RedOne通過三階段訓(xùn)練策略,實(shí)現(xiàn)了“懂社交、懂規(guī)則、懂用戶”的三重躍遷。
研究人員希望RedOne所采用的方法能夠?yàn)楹罄m(xù)專用垂域LLM的落地提供一定參考,同時(shí)助力社交媒體在內(nèi)容治理與高質(zhì)量互動的進(jìn)一步探索,推動構(gòu)建更可信、可控、可持續(xù)的社交網(wǎng)絡(luò)生態(tài)。
論文鏈接:https://www.arxiv.org/pdf/2507.10605
【新書發(fā)布:萬劫魂主】 【異常代號 全球副本系統(tǒng) 】【性質(zhì): 事件/場景。 】【自某一時(shí)刻起 世界各地將會出現(xiàn)復(fù)數(shù)的 災(zāi)難副本 “ 末世副本” , 地球生物可進(jìn)入副本內(nèi), 完成任務(wù), 獲得獎(jiǎng)勵(lì), 從而得到超乎常人的力量。 】【完成副本任務(wù)的地球生物, 被稱為玩家。 】【全球副本特殊規(guī)則如下: 當(dāng)某一副本出現(xiàn)后, 十二周之內(nèi)并未被玩家完美通關(guān), 那么, 副本中的災(zāi)難現(xiàn)象, 將會以合理/無理的方式, 反應(yīng)到現(xiàn)實(shí)世界當(dāng)中, 給現(xiàn)實(shí)世界帶來滅頂之災(zāi)。 】【副本入口的開啟頻率為一周, 無論上一周的副本, 有沒有被完美解決, 新的副本都會刷新。 】【異常代號: 全球副本系統(tǒng), 暫時(shí)并沒有處置方法。 】【該異常無法解決, 只能承受。 】【這將是注定的毀滅, 一場看不到希望的較量。 】天災(zāi), 人禍, 鬼怪, 異常物品。 十二周之期。 以及無解級別的恐怖副本 當(dāng)種種災(zāi)難亂入現(xiàn)實(shí)。 當(dāng)一切走向終焉。 …… 簡單來說, 這就是一個(gè)披著無限皮的末世故事。