梁半蘭
AntResearchNLP團(tuán)隊投稿量子位|公眾號QbitAI
相信大家都有這樣一個體驗。
跟AI無論什么對話,感覺都是說空話套話。
有時候為了讓AI懂自己,許多用戶甚至不得不學(xué)習(xí)復(fù)雜的“提示詞技巧”,手動編寫長長的指令,像是在給AI做“崗前培訓(xùn)”。
那么如何實現(xiàn)高情商AI?螞蟻通用人工智能研究中心自然語言處理實驗室提出了一個叫AlignXplore的方法——
通過強(qiáng)化學(xué)習(xí),AlignXplore能夠通過深度思考從用戶行為中歸納出他/她的偏好,并且這種對人類偏好的洞察可以隨著用戶行為的變化而動態(tài)更新。
更有趣的是,當(dāng)把歸納好的偏好描述遷移到一個下游對齊模型時,能夠讓這個模型的個性化對齊能力得到顯著提升。
如何讓AI真正懂你?
如何讓AI真正“懂”你?我們需要讓AI從一個“規(guī)則執(zhí)行者”進(jìn)化成一個“模式發(fā)現(xiàn)者”。
這意味著,它要掌握一種被認(rèn)為是人類智慧核心的能力——?dú)w納推理(InductiveReasoning)。
△“千人一面”的對齊方式無法滿足用戶多樣的個性化需求,紅字藍(lán)
事實上,AI早已對演繹推理(DeductiveReasoning)駕輕就熟,具備令人驚嘆的數(shù)學(xué)解題和代碼編寫能力。
你給它一個確定的前提(如“求解二次方程ax2+bx+c=0”)和一套不變的規(guī)則(求根公式),它就能通過一步步嚴(yán)密的邏輯推演,給出一個唯一、可驗證的正確答案。這是一個典型的“自上而下”(Top-Down)的過程:從普適的公理或規(guī)則出發(fā),推導(dǎo)出一個具體的、必然的結(jié)論。在這個世界里,沒有模糊地帶,只有對與錯。
而歸納推理則完全相反,它是一個自下而上(Bottom-Up)的過程:它沒有預(yù)設(shè)的“個人說明書”。它的“線索”就是你的每一個行為:你追問了什么問題,說明你關(guān)心什么;你跳過了哪個回答,說明你不喜歡什么風(fēng)格;你對哪個笑話點了贊,暴露了你的幽默感。它的“任務(wù)”就是從這些海量的、碎片化的行為數(shù)據(jù)中,提煉出專屬于你的互動模式與偏好規(guī)律。通過歸納推理,AI有潛力成為你的“知心姐姐”,主動拼湊出一個完整的你。
舉個例子,讓我們來扮演一次AI知心姐姐,看看它是如何通過兩次看似無關(guān)的對話,就精準(zhǔn)捕捉到你的“潛臺詞”的:
第一次交互:你問“什么是人工智能?它在商業(yè)和生活中是怎么用的?”。AI會立刻開始在幕后推理你的偏好:“你可能對AI技術(shù)有特別的興趣,但似乎更關(guān)心實際應(yīng)用,也許是商業(yè)導(dǎo)向”。第二次交互:你想學(xué)習(xí)冥想,在兩個候選回答中,你選擇了提供具體步驟的那個,而不是闡述冥想哲學(xué)的回答。AI會立刻更新它對你偏好的理解:“你的偏好是獲取能解決眼前需求的、務(wù)實的指導(dǎo),而不是理論探討?!?/p>
這種漸進(jìn)式的學(xué)習(xí)和優(yōu)化,讓AI的“記憶”不再短暫。隨著一次次的交互,它會不斷收集新的線索,驗證并修正之前的假設(shè),對你的“人物畫像”進(jìn)行一次又一次的精修。最終,它不再是被動回答問題的機(jī)器,而是在主動地、持續(xù)地學(xué)習(xí)和理解你是誰。
這,就是我們通向真正個性化AI的第一步。
AlignXplore
AlignXplore的訓(xùn)練包括兩個階段。
第一階段:冷啟動訓(xùn)練(Cold-startTraining)——拜師學(xué)藝
研究團(tuán)隊首先引入一個更強(qiáng)大的AI作為“導(dǎo)師模型”
。這個導(dǎo)師會生成大量高質(zhì)量的“教學(xué)案例”。對于每個用戶的行為信號集合
會生成多組候選的推理鏈r和相應(yīng)的偏好描述d利用獎勵函數(shù)R(r,d)進(jìn)行篩選來獲取高質(zhì)量數(shù)據(jù)
。通過在
上進(jìn)行SFT,實現(xiàn)偏好歸納模型的冷啟動。
其中
代表可能存在的歷史偏好,而G是為每個實例生成的候選樣本數(shù)量。這里獎勵函數(shù)定義為:
其中,
是下游大語言模型R對回復(fù)的偏好打分函數(shù)。這個通用的獎勵框架可以被實例化為兩種具體的獎勵函數(shù),用于模型的訓(xùn)練與評估:
1、
(基于偏好判斷的獎勵)
R作為一個偏好判斷模型,直接評估在給定推斷出的偏好d后“
更好”的概率,最大化與用戶真實偏好的一致性:
提供了更穩(wěn)定和有效的訓(xùn)練信號,是AlignXplore在訓(xùn)練和評估中采用的核心獎勵函數(shù)。
2、
(基于生成概率的獎勵)
R作為一個回復(fù)生成模型,衡量在加入偏好描述d前后,模型生成較優(yōu)回復(fù)
與生成較差回復(fù)
間的對數(shù)概率差值是否有提升:
第二階段:強(qiáng)化學(xué)習(xí)(ReinforcementLearning)——實戰(zhàn)修行
在這一階段,采用GRPO算法訓(xùn)練,模型會針對用戶的行為,嘗試生成多種不同的推理路徑和偏好結(jié)論
。隨后,系統(tǒng)會根據(jù)這些結(jié)論的準(zhǔn)確性給予“獎勵”或“懲罰”。通過這種不斷的試錯和優(yōu)化,模型學(xué)會了如何將初步的分析提煉成更精準(zhǔn)、更具指導(dǎo)性的判斷。
優(yōu)化策略定義如下:
流式偏好推斷機(jī)制
AlignXplore模型支持流式偏好推斷機(jī)制,即不再需要反復(fù)回看用戶冗長的歷史記錄,而是像處理一條源源不斷的數(shù)據(jù)流一樣,實時、增量地更新對用戶的理解——就像它在之前的例子中發(fā)現(xiàn)用戶“務(wù)實導(dǎo)向”的風(fēng)格一樣。
這種“流式”設(shè)計帶來的好處是顯而易見的:
首先,它大大提高了生成效率;
其次,它極為靈活,當(dāng)用戶從休閑模式切換到工作狀態(tài)時,它能迅速迭代出一個新的“工作版”偏好,而不是固執(zhí)地用舊眼光看用戶。這才是真正能跟上用戶節(jié)奏的動態(tài)進(jìn)化系統(tǒng)。
實驗結(jié)果
在域內(nèi)測試集AlignX_test和域外測試集P-Soups上,AlignXplore模型在個性化對齊任務(wù)上取得了顯著的成功,相較于基座模型DeepSeek-R1-Distill-Qwen-7B平均提升了15.49%。
△AlignXplore與各種推理/非推理模型在域內(nèi)外數(shù)據(jù)集上的表現(xiàn)
更重要的是,它展現(xiàn)了強(qiáng)大的綜合能力:
高效性:即使互動歷史變得非常長,流式推理機(jī)制也能保持穩(wěn)定的響應(yīng)速度和準(zhǔn)確率,不會像傳統(tǒng)方法那樣需要每次編碼所有行為信號致使越來越慢。
△隨著互動的進(jìn)行,流式推理機(jī)制下的響應(yīng)速度和準(zhǔn)確率都保持穩(wěn)定
泛化能力:它不僅能處理特定的反饋數(shù)據(jù),還能從用戶發(fā)布的帖子user-generatedcontent(UGC)等不同形式的內(nèi)容中學(xué)習(xí),并且其推斷出的偏好也能成功地應(yīng)用于與訓(xùn)練時不同的下游模型,包括QwQ-32B、DeepSeek-R1-671B等。
△泛化性實驗
魯棒性:即使用戶的偏好發(fā)生改變甚至反轉(zhuǎn),AlignXplore也能靈活適應(yīng),不會產(chǎn)生劇烈的效果波動。
△即便反轉(zhuǎn)初始行為信號的偏好,流式推理機(jī)制也能讓模型靈活調(diào)整
總結(jié)
該工作第一作者為人大高瓴一年級博士生李嘉楠,目前在螞蟻實習(xí);螞蟻通用人工智能研究中心自然語言處理實驗室關(guān)健、武威為共同第一作者、通訊作者。
AlignXplore是大模型個性化路上的一個全新的嘗試。在SOTA結(jié)果的背后,這項研究其實有很多思考:
在智力上限被一波又一波推高的當(dāng)下,如何規(guī)?;?xùn)練大模型“情商”是一個沒有得到足夠關(guān)注卻又十分重要的問題。畢竟誰會拒絕一個既聰明又有溫度的AI呢?深度思考下的長思維鏈?zhǔn)谴竽P椭悄苣芰Φ闹饕苿恿?。深度思考本身消耗巨大,那么如果只用來刷分,是不是有點浪費(fèi)呢?相比于結(jié)果,推理過程中產(chǎn)生的知識是不是更有價值呢?AlignXplore可以看作是推理知識在用戶理解領(lǐng)域進(jìn)行遷移應(yīng)用的一個嘗試。畢竟相對于艱深的數(shù)學(xué)知識,用戶理解知識更容易被看懂,也更容易落地。如果客觀問題都很快會被AI解決,那么主觀問題該怎么辦呢?這個世界上到底是客觀問題多還是主觀問題多呢?無論如何,研究團(tuán)隊認(rèn)為個性化是通往主觀世界的一條重要通道,而AlignXplore是在這條通道上的一次大膽嘗試。期待未來有更多相關(guān)研究能夠涌現(xiàn)。
—完—
重生之修仙歸來,王翰攜道醫(yī)修強(qiáng)勢回歸,誓要統(tǒng)治萬界
臨城,臨城大學(xué)。正是五月的夏天,下午的陽光特別燦爛,熱辣辣的太陽照耀著炙熱的大地。經(jīng)貿(mào)系2018級,一位眉清目秀,眉宇間帶著一絲英氣的年輕人正在伏在課桌上睡覺_?!傲謮m……醒醒,孟少快來了!”而此時一位帶著厚重的黑框眼鏡的同學(xué),走到了他的身邊著急道??墒?,伏在桌子上的林塵,沒有絲毫的反應(yīng),依有幫助請點贊_。
霸榜之作《重生之修仙歸來》,讓人回味無窮的章節(jié),越追越發(fā)腦洞大開!
《重生之修仙歸來》:他曾經(jīng)是修仙界的傳奇,五百年突破至渡劫期!卻在關(guān)鍵時候遭受暗算,意外回《重生之修仙歸來》作者:青子藍(lán)
重生修仙歸來,都市潛龍出淵,手刃負(fù)心人,逆襲成至尊
"你們根本不懂流放之地的真相!quot;陳玄風(fēng)咆哮著捏碎翡翠扳指,磷火中浮現(xiàn)的虛影竟是修仙界鎖妖塔的形制。宋宇突然抓住蘇瑤肩膀,quot;鑰匙共鳴開始了!quot;她后頸的鎖妖印與葉輕雪額前冰紋同時發(fā)光,兩道光線交匯處撕開了空間裂縫。林雅撲過去抱住下墜的葉輕雪,九陰純體的寒氣在女孩周身結(jié)成保護(hù)繭||。quot;他故意刺激輕雪覺醒有幫助請點贊。
來源:紅網(wǎng)
作者:連詩珊
編輯:陳信旭
本文為紅辣椒評論 原創(chuàng)文章,僅系作者個人觀點,不代表紅網(wǎng)立場。轉(zhuǎn)載請附原文出處鏈接和本聲明。