醫(yī)院體檢等結(jié)果和回應(yīng)大家理性模仿?對(duì),閑聊局
近年來(lái),大模型的迅速發(fā)展賦能了大量交互式的智能代理(大模型Agent),使后者在類(lèi)似代碼生成、自動(dòng)駕駛、個(gè)人助理等領(lǐng)域展現(xiàn)出令人矚目的潛力。
這些Agent通常需要類(lèi)似人類(lèi)的記憶能力,以便持續(xù)學(xué)習(xí)并逐漸提升自身表現(xiàn)。具體而言,Agent需要記錄并回憶曾經(jīng)遇到的任務(wù)輸入以及對(duì)應(yīng)的輸出結(jié)果,從而幫助其在新的任務(wù)中取得良好表現(xiàn)。
然而,目前各種Agent所使用的記憶模塊往往是為特定任務(wù)專(zhuān)門(mén)設(shè)計(jì)的。例如,自動(dòng)駕駛Agent存儲(chǔ)的是車(chē)輛的軌跡與狀態(tài)數(shù)據(jù),代碼生成Agent保存的是代碼片段,而個(gè)人助理型Agent則可能傾向于總結(jié)對(duì)話(huà)信息。這種碎片化的、任務(wù)導(dǎo)向的設(shè)計(jì)方式,使得研究記憶管理的通用規(guī)律與共性變得極其困難。因此,美國(guó)伊利諾伊大學(xué)香檳分校本科校友、美國(guó)哈佛大學(xué)博士生熊梓迪和所在團(tuán)隊(duì)決定回歸到最基本的記憶管理操作——添加操作與刪除操作,以便解決這樣一個(gè)通用而核心的問(wèn)題:到底該如何管理記憶,才能長(zhǎng)期提升大模型Agent的表現(xiàn)?
圖|熊梓迪(來(lái)源:熊梓迪)
研究團(tuán)隊(duì)的目標(biāo)是提供系統(tǒng)性的實(shí)驗(yàn)證據(jù)和具有普適性的原則,避免開(kāi)發(fā)者因?yàn)槿狈νㄓ脺?zhǔn)則而只能憑經(jīng)驗(yàn)制定策略,從而導(dǎo)致性能的不穩(wěn)定甚至退化。
如前所述,與以往關(guān)注復(fù)雜記憶機(jī)制設(shè)計(jì)的研究不同,研究團(tuán)隊(duì)的研究重點(diǎn)回歸到記憶管理最基礎(chǔ)的兩個(gè)操作上:
添加:判斷一個(gè)新任務(wù)的執(zhí)行結(jié)果是否值得被記憶。刪除:決定何時(shí)以及按照什么標(biāo)準(zhǔn)刪除過(guò)去的記憶。
通過(guò)研究不同精度的外部反饋?zhàn)鳛檫@兩項(xiàng)操作的執(zhí)行標(biāo)準(zhǔn),研究團(tuán)隊(duì)發(fā)現(xiàn)了以下三個(gè)核心規(guī)律:
第一個(gè)規(guī)律是經(jīng)驗(yàn)跟隨現(xiàn)象(Experience-Following):Agent在處理當(dāng)前任務(wù)時(shí),傾向于復(fù)制檢索到的相似歷史任務(wù)的輸出,而這種現(xiàn)象不區(qū)分記憶質(zhì)量的好壞,具有高度一致性。第二個(gè)規(guī)律是錯(cuò)誤傳播效應(yīng)(ErrorPropagation):當(dāng)記憶添加的外部反饋精度和評(píng)估標(biāo)準(zhǔn)不嚴(yán),錯(cuò)誤或低質(zhì)量的任務(wù)執(zhí)行結(jié)果被存入記憶后,會(huì)不斷被后續(xù)任務(wù)所模仿,從而導(dǎo)致一連串的決策失誤,甚至使Agent長(zhǎng)期表現(xiàn)退化。第三個(gè)規(guī)律是經(jīng)驗(yàn)回放失配(MisalignedMemoryReplay):即使某些記憶本身正確,但如果它們與當(dāng)前任務(wù)的上下文不匹配或已過(guò)時(shí),仍然會(huì)拖累Agent的表現(xiàn)。因此,需要通過(guò)精準(zhǔn)的外部反饋進(jìn)行持續(xù)維護(hù)或刪除。
整體而言,研究團(tuán)隊(duì)揭示了一個(gè)長(zhǎng)期被忽視的重要問(wèn)題,即精準(zhǔn)可靠的外部反饋對(duì)于記憶管理設(shè)計(jì)的重要性。在絕大多數(shù)實(shí)際場(chǎng)景中,由于缺乏這種高質(zhì)量反饋,Agent的記憶系統(tǒng)反而可能阻礙而非促進(jìn)其長(zhǎng)期的表現(xiàn)。
研究團(tuán)隊(duì)希望本研究能夠激發(fā)更多關(guān)于大模型Agent各模塊通用機(jī)制的系統(tǒng)性研究,并期待本工作中的發(fā)現(xiàn)能夠?yàn)槲磥?lái)記憶模塊的設(shè)計(jì)提供實(shí)證參考,從而推動(dòng)構(gòu)建更智能、具備自我演化能力的大模型Agent。
(來(lái)源:https://arxiv.org/pdf/2505.16067)
談及研究過(guò)程,熊梓迪對(duì)DeepTech表示,他與本次相關(guān)論文的共同通訊作者ZhenXiang師兄(現(xiàn)為美國(guó)佐治亞大學(xué)助理教授)希望找到一種普遍適用于各種Agent的記憶管理方案。研究早期,他們嘗試了許多復(fù)雜的方法,但發(fā)現(xiàn)由于Agent任務(wù)差異巨大,很難提煉出真正通用的解決方案,也難以清晰界定研究問(wèn)題。
反思之后,研究團(tuán)隊(duì)決定回歸最基礎(chǔ)的記憶操作,聚焦于記憶的添加和刪除。之所以選擇這兩個(gè)操作,是因?yàn)樗鼈儾粌H是記憶系統(tǒng)中最基本的部分,同時(shí)在不同Agent中都有明確可能的實(shí)現(xiàn)方式。
研究團(tuán)隊(duì)隨后建立了一個(gè)統(tǒng)一的實(shí)驗(yàn)框架,選擇了具有代表性的多個(gè)不同領(lǐng)域的Agent,包括醫(yī)療數(shù)據(jù)、自動(dòng)駕駛、物聯(lián)網(wǎng)安全等,以充分驗(yàn)證普適性。經(jīng)過(guò)大量的實(shí)驗(yàn)和分析,研究團(tuán)隊(duì)發(fā)現(xiàn)了Agent記憶管理中三個(gè)重要的共性問(wèn)題:經(jīng)驗(yàn)跟隨、錯(cuò)誤傳播和經(jīng)驗(yàn)回放失配。這些發(fā)現(xiàn)幫助研究團(tuán)隊(duì)明確了準(zhǔn)確可靠的外部反饋在記憶管理中不可或缺的角色,也為后續(xù)的研究和應(yīng)用提供了明確的方向。
不過(guò),熊梓迪坦言:“實(shí)驗(yàn)中應(yīng)用程序編程接口(API,ApplicationProgrammingInterface)的花銷(xiāo)非常昂貴,比如像GPT-4o作為backbone讓Agent在幾千條任務(wù)上跑的花銷(xiāo)真的很驚人。”這也更加凸顯了本次研究的不易。
日前,相關(guān)論文以《內(nèi)存管理如何影響大模型代理:經(jīng)驗(yàn)跟隨行為的實(shí)證研究》(HowMemoryManagementImpactsLLMAgents:AnEmpiricalStudyofExperience-FollowingBehavior)為題發(fā)在arXiv[1],熊梓迪是第一作者。
圖|相關(guān)論文(來(lái)源:https://arxiv.org/pdf/2505.16067)
未來(lái),研究團(tuán)隊(duì)希望進(jìn)一步探索如何在缺乏高質(zhì)量外部反饋的情況下,盡可能減少記憶模塊可能帶來(lái)的負(fù)面影響,并提升其長(zhǎng)期表現(xiàn)。他們相信,這對(duì)于現(xiàn)實(shí)的大模型Agent應(yīng)用具有重要的價(jià)值。
參考資料:
1.https://arxiv.org/pdf/2505.16067
排版:劉雅坤
總裁的暖心甜妻,錯(cuò)愛(ài)成絕寵,霸道總裁追妻火葬場(chǎng)!
8本超甜寵文:溫馨無(wú)比,花式秀恩愛(ài),女主被捧在掌心寵上了天!
超高口碑的《暖心甜妻:億萬(wàn)總裁寵上天》,高點(diǎn)擊,零差評(píng)!