近年來,大模型的迅速發(fā)展賦能了大量交互式的智能代理(大模型Agent),使后者在類似代碼生成、自動駕駛、個人助理等領(lǐng)域展現(xiàn)出令人矚目的潛力。
這些Agent通常需要類似人類的記憶能力,以便持續(xù)學(xué)習(xí)并逐漸提升自身表現(xiàn)。具體而言,Agent需要記錄并回憶曾經(jīng)遇到的任務(wù)輸入以及對應(yīng)的輸出結(jié)果,從而幫助其在新的任務(wù)中取得良好表現(xiàn)。
然而,目前各種Agent所使用的記憶模塊往往是為特定任務(wù)專門設(shè)計的。例如,自動駕駛Agent存儲的是車輛的軌跡與狀態(tài)數(shù)據(jù),代碼生成Agent保存的是代碼片段,而個人助理型Agent則可能傾向于總結(jié)對話信息。這種碎片化的、任務(wù)導(dǎo)向的設(shè)計方式,使得研究記憶管理的通用規(guī)律與共性變得極其困難。因此,美國伊利諾伊大學(xué)香檳分校本科校友、美國哈佛大學(xué)博士生熊梓迪和所在團隊決定回歸到最基本的記憶管理操作——添加操作與刪除操作,以便解決這樣一個通用而核心的問題:到底該如何管理記憶,才能長期提升大模型Agent的表現(xiàn)?
圖|熊梓迪(來源:熊梓迪)
研究團隊的目標是提供系統(tǒng)性的實驗證據(jù)和具有普適性的原則,避免開發(fā)者因為缺乏通用準則而只能憑經(jīng)驗制定策略,從而導(dǎo)致性能的不穩(wěn)定甚至退化。
如前所述,與以往關(guān)注復(fù)雜記憶機制設(shè)計的研究不同,研究團隊的研究重點回歸到記憶管理最基礎(chǔ)的兩個操作上:
添加:判斷一個新任務(wù)的執(zhí)行結(jié)果是否值得被記憶。刪除:決定何時以及按照什么標準刪除過去的記憶。
通過研究不同精度的外部反饋作為這兩項操作的執(zhí)行標準,研究團隊發(fā)現(xiàn)了以下三個核心規(guī)律:
第一個規(guī)律是經(jīng)驗跟隨現(xiàn)象(Experience-Following):Agent在處理當(dāng)前任務(wù)時,傾向于復(fù)制檢索到的相似歷史任務(wù)的輸出,而這種現(xiàn)象不區(qū)分記憶質(zhì)量的好壞,具有高度一致性。第二個規(guī)律是錯誤傳播效應(yīng)(ErrorPropagation):當(dāng)記憶添加的外部反饋精度和評估標準不嚴,錯誤或低質(zhì)量的任務(wù)執(zhí)行結(jié)果被存入記憶后,會不斷被后續(xù)任務(wù)所模仿,從而導(dǎo)致一連串的決策失誤,甚至使Agent長期表現(xiàn)退化。第三個規(guī)律是經(jīng)驗回放失配(MisalignedMemoryReplay):即使某些記憶本身正確,但如果它們與當(dāng)前任務(wù)的上下文不匹配或已過時,仍然會拖累Agent的表現(xiàn)。因此,需要通過精準的外部反饋進行持續(xù)維護或刪除。
整體而言,研究團隊揭示了一個長期被忽視的重要問題,即精準可靠的外部反饋對于記憶管理設(shè)計的重要性。在絕大多數(shù)實際場景中,由于缺乏這種高質(zhì)量反饋,Agent的記憶系統(tǒng)反而可能阻礙而非促進其長期的表現(xiàn)。
研究團隊希望本研究能夠激發(fā)更多關(guān)于大模型Agent各模塊通用機制的系統(tǒng)性研究,并期待本工作中的發(fā)現(xiàn)能夠為未來記憶模塊的設(shè)計提供實證參考,從而推動構(gòu)建更智能、具備自我演化能力的大模型Agent。
(來源:https://arxiv.org/pdf/2505.16067)
談及研究過程,熊梓迪對DeepTech表示,他與本次相關(guān)論文的共同通訊作者ZhenXiang師兄(現(xiàn)為美國佐治亞大學(xué)助理教授)希望找到一種普遍適用于各種Agent的記憶管理方案。研究早期,他們嘗試了許多復(fù)雜的方法,但發(fā)現(xiàn)由于Agent任務(wù)差異巨大,很難提煉出真正通用的解決方案,也難以清晰界定研究問題。
反思之后,研究團隊決定回歸最基礎(chǔ)的記憶操作,聚焦于記憶的添加和刪除。之所以選擇這兩個操作,是因為它們不僅是記憶系統(tǒng)中最基本的部分,同時在不同Agent中都有明確可能的實現(xiàn)方式。
研究團隊隨后建立了一個統(tǒng)一的實驗框架,選擇了具有代表性的多個不同領(lǐng)域的Agent,包括醫(yī)療數(shù)據(jù)、自動駕駛、物聯(lián)網(wǎng)安全等,以充分驗證普適性。經(jīng)過大量的實驗和分析,研究團隊發(fā)現(xiàn)了Agent記憶管理中三個重要的共性問題:經(jīng)驗跟隨、錯誤傳播和經(jīng)驗回放失配。這些發(fā)現(xiàn)幫助研究團隊明確了準確可靠的外部反饋在記憶管理中不可或缺的角色,也為后續(xù)的研究和應(yīng)用提供了明確的方向。
不過,熊梓迪坦言:“實驗中應(yīng)用程序編程接口(API,ApplicationProgrammingInterface)的花銷非常昂貴,比如像GPT-4o作為backbone讓Agent在幾千條任務(wù)上跑的花銷真的很驚人?!边@也更加凸顯了本次研究的不易。
日前,相關(guān)論文以《內(nèi)存管理如何影響大模型代理:經(jīng)驗跟隨行為的實證研究》(HowMemoryManagementImpactsLLMAgents:AnEmpiricalStudyofExperience-FollowingBehavior)為題發(fā)在arXiv[1],熊梓迪是第一作者。
圖|相關(guān)論文(來源:https://arxiv.org/pdf/2505.16067)
未來,研究團隊希望進一步探索如何在缺乏高質(zhì)量外部反饋的情況下,盡可能減少記憶模塊可能帶來的負面影響,并提升其長期表現(xiàn)。他們相信,這對于現(xiàn)實的大模型Agent應(yīng)用具有重要的價值。
參考資料:
1.https://arxiv.org/pdf/2505.16067
排版:劉雅坤
《武動》和《斗破》雙雙撲街 男頻IP劇真的沒出路???金融界
小說推薦:字數(shù)上千萬,量大管飽?這些小說字數(shù)多的看到你吐
閱文集團股價大跌背后的網(wǎng)絡(luò)文學(xué)困局??科技新知
免責(zé)聲明:本文內(nèi)容由開放的智能模型自動生成,僅供參考。