NextGen
歡迎來到“NextGen”。人工智能的邊界每日都在被拓展,一群富有遠(yuǎn)見卓識的青年學(xué)者正站在浪潮之巔。我們追蹤并報道這些AI領(lǐng)域最具潛力的明日之星,展現(xiàn)他們在科研前沿的突破性工作,以及對未來智能時代的獨(dú)到見解。他們是誰?他們?nèi)绾嗡伎??他們又將把AI帶向何方?與我們一同發(fā)現(xiàn)那些正在定義未來的AI新生代。
今年24歲的王禹來自安徽蕪湖,他本科畢業(yè)于中國科學(xué)技術(shù)大少年班,目前在美國加利福尼亞大學(xué)圣迭戈分校(UCSD)三年級博士在讀,并曾在IBM、亞馬遜等公司實(shí)習(xí)。
圖丨王禹(來源:王禹)
近期,他發(fā)布了多智能體個人助理系統(tǒng)MIRIX,這是一款創(chuàng)新的記憶系統(tǒng)產(chǎn)品。MIRIX具備處理高分辨率的屏幕截圖的能力,這是現(xiàn)有記憶系統(tǒng)無法做到的,其適用于AI助理公司、Agent框架、垂直SaaS、自動化辦公系統(tǒng)、AI客服、代碼智能體等多個領(lǐng)域。目前,王禹正在推進(jìn)公司的創(chuàng)立籌備工作。
曾經(jīng)每天只睡6小時,只為“柳暗花明”的時刻
截至目前,王禹已在機(jī)器學(xué)習(xí)領(lǐng)域累計發(fā)表20余篇學(xué)術(shù)論文,其中11篇為第一作者或共同第一作者成果。其研究呈現(xiàn)出明顯的聚焦性和延續(xù)性,特別是在近兩年的5篇第一作者論文中,他系統(tǒng)性地探索了“大模型記憶機(jī)制”這一前沿方向,其創(chuàng)新性工作在不增加GPU內(nèi)存開銷的前提下,顯著提升了大規(guī)模語言模型的記憶能力。
王禹選擇這一研究方向源于對ChatGPT等大語言模型的實(shí)際使用觀察。他在日常使用中發(fā)現(xiàn)兩個顯著痛點(diǎn):
首先,模型存在會話記憶的時效性缺陷——當(dāng)日對話內(nèi)容在次日即完全丟失,這對需要連續(xù)數(shù)日討論的項(xiàng)目造成嚴(yán)重阻礙,用戶不得不反復(fù)復(fù)述項(xiàng)目背景信息;
其次,模型在長程對話中會出現(xiàn)性能衰減現(xiàn)象,隨著上下文累積,后續(xù)應(yīng)答質(zhì)量逐步降低。這種局限性迫使用戶頻繁開啟新對話,而新對話又完全無法繼承歷史會話的認(rèn)知狀態(tài),導(dǎo)致多輪對話間形成記憶斷層。
這些實(shí)踐中的發(fā)現(xiàn)促使王禹系統(tǒng)性地探索機(jī)器記憶的實(shí)現(xiàn)路徑。他向DeepTech解釋說道:“構(gòu)建真正具備社會適應(yīng)性的智能體,記憶系統(tǒng)是不可或缺的底層能力。這種記憶不僅要實(shí)現(xiàn)事件記錄的存儲功能,更需要發(fā)展出類似生物體的自主記憶機(jī)制。從技術(shù)演進(jìn)角度看,記憶模塊很可能是實(shí)現(xiàn)通用人工智能(AGI)或構(gòu)建未來數(shù)字人的關(guān)鍵架構(gòu)要素。
回顧科研歷程,王禹用“堅韌、自律、不達(dá)目的誓不罷休”來形容自己的特質(zhì)。這種執(zhí)著和熱愛的特質(zhì)早在本科階段便已顯現(xiàn):大二時,他的第一個項(xiàng)目是做推薦系統(tǒng)的去噪。但實(shí)際上,項(xiàng)目進(jìn)展并不順利,他曾連續(xù)一個多月沒有任何進(jìn)展。轉(zhuǎn)折點(diǎn)出現(xiàn)在一次其師兄的項(xiàng)目分享會,受到啟發(fā)的他回到宿舍連續(xù)兩天高強(qiáng)度推導(dǎo)公式,并大量驗(yàn)證實(shí)驗(yàn),最終完成了項(xiàng)目。
這段經(jīng)歷成為他投身機(jī)器學(xué)習(xí)研究的起點(diǎn),尤其是當(dāng)他發(fā)現(xiàn)模型在下棋方面竟然能夠戰(zhàn)勝自己時,那種震撼讓他至今難忘。此后他的研究興趣從強(qiáng)化學(xué)習(xí)逐步拓展到推薦系統(tǒng),再延伸到當(dāng)前專注的自然語言處理領(lǐng)域。
在科研方法論方面,王禹形成了獨(dú)特的工作節(jié)奏。本科期間他曾創(chuàng)下同時推進(jìn)4個科研項(xiàng)目、日均僅睡6小時的記錄。面對高強(qiáng)度工作壓力,他發(fā)展出一套有效的壓力管理方式:通過健身房力量訓(xùn)練、游泳、足球等體育運(yùn)動,以及與朋友聚餐等社交活動來保持身心平衡。
“項(xiàng)目研究經(jīng)歷讓我深刻體會到,科研很多時候都是處于高壓、‘山重水復(fù)疑無路’的狀態(tài),但一旦出現(xiàn)‘柳暗花明’的時刻,就會覺得之前的努力都是有意義的,這也是科學(xué)研究的魅力所在?!蓖跤砘貞浀馈?/p>
王禹的學(xué)術(shù)成長得益于兩位重要導(dǎo)師的指導(dǎo)。本科階段,中國科學(xué)技術(shù)大學(xué)何向南教授安排博后辛鑫專門指導(dǎo),并建立每兩周一次的定期匯報機(jī)制,這種“手把手”的科研訓(xùn)練極大地帶領(lǐng)了科研“新手”快速成長。
攻讀博士學(xué)位期間,導(dǎo)師朱莉安·麥考利(JulianMcAuley)教授給予的學(xué)術(shù)自由則讓他能夠深耕感興趣的研究方向,同時靈活安排研究計劃以兼顧學(xué)業(yè)與個人生活,特別是維系與國內(nèi)女友的異地戀情。這種張弛有度的培養(yǎng)模式,既保證了系統(tǒng)的科研訓(xùn)練,又保留了學(xué)術(shù)創(chuàng)新的自主空間。
2022年ChatGPT系列模型的橫空出世成為王禹科研生涯的關(guān)鍵節(jié)點(diǎn)。此前他長期困擾于人工智能技術(shù)在實(shí)際應(yīng)用中的精度瓶頸,對技術(shù)商業(yè)化方向感到迷茫。GPT展現(xiàn)的強(qiáng)大能力不僅解答了他的技術(shù)困惑,更清晰地指明了人工智能產(chǎn)品的落地路徑,直接啟發(fā)了他后續(xù)的創(chuàng)業(yè)規(guī)劃。
如何讓AI擁有類人記憶?
人們希望大模型或機(jī)器人可以具備類似人類記憶,那么人類記憶具備怎樣的特質(zhì)呢?在探索這個方向時,王禹的此前研究提供了重要啟示。
在他作為一作發(fā)表在TransactionsonMachineLearningResearch的論文《邁向生命周期認(rèn)知系統(tǒng)》(TowardsLifeSpanCognitiveSystems)中提到[1],從記憶應(yīng)用的初始階段來看,要做一個能夠“終身對話”的系統(tǒng)需要具備兩個關(guān)鍵能力:抽象與經(jīng)驗(yàn)合并(Abstraction&ExperienceMerging)以及長期記憶保持(Long-TermRetention)。
首先,系統(tǒng)不應(yīng)像傳統(tǒng)存儲系統(tǒng)那樣機(jī)械地記錄原始數(shù)據(jù),而是需要像人類記憶一樣,能夠提取核心信息并建立關(guān)聯(lián)。
例如,多次接觸“某人考試失利”相關(guān)信息后,系統(tǒng)應(yīng)能整合這些經(jīng)驗(yàn),推導(dǎo)出“考試難度”等更高層次的結(jié)論——這種動態(tài)的知識整合能力,正是記憶系統(tǒng)區(qū)別于普通RAG(Retrieval-AugmentedGeneration)或RUG(Retrieval-UsefulGeneration)系統(tǒng)的關(guān)鍵特征。
其次,系統(tǒng)必須長期保留這些抽象后的知識,既包括常識性記憶,也需支持精準(zhǔn)細(xì)節(jié)的調(diào)取,這是實(shí)現(xiàn)終身認(rèn)知功能的基礎(chǔ)。
圖丨記憶智能體應(yīng)該具備的四種互補(bǔ)能力(來源:arXiv)
在最近發(fā)表在arXiv的論文《通過增量式多輪交互評估大語言模型智能體的記憶能力》(EvaluatingMemoryinLLMAgentsviaIncrementalMulti-TurnInteractions)[2]中,王禹進(jìn)一步細(xì)化了記憶智能體應(yīng)具備的四大能力:精準(zhǔn)回憶(AccurateRetrieval)、傳導(dǎo)學(xué)習(xí)(Test-TimeLearning)、長距離理解(Long-RangeUnderstanding)和沖突解決(ConflictResolution)
王禹指出,這四項(xiàng)能力覆蓋了實(shí)際應(yīng)用中的主要需求,也是人類記憶系統(tǒng)的核心功能。這些研究不僅揭示了大模型記憶機(jī)制的優(yōu)化方向,也為MIRIX等系統(tǒng)的開發(fā)和設(shè)計奠定了理論基礎(chǔ)。
MIRIX:準(zhǔn)確率提升35%,存儲需求降99.9%
MIRIX作為新一代多智能體記憶系統(tǒng),通過截屏理解用戶,能壓縮并提取有效信息。
其技術(shù)架構(gòu)和功能設(shè)計在近期發(fā)表在arXiv的論文《MIRIX:面向基于大語言模型的智能體的多智能體記憶系統(tǒng)》(MIRIX:Multi-AgentMemorySystemforLLM-BasedAgents)中得到了系統(tǒng)闡述[3]。
圖丨相關(guān)論文(來源:arXiv)
該系統(tǒng)突破了傳統(tǒng)記憶系統(tǒng)簡單劃分短期/長期記憶的二元模式,創(chuàng)新性地構(gòu)建了六個模塊協(xié)同的樹狀記憶架構(gòu)。每個記憶模塊不僅實(shí)現(xiàn)獨(dú)立功能,還通過屬性化組織方式(包括總結(jié)、嵌入、細(xì)節(jié)、關(guān)鍵詞、執(zhí)行者等元數(shù)據(jù)標(biāo)簽)實(shí)現(xiàn)信息的結(jié)構(gòu)化存儲與關(guān)聯(lián)。
“我們的系統(tǒng)不僅能看到當(dāng)前屏幕,還能通過六個模塊管理記憶,由專門的代理進(jìn)行操作,從而記住之前的內(nèi)容?!蓖跤碚f。
圖丨MIRIX的六個記憶模塊,每個提供專門的功能(來源:arXiv)
具體來說:
核心記憶(CoreMemory)模塊:記錄用戶的基本信息和偏好,比如用戶的名字、喜好等。這些信息對于與用戶的交流至關(guān)重要,需要一直存儲在系統(tǒng)提示(systemprompt)和上下文(context)中。
情景記憶(EpisodicMemory)模塊:記錄用戶生活中發(fā)生的具體事件,比如之前開過的會議、打過的電話等,這些記憶通常與時間相關(guān)。
語義記憶(SemanticMemory)模塊:存儲與時間無關(guān)的信息,例如“《哈利·波特》是J.K.羅琳(J.K.Rowling)寫的”這樣的事實(shí)性陳述。這些信息是長期存在的,還包括一些概念、人物等。
(來源:arXiv)
程序記憶(ProceduralMemory)模塊:包含各種逐步指南(step-by-stepguides)和工作流程(workflows),比如如何在GitHub上合并分支、如何在Minecraft中調(diào)用服務(wù)等。
資源記憶(ResourceMemory)模塊:用于存儲文件和文檔,比如查看一個文檔、合同等。這些內(nèi)容不適合存儲在前面四個模塊中,而是專門存儲在資源記憶中。
知識庫(KnowledgeVault)模塊:存儲敏感信息,如地址、電話號碼、憑證、社會安全號碼或身份證號碼等。這些信息在需要時會被使用,例如填寫表格時需要提供身份證號碼。
需要了解的是,MIRIX重視數(shù)據(jù)安全方面的保護(hù),其所有的信息都存儲在本地的一個文件夾里(SQLite數(shù)據(jù)庫),所有的處理也都在本地完成。而涉及到上述比較敏感的信息時,MIRIX會將其單獨(dú)存放,并且在需要使用時會征求用戶的同意。據(jù)介紹,只有當(dāng)數(shù)據(jù)被發(fā)送至API模型時會被API模型看到。
值得關(guān)注的是,論文中提到,MIRIX中的反思代理(reflectionagent),點(diǎn)擊該功能后會調(diào)用后端代理來組織記憶。
例如,John最近在為期末考試做準(zhǔn)備,過了幾天又說他很累,還沒睡好。MIRIX會把這些信息連接起來,形成一個新的記憶,記錄在其記憶系統(tǒng)中,比如“John最近可能正在經(jīng)歷考試焦慮,智能體在對話中應(yīng)給予更多支持”。
圖丨MIRIX對話界面(來源:王禹)
研究團(tuán)隊(duì)在兩個具有挑戰(zhàn)性的場景中驗(yàn)證了MIRIX。首先,在多模態(tài)基準(zhǔn)測試ScreenshotVQA(包含近20,000張高分辨率計算機(jī)截圖)上,需要深度上下文理解,MIRIX的準(zhǔn)確率比RAG基線高出35%,同時將存儲需求減少了99.9%。
(來源:arXiv)
其次,在單模態(tài)文本輸入的長篇對話基準(zhǔn)測試LOCOMO上,MIRIX達(dá)到了超85%的最新性能,遠(yuǎn)遠(yuǎn)超過了現(xiàn)有的基線。
圖丨LOCOMO數(shù)據(jù)集中各題型不同記憶系統(tǒng)評分(來源:arXiv)
MIRIX的系統(tǒng)應(yīng)用場景覆蓋范圍廣泛,既可以應(yīng)用于C端,也可以應(yīng)用于B端。
對于C端,目前王禹與團(tuán)隊(duì)已開發(fā)了測試版APP,比如可以讓它告訴用戶“昨天做了什么”,或者幫助寫一封求職信。此外,MIRIX還可以和用戶一起追劇,并討論相關(guān)劇情。如果用戶同時在處理多個工作項(xiàng)目,它還可以幫助梳理每個項(xiàng)目的具體進(jìn)程。
對于B端,團(tuán)隊(duì)計劃與AI眼鏡廠商、AI平板廠商、AI玩具廠商或者小型機(jī)器人廠商合作,希望為其產(chǎn)品增加長期記憶功能,讓產(chǎn)品能夠記住用戶,成為個人助手,有望真正實(shí)現(xiàn)“你的生活記憶,從此不會丟失”。
此外,MIRIX還有望將各種場景的記憶結(jié)合中,但可能需要進(jìn)行一些適配和專門的調(diào)整。王禹進(jìn)一步說道:“未來,可穿戴設(shè)備的個人Agent與電腦、手機(jī)的個人Agent可以是一體化的,它們都能夠訪問用戶的信息,并且共享內(nèi)存,我覺得這會是一個非常有趣的場景。”
談及科研和開發(fā)產(chǎn)品方面,王禹認(rèn)為,最重要的是需要耐心打磨。“用戶對于半成品可能只是淺嘗輒止,不會長期使用。我們希望打造能夠留住用戶的產(chǎn)品??蒲幸彩侨绱耍挥刑峁┳詈玫募夹g(shù)內(nèi)容,才會有人關(guān)注?!?/p>
目前,王禹正在與各投資人洽談中,希望在不久后在美國成立公司并持續(xù)推動MIRIX等產(chǎn)品的發(fā)展。當(dāng)然,他也不排除未來機(jī)會合適將業(yè)務(wù)拓展到中國。
參考資料:
1.https://openreview.net/forum?id=LZ9FmeFeLV
2.https://arxiv.org/abs/2507.05257v1
3.https://arxiv.org/abs/2507.07957
運(yùn)營/排版:何晨龍
小說:穿成炮灰原配?轉(zhuǎn)身抱太子大腿,被寵上天!
小說:穿成炮灰原配?轉(zhuǎn)身帶娃致富,太子求抱抱
《穿成炮灰原配后她躺贏了》穿書后她攜萌噠的小包子抱緊太子大腿
免責(zé)聲明:本文內(nèi)容由開放的智能模型自動生成,僅供參考。