智東西作者王涵編輯漠影
智東西7月25日消息,今天,前Meta員工沈俊瀟(ShawnShen)在海外社交媒體X上宣布,其和EnminZhou聯(lián)合創(chuàng)立的Memories.ai,正式推出其首款大型視覺記憶模型(LargeVisualMemoryModel)。
沈俊瀟還宣布Memories.ai已完成由SusaVentures領(lǐng)投,CraneVenturePartners、三星Next、FusionFund等機(jī)構(gòu)跟投的800萬美元(約合人民幣5730萬元)種子輪融資。
感興趣的用戶立即享受首月免費(fèi)體驗(yàn),無需任何附加條件。
體驗(yàn)地址:https://memories.ai/app
▲沈俊瀟官宣推文(來源:X)
這一技術(shù)旨在為多模態(tài)大語(yǔ)言模型(multi-modalLLMs)賦予視覺記憶回溯能力。該模型實(shí)現(xiàn)了視覺記憶檢索功能,能夠解析用戶意圖,檢索相關(guān)視覺記憶片段,整合關(guān)聯(lián)的視覺記憶信息,并基于這些記憶和用戶查詢進(jìn)行推理。
其創(chuàng)新點(diǎn)在于智能決策機(jī)制,能自主判斷何時(shí)、如何及調(diào)取哪些視覺記憶。完成記憶信息整合后,模型能生成記憶引用,并以正確輸出格式回答用戶問題,這使得多模態(tài)大模型具備無限長(zhǎng)視覺記憶上下文處理能力。
Memories.ai的兩位聯(lián)合創(chuàng)始人均是華人,沈俊瀟在博客中透露自己14歲就遠(yuǎn)赴英國(guó)讀高中。
一、兩位華人聯(lián)合創(chuàng)立,曾14歲就遠(yuǎn)赴英國(guó)求學(xué)
1999年出生的沈俊瀟,初中在蘇州上學(xué),14歲就獲得獎(jiǎng)學(xué)金到遠(yuǎn)赴英國(guó)讀高中。領(lǐng)英主頁(yè)顯示,其本碩博均在劍橋大學(xué)就讀,2019年取得了工程專業(yè)的文學(xué)學(xué)士學(xué)位(劍橋大學(xué)等部分高校保留傳統(tǒng)BA授予制度,其工程專業(yè)畢業(yè)生仍獲BA學(xué)位),2020年取得都柏林圣三一學(xué)院的工程學(xué)碩士學(xué)位,2023年獲得工程學(xué)哲學(xué)博士學(xué)位。
在本科就讀期間,沈俊瀟還曾回到上海摩根士丹利短期實(shí)習(xí),在博士就讀期間,2022年,他到了Meta現(xiàn)實(shí)實(shí)驗(yàn)室工作,擔(dān)任研究科學(xué)家職位。2024年沈俊瀟離職創(chuàng)業(yè),聯(lián)合創(chuàng)立了Memories.ai。
▲左:沈俊瀟,右:EnminZhou(圖源:Memories.ai)
Memories.ai聯(lián)合創(chuàng)始人兼CTOEnminZhou,2020年從美國(guó)加州大學(xué)洛杉磯分校畢業(yè),獲得數(shù)學(xué)與計(jì)算科學(xué)學(xué)士學(xué)位,后在美國(guó)布朗大學(xué)就讀數(shù)據(jù)科學(xué)專業(yè),于2022年畢業(yè)。
本科就讀期間他也曾回到上海,在上海深察信息科技短暫實(shí)習(xí),碩士畢業(yè)后在Meta就職,擔(dān)任機(jī)器學(xué)習(xí)工程師一職。2024年EnminZhou離職創(chuàng)業(yè),聯(lián)合創(chuàng)立了Memories.ai。
在博客中,沈俊瀟寫道,他們正是因?yàn)橐庾R(shí)到解決視覺記憶問題刻不容緩,才離開Meta共同創(chuàng)立Memories.ai。
二、視頻問答能力超越Gemini2.5Pro、OpenAIGPT4o和GPT4.1
從性能上看,在視頻零樣本分類基準(zhǔn)測(cè)試中,Memories.ai的分?jǐn)?shù)都較歷史第一的模型PE-G都一定上漲,其中在HMD8數(shù)據(jù)庫(kù)中,分?jǐn)?shù)上漲了7.6分,在K400數(shù)據(jù)庫(kù)中,分?jǐn)?shù)上漲了6.6分。
視頻檢索基準(zhǔn)測(cè)試中,Memories.ai在所有數(shù)據(jù)集中的分?jǐn)?shù)都超越了歷史第一PerceptionEncoder,各項(xiàng)測(cè)試均奪得桂冠,其中在AVN數(shù)據(jù)集的文字轉(zhuǎn)視頻測(cè)試中,其分?jǐn)?shù)較PerceptionEncoder提升了11分。
視頻問答基準(zhǔn)測(cè)試中,Memories.ai在MVBench、NextQA以及TempCompass數(shù)據(jù)集中,全面超越OpenAIGPT4o;在ActivityNetQA和PerceptionText數(shù)據(jù)集中,超越谷歌Gemini2.5Pro和OpenAIGPT4.1,取得新的性能記錄。
▲包括OpenAI和谷歌模型系統(tǒng)在內(nèi)的比較數(shù)據(jù),均源自O(shè)penAI和谷歌各自的官方發(fā)布博客。
三、受人類記憶機(jī)制啟發(fā),建立初始記憶架構(gòu)
在另一篇技術(shù)博客中,沈俊瀟介紹到,Memories.ai的創(chuàng)造是受了人類記憶機(jī)制啟發(fā),而創(chuàng)立的整個(gè)大視覺記憶模型的初始記憶架構(gòu),包括:
將記憶線索轉(zhuǎn)化為可搜索請(qǐng)求的查詢模型、用于粗粒度檢索的檢索模型、全模態(tài)索引模型、用于細(xì)粒度細(xì)節(jié)提取的選擇模型、用于記憶監(jiān)控的反思模型,以及用于記憶重構(gòu)的重建模型。
記憶檢索過程可分解為以下關(guān)鍵步驟:
1、記憶線索:激發(fā)回憶過程
回憶通常始于線索。線索可以是外部的,如問題、舊照片、旋律、氣味、地名;也可以是內(nèi)部的,如念頭、情緒。當(dāng)大腦接收線索時(shí),會(huì)激活與目標(biāo)記憶相關(guān)的特定神經(jīng)網(wǎng)絡(luò)。
在系統(tǒng)中,采用查詢模型將線索(主要為基于文本的線索)轉(zhuǎn)化為具體的、可搜索的內(nèi)容,涉及文本解析和轉(zhuǎn)錄等步驟,將線索轉(zhuǎn)化為適合后續(xù)處理的格式。
2、粗粒度檢索:初步“篩選”
激活過程并非總是精確的,初始檢索往往粗略且泛化。大腦快速搜索海量信息,尋找與當(dāng)前線索最匹配的模式,一些相關(guān)的視覺片段可能會(huì)被初步激活,此為“線索依賴性回憶”。
在系統(tǒng)中,使用檢索模型進(jìn)行粗粒度檢索。對(duì)于上一步解析的查詢對(duì)象,檢索模型選擇合適的數(shù)據(jù)庫(kù)和查詢方法,識(shí)別所有相關(guān)片段,減輕“線索依賴性回憶”的影響,并激活所有相關(guān)視覺片段。
3、細(xì)粒度細(xì)節(jié)提取:深度“閱讀”與“編輯”
當(dāng)初始線索激活相關(guān)區(qū)域后,大腦進(jìn)入更精細(xì)的處理階段,記憶的重構(gòu)特性開始顯現(xiàn):
細(xì)節(jié)補(bǔ)全:大腦填補(bǔ)記憶的細(xì)節(jié),這些細(xì)節(jié)可能基于對(duì)世界的理解、邏輯推理和過往經(jīng)驗(yàn)推斷補(bǔ)充。
關(guān)聯(lián)整合:大腦將不同信息片段(如視覺圖像、聽覺片段和情緒波動(dòng))關(guān)聯(lián)整合,形成更完整的記憶圖景。
過濾選擇:大腦根據(jù)當(dāng)前目標(biāo)和問題,從所有激活信息中過濾出最相關(guān)和最重要的片段,具有高度目的性。
在系統(tǒng)中,使用全模態(tài)字幕模型和選擇模型進(jìn)行細(xì)粒度細(xì)節(jié)提取。對(duì)于所有視覺片段,全模態(tài)字幕代理結(jié)合記憶線索為關(guān)鍵核心內(nèi)容添加字幕。選擇代理基于所有已字幕內(nèi)容進(jìn)行推理,篩選出若干最相關(guān)的視覺片段,縮小記憶搜索范圍,基本完成視覺記憶檢索過程。
4、記憶監(jiān)控:記憶的“自我校正”
回憶過程中,大腦會(huì)監(jiān)控和驗(yàn)證檢索到的信息,評(píng)估其準(zhǔn)確性和真實(shí)性,包括將其與現(xiàn)有的知識(shí)、信念和其他相關(guān)記憶進(jìn)行比較。若回憶信息與已知事實(shí)相矛盾,可能會(huì)嘗試進(jìn)一步回憶或修正。
在系統(tǒng)中,使用反思模型進(jìn)行記憶檢測(cè)和驗(yàn)證。當(dāng)檢索到的記憶內(nèi)容與事實(shí)沖突或不一致時(shí),會(huì)重新進(jìn)入細(xì)粒度細(xì)節(jié)提取階段。
5、記憶重構(gòu):從碎片到“精修版”
回憶復(fù)雜事件時(shí),大腦傾向于提取事件的核心要點(diǎn)、主要參與者和關(guān)鍵結(jié)果,過濾掉較不重要或冗余的信息,將其概括為更易存儲(chǔ)和檢索的形式。重構(gòu)過程還涉及將分散的記憶碎片整合成有意義的模式,組織成連貫的敘述或概念。
在系統(tǒng)中,使用重建模型進(jìn)行記憶重構(gòu)。基于記憶線索和所有當(dāng)前檢索到的信息,識(shí)別信息模式,利用世界知識(shí)和邏輯推理補(bǔ)全缺失細(xì)節(jié),過濾和精煉無關(guān)或冗余信息,將分散的感知、概念和情感片段整合成連貫、有意義的敘述或概念結(jié)構(gòu)。
結(jié)語(yǔ):或?qū)⒊蔀锳GI發(fā)展的重要節(jié)點(diǎn)
沈俊瀟在博客中稱“這是在通用人工智能(AGI)發(fā)展中的一步?!?/p>
Memories.ai此次推出的大型視覺記憶模型,在技術(shù)路徑上以人類大腦的記憶機(jī)制為參照構(gòu)建了初始架構(gòu),其具備的視覺記憶檢索、整合及推理能力,在視頻分類、檢索、問答等基準(zhǔn)測(cè)試中展現(xiàn)出一定性能優(yōu)勢(shì)。
而800萬美元種子輪(約合人民幣5730萬元)融資的完成,也體現(xiàn)了投資機(jī)構(gòu)對(duì)該技術(shù)方向的關(guān)注。
獨(dú)家好書《回到明朝做仁君》,這個(gè)主角簡(jiǎn)直要封神!
張?zhí)鞄燒埢⑸揭幻},歷來都得到大明皇室的看重,每一代天師都受大明皇室冊(cè)封,而且會(huì)在京城駐守,統(tǒng)領(lǐng)天下道門,可以說是皇恩隆重。原本這也沒什么,平日里祈個(gè)福、做個(gè)法,算得上正常??墒钦l(shuí)讓大明出了一個(gè)嘉靖皇帝,搞了一個(gè)烏煙瘴氣-。而且這還過去沒多少年,朝堂上的這些臣子對(duì)那件事情是記憶猶新,尤其是張閣老。何況嘉靖皇帝不光是煉丹求 比起馮保,張宏的心思可就要單純的多了。這是一個(gè)沒有什么野心,而且很沉穩(wěn)的老太監(jiān),說白了就是本分,現(xiàn)在他做的事情就是按照他的本分去做的_|。等到兩人都走了之后,李太后再次坐到朱翊鈞的身邊,伸手握住兒子的手,輕聲道:“皇兒,別怕,母后馬上就找人來救你——。”皇宮里面鬧鬧騰騰,消息自然已經(jīng)傳到了外面|。劉守希望你能滿意。小說:洪武初年我重生,勸人辭官保命,卻被嘲瘋癲