機(jī)器之心報(bào)道
機(jī)器之心編輯部
大家都在關(guān)注硅谷AI領(lǐng)頭羊們的搶人大戲,尤其是Meta近期又挖去了三位來(lái)自谷歌的IMO金牌研究者。
雖然說(shuō)小扎(扎克伯格)鉚足了勁兒要重振Llama雄風(fēng),正如火如荼的進(jìn)行人才大引進(jìn)。
但是吧,挖進(jìn)去的人在Meta顯山露水還需要一段時(shí)間,而從Meta離開(kāi)的人的創(chuàng)業(yè)成果已經(jīng)嶄露頭角了。
Dr.ShawnShen,聯(lián)合創(chuàng)始人兼首席執(zhí)行官(左);Ben(Enmin)Zhou,聯(lián)合創(chuàng)始人兼首席技術(shù)官(右)。
前MetaRealityLabs頂尖科學(xué)家團(tuán)隊(duì)創(chuàng)立的AI研究實(shí)驗(yàn)室Memories.ai,正式宣布完成800萬(wàn)美元種子輪融資。本輪融資由SusaVentures領(lǐng)投,三星風(fēng)投(SamsungNext)、FusionFund等知名機(jī)構(gòu)跟投。
Memories.ai團(tuán)隊(duì)已經(jīng)在大模型領(lǐng)域完成了一項(xiàng)重大的突破成果,劍指AI系統(tǒng)的「記憶缺失」問(wèn)題,為視覺(jué)模型創(chuàng)造了強(qiáng)大的「記憶大腦」。
「最強(qiáng)大腦」
眾所周知,大模型是標(biāo)標(biāo)準(zhǔn)準(zhǔn)的「金魚記憶」
比如,大多數(shù)AI系統(tǒng)都缺乏對(duì)歷史畫面的記憶,難以理解前后之間的關(guān)聯(lián)。
就像我們經(jīng)常開(kāi)的玩笑,「記憶是個(gè)先進(jìn)先出?!梗徊贿^(guò)大模型的棧容量似乎總是不夠用。
這種「金魚記憶」限制了它們?cè)谛枰钊肜斫鈭?chǎng)景和動(dòng)態(tài)變化的應(yīng)用中發(fā)揮作用,尤其是在視頻密集型任務(wù)里表現(xiàn)不佳。
為了徹底解決這個(gè)問(wèn)題,Memories.ai通過(guò)其核心創(chuàng)新——大視覺(jué)記憶模型(LVMM),為AI系統(tǒng)引入了一個(gè)革命性的視覺(jué)記憶層
該模型突破了傳統(tǒng)AI在視頻處理中僅限于片段式分析的范式,轉(zhuǎn)而能夠持續(xù)捕獲、存儲(chǔ)和結(jié)構(gòu)化海量的視覺(jué)數(shù)據(jù),從而使AI模型能夠:
永久保留上下文信息:從孤立的幀轉(zhuǎn)向?qū)κ录蚬湹纳疃壤斫狻?/p>
精準(zhǔn)識(shí)別時(shí)序模式:實(shí)現(xiàn)對(duì)人臉、物體和行為在時(shí)間軸上的持續(xù)追蹤和識(shí)別。
智能對(duì)比分析:快速對(duì)比新舊視覺(jué)信息,有效識(shí)別變化和異常。
該平臺(tái)把原始視頻轉(zhuǎn)化成可搜索、帶上下文關(guān)聯(lián)的數(shù)據(jù)庫(kù),讓AI系統(tǒng)具備類似人類的持續(xù)學(xué)習(xí)能力,給AI系統(tǒng)配備了無(wú)限視覺(jué)記憶的「最強(qiáng)大腦」。這一突破讓AI在理解視頻和實(shí)際應(yīng)用方面,邁出了里程碑式的一步。
該團(tuán)隊(duì)的大視覺(jué)記憶模型不僅在多個(gè)視覺(jué)理解任務(wù)中刷新了SOTA基準(zhǔn),更提供了一種全新的視角來(lái)解決復(fù)雜視覺(jué)信息檢索與理解的挑戰(zhàn)。
這些結(jié)果充分證明了模型在視頻分類、視頻檢索和視頻問(wèn)答領(lǐng)域的「卓越性能」。
尤其在視覺(jué)記憶檢索方面,能夠高效處理那些需要大規(guī)模內(nèi)容檢索作為輔助參考的復(fù)雜查詢,從而顯著提升了模型的應(yīng)用廣度與深度。
「巨大潛能」
LVMM技術(shù)在多個(gè)關(guān)鍵領(lǐng)域展現(xiàn)出巨大的應(yīng)用潛力,其核心優(yōu)勢(shì)在于:
時(shí)間跨度無(wú)限制:能夠處理并記憶數(shù)月甚至數(shù)年的視頻數(shù)據(jù)。上下文深度理解:不僅識(shí)別物體,更能理解事件的因果鏈和時(shí)序模式。高效檢索與分析:將原始視頻轉(zhuǎn)化為可搜索數(shù)據(jù)庫(kù),實(shí)現(xiàn)秒級(jí)檢索和分析。
該團(tuán)隊(duì)已與多個(gè)領(lǐng)域的合作伙伴展開(kāi)合作,推動(dòng)LVMM技術(shù)的應(yīng)用落地:
安防安全:顯著提升監(jiān)控錄像的檢索效率,在數(shù)秒內(nèi)搜索數(shù)月的數(shù)據(jù)。媒體娛樂(lè):實(shí)現(xiàn)對(duì)數(shù)十年內(nèi)容庫(kù)中特定場(chǎng)景或視覺(jué)元素的即時(shí)查找。市場(chǎng)營(yíng)銷:對(duì)數(shù)百萬(wàn)社交視頻進(jìn)行深度情感和提及分析,捕捉新興趨勢(shì)。消費(fèi)電子:為下一代移動(dòng)體驗(yàn)引入強(qiáng)大的視覺(jué)記憶能力,多家手機(jī)公司,如三星已成為首批合作對(duì)象之一。
Memories.ai聯(lián)合創(chuàng)始人兼首席執(zhí)行官沈博士強(qiáng)調(diào):「人類的智慧源于豐富的、相互關(guān)聯(lián)的視覺(jué)記憶。我們的使命是賦予AI這種深度的情境感知能力,以共同構(gòu)建一個(gè)更安全、更智能的世界。」
「便捷交互」
為了讓用戶更直觀地體驗(yàn)LVMM(大視覺(jué)記憶模型)的強(qiáng)大能力,該團(tuán)隊(duì)已將核心技術(shù)通過(guò)API接口全面開(kāi)放,并同步推出直觀、可交互的網(wǎng)頁(yè)應(yīng)用。用戶可以便捷地上傳視頻或接入現(xiàn)有視頻庫(kù),實(shí)現(xiàn)快速、精準(zhǔn)的內(nèi)容檢索與深度分析。
借助毫秒級(jí)精度的檢索引擎,在視頻問(wèn)答場(chǎng)景中展現(xiàn)了卓越的視頻幀級(jí)引用能力,真正實(shí)現(xiàn)了對(duì)視頻的多模態(tài)深度解析。
還有一系列的DemoAgents,展示了模型在不同場(chǎng)景下的應(yīng)用能力,例如:
VideoCreator對(duì)話式視頻創(chuàng)作助手,基于全球首個(gè)大視覺(jué)記憶模型,通過(guò)可自由編輯的提示詞模板,僅用簡(jiǎn)單對(duì)話即可生成多剪輯高質(zhì)量視頻。
VideoMarketer是一個(gè)基于大視覺(jué)記憶模型的智能營(yíng)銷工具,依托海量視頻數(shù)據(jù),能即時(shí)洞察TikTok的爆款趨勢(shì)、熱門開(kāi)場(chǎng)白和頭部網(wǎng)紅策略,助力高效實(shí)現(xiàn)社交視頻營(yíng)銷。
這些DemoAgents不僅是技術(shù)能力的展示,更是探索未來(lái)應(yīng)用的起點(diǎn)。
如果你是一家公司,正被海量視頻數(shù)據(jù)淹沒(méi);或者是一位對(duì)視覺(jué)記憶與智能交叉點(diǎn)著迷的研究者;又或者只是好奇當(dāng)人工智能擁有記憶之后會(huì)變成什么樣——?dú)g迎訪問(wèn)https://memories.ai。
延伸閱讀:與 中化巖土何以支撐:6!!天4板 的相關(guān)文章