陳鴻圣
機(jī)器之心原創(chuàng)
作者:張倩
在Transformer問世并統(tǒng)治大模型領(lǐng)域八年之后,親手創(chuàng)造它的谷歌也有了另起爐灶的苗頭。
上個月,谷歌產(chǎn)品負(fù)責(zé)人LoganKilpatrick指出現(xiàn)有注意力機(jī)制的局限性,緊接著谷歌就推出了新架構(gòu)MoR。這些動作表明,AI領(lǐng)域的「架構(gòu)革新」已成為廣泛共識。
在最近開幕的WAIC世界人工智能大會上,我們也看到了這種趨勢,甚至國內(nèi)企業(yè)的做法比谷歌的變革還要徹底。
視頻中的這個靈巧手是由一個離線的多模態(tài)大模型驅(qū)動的。雖然模型只有3B大小,但部署到端側(cè)后,無論是對話效果還是延遲幾乎都可以媲美云端運(yùn)行的比它要大得多的模型,而且它還擁有「看、聽、想」等多模態(tài)能力。
重要的是,它并非基于Transformer,而是基于國內(nèi)AI創(chuàng)企RockAI提出的非Transformer架構(gòu)Yan2.0Preview。這個架構(gòu)極大地降低了模型推理時(shí)的計(jì)算復(fù)雜度,因此可以在算力非常有限的設(shè)備上離線運(yùn)行,比如樹莓派。
而且,和其他在設(shè)備端運(yùn)行的「云端大模型的小參數(shù)版本」不同,這個模型擁有一定的原生記憶能力,能夠在執(zhí)行推理任務(wù)的同時(shí)把記憶融入自己的參數(shù)
也就是說,在和其他大模型對話時(shí),你每次打開一個新的窗口,模型都不記得你們之前聊過什么,就像一個每天睡一覺就會把你忘了的朋友,每天都見但每天都是「初見」。相比之下,基于Yan架構(gòu)的模型會隨著時(shí)間推移越來越了解你,并基于這些信息去回答你的每一個問題。這是當(dāng)前大多數(shù)基于Transformer的云端大模型都做不到的,更不用提被剪枝、蒸餾等手段破壞了再學(xué)習(xí)能力的「小模型」。
為什么RockAI要對Transformer進(jìn)行如此徹底的變革?這些變革是怎么實(shí)現(xiàn)的?對于AGI的實(shí)現(xiàn)有何意義?在和RockAI的創(chuàng)始團(tuán)隊(duì)深入對談后,我們得到了一份有價(jià)值的答案。
Transformer火了那么久,RockAI為什么要「另起爐灶」?
RockAI對Transformer的挑戰(zhàn)不是今年才開始的。其實(shí)早在2024年1月,他們就推出了Yan架構(gòu)1.0版本,在此之前已經(jīng)花了兩年時(shí)間探索架構(gòu)創(chuàng)新。
眾所周知,Transformer存在「數(shù)據(jù)墻」和「算力依賴」等問題。一方面,現(xiàn)有的大模型都是用海量數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,但隨著高價(jià)值數(shù)據(jù)獲取難度越來越大,這條路變得越來越難走。另一方面,Transformer模型的推理對算力要求非常高,如果不經(jīng)過量化、裁剪等操作,模型很難在低算力設(shè)備上直接部署。而且,即使能夠部署,這樣的模型也很難再進(jìn)行大的更新,因?yàn)榉聪騻鞑ニ璧挠?jì)算量非一般設(shè)備可以負(fù)荷,「訓(xùn)推同步」(即讓模型在執(zhí)行推理任務(wù)的同時(shí)還能進(jìn)行學(xué)習(xí)和參數(shù)更新,就像小孩在和大人相處的過程中學(xué)習(xí)新東西)很難實(shí)現(xiàn)。而量化、裁剪等操作更是破壞了模型的再學(xué)習(xí)能力。
如此一來,設(shè)備端的Transformer模型就成了一個「靜態(tài)」的模型,其智能水平在模型部署時(shí)就被鎖死。
為了從根本上解決這些問題,RockAI從一開始就走了一條非常徹底的變革路線,從0到1探索非Transformer、非Attention機(jī)制的Yan架構(gòu)。更難能可貴的是,他們不僅快速找到了有效的技術(shù)路徑,還成功在算力有限的設(shè)備上實(shí)現(xiàn)了商業(yè)落地。
Yan2.0Preview:全球首個擁有「原生記憶力」的大模型
下圖展示了Yan2.0Preview與其他架構(gòu)的效果與性能對比結(jié)果。從中可以看出,無論是相比于Transformer架構(gòu)下的核心主流模型,還是非Transformer架構(gòu)的新一代模型,Yan2.0Preview在生成、理解以及推理等多個關(guān)鍵指標(biāo)上都有不錯的優(yōu)勢,這充分說明了Yan架構(gòu)在「性能/參數(shù)」比(即效率)上的巨大優(yōu)勢。
當(dāng)然,這還不是核心看點(diǎn),畢竟在Yan1.3的時(shí)候我們就已經(jīng)見識過它驚艷的計(jì)算效率。這次的看點(diǎn)是「記憶」
我們觀察到,無論是最近的新論文、新產(chǎn)品還是公共討論,「記憶」都在成為一個焦點(diǎn)——它既被視為當(dāng)前LLM的關(guān)鍵短板,也被看作下一輪AI應(yīng)用的商業(yè)化落地突破口。想象一下,一個會說話、擁有和你之間專屬記憶的Labubu在和你相處多年之后,是不是情感羈絆更深?
不過,在技術(shù)路線上,當(dāng)前業(yè)內(nèi)主要還是用一種「外掛」的方式(如長上下文疊加搜索引擎或RAG)來幫大模型加長記憶。RockAI并不看好這種方式,因?yàn)槭紫龋研畔⒆鳛橐淮蛄衼硖幚?,沒有真正的「時(shí)間」概念(這點(diǎn)對于隨時(shí)間演進(jìn)的真實(shí)學(xué)習(xí)至關(guān)重要),這和人類的記憶方式有著本質(zhì)的區(qū)別。其次,它無法實(shí)現(xiàn)真正的個性化。
「回顧人類社會,每個人都擁有獨(dú)特的記憶。人與人之間的差異正是源于不同的記憶和經(jīng)驗(yàn),這些差異最終形成了人類社會的多樣性,塑造了我們各自不同的行為方式和表達(dá)風(fēng)格。目前,我們使用的商業(yè)模型本質(zhì)上都是云端的同一個模型,缺乏真正的個性化,只能通過調(diào)取聊天記錄來提供上下文。這種模式存在明顯局限——比如在寫作時(shí),模型無法根據(jù)用戶的個人風(fēng)格來生成內(nèi)容?!筊ockAICEO劉凡平指出。
他認(rèn)為,只有在模型中融入原生記憶能力,這種情況才能發(fā)生改變。因此,他們的Yan2.0Preview選擇了另一條路線——將模型理解后的信息內(nèi)化到神經(jīng)網(wǎng)絡(luò)的權(quán)重中,使其成為模型自身的一部分,這更接近生物的記憶方式。
下圖是Yan2.0Preview架構(gòu)示意圖。它通過一個可微的「神經(jīng)網(wǎng)絡(luò)記憶單元」實(shí)現(xiàn)記憶的存儲、檢索和遺忘。
在原理上,這種機(jī)制與人工智能從早期機(jī)器學(xué)習(xí)到深度學(xué)習(xí)的演進(jìn)有相似之處。早期機(jī)器學(xué)習(xí)需手動設(shè)計(jì)或提取特征,可解釋性強(qiáng),但定制化嚴(yán)重,對專家經(jīng)驗(yàn)依賴度高。深度學(xué)習(xí)則可自動提取特征,通過設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)、設(shè)定優(yōu)化目標(biāo)和策略,在數(shù)據(jù)語料上完成模型訓(xùn)練,實(shí)現(xiàn)端到端學(xué)習(xí)。與之類似,Yan2.0Preview也實(shí)現(xiàn)了端到端的記憶,無需用戶去手動管理外掛知識庫(增刪改查),使用起來更加便捷。
在現(xiàn)場,我們通過一個「現(xiàn)學(xué)現(xiàn)會」的機(jī)器狗感受到了Yan2.0Preview的原生記憶能力。在「聊天窗口」重開后,機(jī)器狗依然能記得它學(xué)過的動作和偏好。
當(dāng)記憶深度融合進(jìn)模型架構(gòu),它所帶來的不再是短暫的「緩存」,而是一種具備時(shí)間維度、個性化特征和交互上下文的「智能積累」。這種模式成熟后,或?qū)⒋蚱片F(xiàn)有大模型依賴海量數(shù)據(jù)的學(xué)習(xí)范式。
模型角色也將隨之轉(zhuǎn)變——從單純的回答者,逐步成為用戶思維與決策的延伸體,真正實(shí)現(xiàn)「長期陪伴、個性服務(wù)」。當(dāng)這一能力在本地終端部署時(shí),結(jié)合端側(cè)的隱私保障與實(shí)時(shí)響應(yīng)優(yōu)勢,設(shè)備便從被動工具蛻變?yōu)閾碛懈兄?、記憶和學(xué)習(xí)能力的「數(shù)字大腦」。
離線智能:「讓世界上每一臺設(shè)備擁有自己的智能」
每個嘗試挑戰(zhàn)Transformer的研究者,都深知這件事做成有多難。RockAICTO楊華表示,RockAI之所以能堅(jiān)持至今,背后是團(tuán)隊(duì)多年來所秉持的三個核心理念:
第一,他們認(rèn)為,AI應(yīng)該是普惠的,不應(yīng)只存在于云端。AI必須與物理世界交互才能發(fā)揮最大價(jià)值,這要求它必須存在于設(shè)備上。這點(diǎn)已經(jīng)成為業(yè)界共識,也是當(dāng)前具身智能、空間智能等方向火爆的原因之一。
第二,從長遠(yuǎn)來看,一個真正的智能設(shè)備不應(yīng)是靜態(tài)的,而應(yīng)能成長和進(jìn)化。具備學(xué)習(xí)能力才能確保「個體」智能足夠聰明。這點(diǎn)也在最近業(yè)界對「自我進(jìn)化AI」的討論中得到了體現(xiàn)。不過,RockAI強(qiáng)調(diào),這種自我進(jìn)化應(yīng)該發(fā)生在「個體」設(shè)備上,而不是一個云端的大模型上。
第三,在「個體」變得足夠聰明之后,它們所組成的網(wǎng)絡(luò)有望涌現(xiàn)出群體智能,就像已經(jīng)創(chuàng)造出如此璀璨文明的人類社會。RockAI認(rèn)為,群體智能是邁向通用人工智能(AGI)的關(guān)鍵路徑。
這些理念落實(shí)到行動,就形成了RockAI當(dāng)前的主要使命——「讓世界上每一臺設(shè)備擁有自己的智能」。
這個使命聽上去很像「端側(cè)智能」。但楊華強(qiáng)調(diào)說,他們追求的其實(shí)是「離線智能」,只使用本地設(shè)備的算力,不像很多采用「端云結(jié)合」的設(shè)備一樣需要聯(lián)網(wǎng)。而且在這種離線運(yùn)行的模式下,模型能夠?qū)崿F(xiàn)自主學(xué)習(xí),而不是部署的時(shí)候就被鎖死。擁有這種自主學(xué)習(xí)能力的模型可以理解為一個有學(xué)習(xí)潛力的孩子,盡管剛走出家門時(shí)能力不及30歲的博士,但隨著后續(xù)成長會變得越來越強(qiáng)。
不要小看這種「成長」的價(jià)值,未來的設(shè)備PK的可能就是這種能力。劉凡平提到,現(xiàn)在我們買硬件主要看配置,都是一次性買賣,買到手里就開始貶值。但有了記憶和自主學(xué)習(xí)能力之后,硬件的長期價(jià)值才開始顯現(xiàn),智能的程度和進(jìn)化能力會成為硬件的差異化賣點(diǎn)。
此外,這種「成長」也為群體智能的涌現(xiàn)提供了可能——只有當(dāng)每臺設(shè)備都具備自主學(xué)習(xí)能力時(shí),它們才能真正實(shí)現(xiàn)知識共享、協(xié)同進(jìn)化,最終涌現(xiàn)出超越單體智能簡單相加的集體智慧,這也是RockAI的終極愿景。
從「質(zhì)疑」到「共識」:RockAI一直在做「難而正確」的事情
回顧過去幾年的研發(fā)歷程,RockAI能夠明顯感覺到外界對他們所選擇的技術(shù)路線的態(tài)度轉(zhuǎn)變。
幾年前,提到要做群體智能、要另起爐灶研發(fā)新架構(gòu),外界的反應(yīng)更多是新奇、不解和質(zhì)疑,因?yàn)檫@不像一個初創(chuàng)團(tuán)隊(duì)該做的事情。
這次原生記憶能力的展現(xiàn),讓大家看到了RockAI的與眾不同。他們并非停留在簡單的模型訓(xùn)練與參數(shù)堆疊層面,而是在堅(jiān)持「難而正確」的技術(shù)路徑上,以「記憶」為核心重新定義大模型的能力邊界,帶來了驚人的使用體驗(yàn)。
RockAICMO鄒佳思說,這一技術(shù)路線的選擇讓他們在整個WAIC會場顯得非常與眾不同,很多對端側(cè)部署、記憶能力有需求的硬件廠商來找他們了解技術(shù)方案。這些廠商也嘗試過基于Transformer的模型,但體驗(yàn)明顯沒有滿足需求。此外,還有一些廠商已經(jīng)和RockAI達(dá)成了合作。非Transformer的Yan架構(gòu)正在AI硬件市場擴(kuò)散開來。
不得不承認(rèn),RockAI幾年前的決定非常有前瞻性,也用科研、商業(yè)化成果回應(yīng)了外界的質(zhì)疑。
楊華表示,未來,他們要繼續(xù)做這件「難而正確」的事情。甚至為了實(shí)現(xiàn)更高效的自主學(xué)習(xí)能力,他們在持續(xù)向人工智能的根基——反向傳播算法發(fā)起挑戰(zhàn),目前的解決方案已經(jīng)在小規(guī)模數(shù)據(jù)上完成了指標(biāo)測試和訓(xùn)練收斂性驗(yàn)證,證明了方案的基本可行性。
在眾多AI創(chuàng)業(yè)公司中,這種前瞻性和堅(jiān)持自己道路的韌性非常少見,很像OpenAI等前沿實(shí)驗(yàn)室的來時(shí)路。畢竟在Ilya忙著擴(kuò)大規(guī)模時(shí),scalinglaw也還沒成為共識。從RockAI身上,我們看到了一種難能可貴的「長期主義」精神——在浮躁的創(chuàng)業(yè)環(huán)境中,依然愿意花費(fèi)數(shù)年時(shí)間去攻克底層技術(shù)難題,去驗(yàn)證那些看似「不切實(shí)際」的技術(shù)理念。
創(chuàng)新是孤獨(dú)的,期待RockAI和更多探索者在這條路上走得更遠(yuǎn)。
文中視頻鏈接:https://mp.weixin.qq.com/s/SMGF77V0z6yoa6G6fDe7WQ
最遠(yuǎn)的你,是我最深的愛??安冬悅
等你對我嫣然一笑-——。最遠(yuǎn)的你,是我最深的愛,今生沒有任何一個人可以替代你的地位,在我的內(nèi)心之處,你始終占據(jù)著重要的地位-_。不能忘,不能放,即使天涯路遠(yuǎn),心若在一起,處處是晴天。在余生的每一個清晨與日暮,我都將你念著,想著,直至垂垂老矣_。END- 想了解更多精彩內(nèi)容,快來關(guān)注水墨青荷美文苑后面會介紹-。
最遠(yuǎn)的你是我最深的愛
“你來這里干什么?給我滾出去!”待看清從車上下來的女人,沈希的雙眼變得赤紅。憤怒、嫉妒,怨恨在心里洶涌著翻滾,讓她恨不得掐死眼前這個女人。柳蘇蘇,娛樂圈當(dāng)紅小花旦,卻也是霍子琛的情人。說起來可笑,沈希嫁給霍子琛,盛大的婚禮轟動一時(shí),全城矚目|??扇巳藚s都知道,霍子琛不愛她,因?yàn)樗阉械膼蹜俸偷酱私Y(jié)束了?。
最遠(yuǎn)的你,是我最深的愛
愛,在江南里升騰著。03.而你,永遠(yuǎn)是我觸摸不到的遠(yuǎn)方,雖有緣分,卻只是緣分很淺,仿佛前世你只是我遇上的美麗鳳凰,朝著我微微一笑而已|。我在這曾經(jīng)最美的地方,以一顆執(zhí)著的心,靜靜地佇立著,等待著,希望你如夢如幻的身影,再一次出現(xiàn)在我的江南,我的世界里。最遠(yuǎn)的距離,成就了我們一生的離殤,卻阻隔不說完了--。
來源:紅網(wǎng)
作者:陳勝泉
編輯:軍嘉言
本文為紅辣椒評論 原創(chuàng)文章,僅系作者個人觀點(diǎn),不代表紅網(wǎng)立場。轉(zhuǎn)載請附原文出處鏈接和本聲明。