智東西作者|程茜編輯|漠影
智東西7月26日報道,今日,世界人工智能大會開幕,在上海一家AI創(chuàng)企的展臺前,我們目睹了中國AI創(chuàng)業(yè)公司正向著主流Transformer架構發(fā)起強勢沖鋒。
一臺機器狗,學習了用戶的打招呼手勢后,不到30秒就學會并復刻了動作,且完全模仿了用戶使用右手打招呼的動作,值得注意的是,這一過程是在不依賴云端、完全離線部署的情況下實現(xiàn)的。
這正是RockAI展臺正在上演的場景。RockAI2024年1月發(fā)布了國內(nèi)首個基于非Transformer架構的大模型Yan1.0、2024年9月發(fā)布Yan1.3群體智能單元大模型,再到如今最新的Yan2.0Preview模型,此次機器狗亮眼表現(xiàn)的關鍵之一就是其在Yan2.0Preview模型中引入了記憶、自主學習能力。
3B參數(shù)規(guī)模的Yan2.0Preview,在ARC-C、ARC-E、WinoGrande等部分榜單上的性能表現(xiàn)已經(jīng)超過參數(shù)規(guī)模更大的Llama3、Qwen3、Gemma3。
RockAICEO劉凡平談道,Transformer架構是先預訓練再微調、應用,現(xiàn)在Yan架構模型是在物理世界中學習、交互,不需要依賴云端,打破了現(xiàn)在大模型的學習模式,Yan2.0Preview的出現(xiàn)就承載了模型的自主學習能力。
一、30秒離線精準復刻動作,讓模型擁有“原生記憶能力”
這次在WAIC上,RockAI發(fā)布的Yan2.0Preview同樣是基于非Transformer架構Yan架構,具備文本、視覺、音頻多模態(tài)理解,以及端到端音頻和文生成的能力。
話不多說,先來看效果。
基于Yan2.0Preview的靈巧手可以在展臺自主玩推箱子游戲,可以看到它會根據(jù)具體情況對下一步行動進行分析、評估,最終使得箱子被放置到正確的位置。
2024年1月,Yan1.0模型發(fā)布,擁有相較于同等參數(shù)Transformer架構更高的訓練推理效率、吞吐量及記憶能力,更低的機器幻覺表達,同時支持CPU運行并100%支持私有化應用。
8個月后,進化為多模態(tài)的群體智能單元大模型Yan1.3發(fā)布,實現(xiàn)了多模態(tài)大模型在樹莓派的單板計算機上的部署推理。
再到如今的Yan2.0Preview,RockAI完成了模型基于訓推同步的自主學習能力驗證。
不過,目前Yan2.0Preview仍是RockAI在模型自主學習能力探索上的中間階段,通過可微的記憶模塊來實現(xiàn)信息的存儲、檢索和遺忘。在RockAICTO楊華看來,讓模型具備自主學習能力可能是未來的技術壁壘,這也是其探索AGI的重要階段。
目前,行業(yè)基于Transformer架構的大模型雖然在短期對話中表現(xiàn)出色,但仍缺乏真正意義上的“原生記憶能力”。
行業(yè)主流做法是通過RAG(檢索增強生成)、長上下文窗口或外部數(shù)據(jù)庫等外掛機制來模擬記憶,讓模型能夠獲取歷史信息或知識背景。然而,這種方式本質上是一次性調用,缺乏對用戶、任務或偏好的持續(xù)性理解與積累,也難以實現(xiàn)類似人類那樣可生長、可糾偏、具備連續(xù)性的長期記憶。
而原生記憶能力是大模型邁向通用人工智能的關鍵基石,其重要性在于不僅能夠讓模型記住用戶是誰、曾經(jīng)說過什么、喜好什么,更能在長期交互中實現(xiàn)知識更新、個性化演進與情境理解,在此基礎上,模型才能從工具進化為真正的個人助手,在內(nèi)容創(chuàng)作、教育輔導、商業(yè)決策等用戶的實際應用場景中提供連貫、深度智能支持。
正如前文提到的,搭載Yan2.0Preview的機器狗可以在現(xiàn)場30秒內(nèi)精準學習并復刻指定動作,且能持續(xù)記住每位觀眾的偏好與互動風格。其實現(xiàn)的能力不依賴云端計算,完全在離線部署環(huán)境實現(xiàn),且擁有原生記憶、自主理解與適應能力。
離線部署Yan2.0preview后,機器狗擁有了成為“活著”的仿生伙伴的能力,當大模型擁有原生記憶,終端設備被賦予了智能。
這都與RockAI“讓世界上每一臺設備擁有自己的智能”的使命一脈相承,從非Transformer架構的模型開始,進一步賦予其多模態(tài)、實時人機交互、自主學習的能力。
二、引入神經(jīng)網(wǎng)絡記憶單元,PC已落地
自主學習、多模態(tài)理解能力的提升,對Yan2.0Preview的底層架構創(chuàng)新提出了更高要求。
Yan2.0Preview的核心在于,其通過可微的記憶模塊來實現(xiàn)信息的存儲、檢索和遺忘,前向過程可分為記憶更新與記憶檢索兩個階段。
其中記憶更新過程,可以使模型通過門控式更新保留長期依賴,又能基于輸入分布特性靈活整合新知識,記憶檢索過程可以在增大模型記憶容量的同時,增強其檢索能力。
在自主學習的基礎上,該模型還具備對不同模態(tài)數(shù)據(jù)的理解、生成能力,其核心組件包括基于Yan2.0Preview架構的語言模型、視覺編碼器、視頻tokens壓縮模塊、視覺連接層、音頻離散化模塊和音頻解碼器。
其中,音頻離散化模塊通過將連續(xù)的語音信號量化至有限的離散值集合,提高音頻樣本的建模效率,可以做到低比特率實現(xiàn)統(tǒng)一建模語音的語義和聲音信息。
音頻模態(tài)能力擴展方面,Yan架構多模態(tài)模型能夠有效地學習音頻序列并建模細節(jié)聲學特征,其采用約100萬小時音頻數(shù)據(jù)進行音頻模態(tài)擴充與對齊訓練,800萬對語音問答數(shù)據(jù)供音頻問答任務的有監(jiān)督微調。
最后音頻解碼階段,音頻解碼器負責將Yan架構多模態(tài)模型生成的離散音頻Token解碼為最終的音頻波形,實現(xiàn)高質量的端到端語音合成。
可以看出,Yan2.0Preview在多模態(tài)能力的各項底層架構創(chuàng)新上,都在不斷突破降低計算資源、提高模型性能的邊界。
這些背后都是RockAI在非Transformer這條道路上堅持的結果,與當下端側模型部署的核心需求相契合。如今,RockAI的Yan系列模型已經(jīng)落地某品牌PC,并實現(xiàn)了集成大模型能力的會議助手等多項功能。
三、離線智能讓智能重新定義硬件,致力于實現(xiàn)群體智能
走一條非主流的底層創(chuàng)新,從一開始就注定十分艱難。RockAI自2023年6月成立,就堅定了要做非Transformer架構,
結合技術路線的選擇與對大模型產(chǎn)業(yè)發(fā)展趨勢的判斷,在模型研發(fā)之外,RockAI在去年7月正式宣布了自己的使命,也就是“讓世界上每一臺設備都擁有自己的智能”,這也正不斷內(nèi)化到這家公司的業(yè)務發(fā)展之中。
一方面,其Yan系列模型從參數(shù)規(guī)模、性能方面逐漸契合端側設備的場景;另一方面,RockAI實現(xiàn)模型在手機、電腦、無人機、機器人等端側硬件上的離線部署,還通過內(nèi)嵌或外掛的方式,部署在大疆無人機、樹莓派單板計算機等硬件。
最先發(fā)力非Transformer架構的RockAI,最初面對了諸多行業(yè)質疑以及技術難點,如這套新體系在現(xiàn)有體系上的技術復用性,以及從0到1搭建底層架構、賦予機器自主學習能力等。
我們從RockAI的模型上看到了智能正在重新定義硬件,硬件的使用周期從一次性交付變?yōu)榱藫碛虚L期記憶,可以隨用戶一起成長。
傳統(tǒng)硬件的價值在售出瞬間達到頂峰,然后隨著磨損和過時而不斷折舊,真正的智能硬件,其核心價值是動態(tài)的,可以通過算法的迭代和模型的自學習持續(xù)提升。用戶購買的不再是一個功能固定的產(chǎn)品,而是一個能夠與自己共同成長的服務和進化的平臺,而要實現(xiàn)這種“持續(xù)生長”的高階智能形態(tài),則更需要底層的顛覆性創(chuàng)新來支撐。
隨著Yan系列模型的發(fā)布,以及其與PC等廠商合作的不斷深入,RockAI在這條難而正確之路上的堅持已經(jīng)初見成效。
這背后離不開其創(chuàng)始團隊的前瞻性洞察,以及過硬的技術積累。在當行業(yè)還沉浸在Transformer架構帶來的技術紅利中時,RockAI察覺到該架構在計算效率與場景適配性上的局限,并果斷入局非Transformer架構探索。
對于未來的愿景,RockAI堅定“群體智能”的構想。楊華解釋道,他們設想的不是單一智能體的演化,而是構建一個由多個模型和終端組成的“機器社會”,如同人類社會般實現(xiàn)群策群力與高度協(xié)作。在這個體系中,每一個智能終端不僅具備環(huán)境感知能力,還能與物理世界實時交互、自主學習與進化,共同構成一個有機協(xié)同、持續(xù)成長的智能群體。
“群體智能”不僅是技術的躍遷,也是RockAI認為邁向通用人工智能的關鍵路徑。Yan2.0Preview的發(fā)布與在終端設備的落地,或許很快能讓我們看到其這一愿景的雛形。
結語堅守非Transformer架構之路讓每臺設備都擁有智能
面對主流Transformer架構,不盲目追隨這一浪潮,而是堅持自主創(chuàng)新,探索更貼近真實智能本質的技術路線,并以實際行動探索非Transformer架構的創(chuàng)新可能,是當下AI產(chǎn)業(yè)發(fā)展中最為可貴的。
RockAI當下取得的成果固然重要,但其基于對產(chǎn)業(yè)痛點的深刻洞察,為AI技術多元發(fā)展注入活力,從底層邏輯出發(fā)解決實際問題的舉措,正推動AI產(chǎn)業(yè)從對技術紅利的依賴走向真正的創(chuàng)新突破。
Yan2.0Preview展示的不僅是一次技術范式的突破,更是我們對未來人機關系的思考:不是遙不可及的超級模型,而是每一個設備都能思考、協(xié)作和成長的智能新時代。
“讓世界上每一臺設備擁有自己的智能”是RockAI的使命,這已經(jīng)在其成立初期的技術路線選擇、創(chuàng)新布局中充分展現(xiàn)出來,并且在當下取得階段性成果。
我曾愛你那么深,懷孕八月仍遭無情對待,回首間,佳人已逝
丈夫激吻小三,抑郁后被雪藏22年后,她等來劉德華深情告白……
我曾愛你那么深,霍啟瞑情到深處,回首闌珊佳人卻已不在
免責聲明:本文內(nèi)容由開放的智能模型自動生成,僅供參考。