智東西作者|程茜編輯|漠影
智東西7月26日報道,今日,世界人工智能大會開幕,在上海一家AI創(chuàng)企的展臺前,我們目睹了中國AI創(chuàng)業(yè)公司正向著主流Transformer架構(gòu)發(fā)起強勢沖鋒。
一臺機器狗,學(xué)習(xí)了用戶的打招呼手勢后,不到30秒就學(xué)會并復(fù)刻了動作,且完全模仿了用戶使用右手打招呼的動作,值得注意的是,這一過程是在不依賴云端、完全離線部署的情況下實現(xiàn)的。
這正是RockAI展臺正在上演的場景。RockAI2024年1月發(fā)布了國內(nèi)首個基于非Transformer架構(gòu)的大模型Yan1.0、2024年9月發(fā)布Yan1.3群體智能單元大模型,再到如今最新的Yan2.0Preview模型,此次機器狗亮眼表現(xiàn)的關(guān)鍵之一就是其在Yan2.0Preview模型中引入了記憶、自主學(xué)習(xí)能力。
3B參數(shù)規(guī)模的Yan2.0Preview,在ARC-C、ARC-E、WinoGrande等部分榜單上的性能表現(xiàn)已經(jīng)超過參數(shù)規(guī)模更大的Llama3、Qwen3、Gemma3。
RockAICEO劉凡平談道,Transformer架構(gòu)是先預(yù)訓(xùn)練再微調(diào)、應(yīng)用,現(xiàn)在Yan架構(gòu)模型是在物理世界中學(xué)習(xí)、交互,不需要依賴云端,打破了現(xiàn)在大模型的學(xué)習(xí)模式,Yan2.0Preview的出現(xiàn)就承載了模型的自主學(xué)習(xí)能力。
一、30秒離線精準復(fù)刻動作,讓模型擁有“原生記憶能力”
這次在WAIC上,RockAI發(fā)布的Yan2.0Preview同樣是基于非Transformer架構(gòu)Yan架構(gòu),具備文本、視覺、音頻多模態(tài)理解,以及端到端音頻和文生成的能力。
話不多說,先來看效果。
基于Yan2.0Preview的靈巧手可以在展臺自主玩推箱子游戲,可以看到它會根據(jù)具體情況對下一步行動進行分析、評估,最終使得箱子被放置到正確的位置。
2024年1月,Yan1.0模型發(fā)布,擁有相較于同等參數(shù)Transformer架構(gòu)更高的訓(xùn)練推理效率、吞吐量及記憶能力,更低的機器幻覺表達,同時支持CPU運行并100%支持私有化應(yīng)用。
8個月后,進化為多模態(tài)的群體智能單元大模型Yan1.3發(fā)布,實現(xiàn)了多模態(tài)大模型在樹莓派的單板計算機上的部署推理。
再到如今的Yan2.0Preview,RockAI完成了模型基于訓(xùn)推同步的自主學(xué)習(xí)能力驗證。
不過,目前Yan2.0Preview仍是RockAI在模型自主學(xué)習(xí)能力探索上的中間階段,通過可微的記憶模塊來實現(xiàn)信息的存儲、檢索和遺忘。在RockAICTO楊華看來,讓模型具備自主學(xué)習(xí)能力可能是未來的技術(shù)壁壘,這也是其探索AGI的重要階段。
目前,行業(yè)基于Transformer架構(gòu)的大模型雖然在短期對話中表現(xiàn)出色,但仍缺乏真正意義上的“原生記憶能力”。
行業(yè)主流做法是通過RAG(檢索增強生成)、長上下文窗口或外部數(shù)據(jù)庫等外掛機制來模擬記憶,讓模型能夠獲取歷史信息或知識背景。然而,這種方式本質(zhì)上是一次性調(diào)用,缺乏對用戶、任務(wù)或偏好的持續(xù)性理解與積累,也難以實現(xiàn)類似人類那樣可生長、可糾偏、具備連續(xù)性的長期記憶。
而原生記憶能力是大模型邁向通用人工智能的關(guān)鍵基石,其重要性在于不僅能夠讓模型記住用戶是誰、曾經(jīng)說過什么、喜好什么,更能在長期交互中實現(xiàn)知識更新、個性化演進與情境理解,在此基礎(chǔ)上,模型才能從工具進化為真正的個人助手,在內(nèi)容創(chuàng)作、教育輔導(dǎo)、商業(yè)決策等用戶的實際應(yīng)用場景中提供連貫、深度智能支持。
正如前文提到的,搭載Yan2.0Preview的機器狗可以在現(xiàn)場30秒內(nèi)精準學(xué)習(xí)并復(fù)刻指定動作,且能持續(xù)記住每位觀眾的偏好與互動風格。其實現(xiàn)的能力不依賴云端計算,完全在離線部署環(huán)境實現(xiàn),且擁有原生記憶、自主理解與適應(yīng)能力。
離線部署Yan2.0preview后,機器狗擁有了成為“活著”的仿生伙伴的能力,當大模型擁有原生記憶,終端設(shè)備被賦予了智能。
這都與RockAI“讓世界上每一臺設(shè)備擁有自己的智能”的使命一脈相承,從非Transformer架構(gòu)的模型開始,進一步賦予其多模態(tài)、實時人機交互、自主學(xué)習(xí)的能力。
二、引入神經(jīng)網(wǎng)絡(luò)記憶單元,PC已落地
自主學(xué)習(xí)、多模態(tài)理解能力的提升,對Yan2.0Preview的底層架構(gòu)創(chuàng)新提出了更高要求。
Yan2.0Preview的核心在于,其通過可微的記憶模塊來實現(xiàn)信息的存儲、檢索和遺忘,前向過程可分為記憶更新與記憶檢索兩個階段。
其中記憶更新過程,可以使模型通過門控式更新保留長期依賴,又能基于輸入分布特性靈活整合新知識,記憶檢索過程可以在增大模型記憶容量的同時,增強其檢索能力。
在自主學(xué)習(xí)的基礎(chǔ)上,該模型還具備對不同模態(tài)數(shù)據(jù)的理解、生成能力,其核心組件包括基于Yan2.0Preview架構(gòu)的語言模型、視覺編碼器、視頻tokens壓縮模塊、視覺連接層、音頻離散化模塊和音頻解碼器。
其中,音頻離散化模塊通過將連續(xù)的語音信號量化至有限的離散值集合,提高音頻樣本的建模效率,可以做到低比特率實現(xiàn)統(tǒng)一建模語音的語義和聲音信息。
音頻模態(tài)能力擴展方面,Yan架構(gòu)多模態(tài)模型能夠有效地學(xué)習(xí)音頻序列并建模細節(jié)聲學(xué)特征,其采用約100萬小時音頻數(shù)據(jù)進行音頻模態(tài)擴充與對齊訓(xùn)練,800萬對語音問答數(shù)據(jù)供音頻問答任務(wù)的有監(jiān)督微調(diào)。
最后音頻解碼階段,音頻解碼器負責將Yan架構(gòu)多模態(tài)模型生成的離散音頻Token解碼為最終的音頻波形,實現(xiàn)高質(zhì)量的端到端語音合成。
可以看出,Yan2.0Preview在多模態(tài)能力的各項底層架構(gòu)創(chuàng)新上,都在不斷突破降低計算資源、提高模型性能的邊界。
這些背后都是RockAI在非Transformer這條道路上堅持的結(jié)果,與當下端側(cè)模型部署的核心需求相契合。如今,RockAI的Yan系列模型已經(jīng)落地某品牌PC,并實現(xiàn)了集成大模型能力的會議助手等多項功能。
三、離線智能讓智能重新定義硬件,致力于實現(xiàn)群體智能
走一條非主流的底層創(chuàng)新,從一開始就注定十分艱難。RockAI自2023年6月成立,就堅定了要做非Transformer架構(gòu),
結(jié)合技術(shù)路線的選擇與對大模型產(chǎn)業(yè)發(fā)展趨勢的判斷,在模型研發(fā)之外,RockAI在去年7月正式宣布了自己的使命,也就是“讓世界上每一臺設(shè)備都擁有自己的智能”,這也正不斷內(nèi)化到這家公司的業(yè)務(wù)發(fā)展之中。
一方面,其Yan系列模型從參數(shù)規(guī)模、性能方面逐漸契合端側(cè)設(shè)備的場景;另一方面,RockAI實現(xiàn)模型在手機、電腦、無人機、機器人等端側(cè)硬件上的離線部署,還通過內(nèi)嵌或外掛的方式,部署在大疆無人機、樹莓派單板計算機等硬件。
最先發(fā)力非Transformer架構(gòu)的RockAI,最初面對了諸多行業(yè)質(zhì)疑以及技術(shù)難點,如這套新體系在現(xiàn)有體系上的技術(shù)復(fù)用性,以及從0到1搭建底層架構(gòu)、賦予機器自主學(xué)習(xí)能力等。
我們從RockAI的模型上看到了智能正在重新定義硬件,硬件的使用周期從一次性交付變?yōu)榱藫碛虚L期記憶,可以隨用戶一起成長。
傳統(tǒng)硬件的價值在售出瞬間達到頂峰,然后隨著磨損和過時而不斷折舊,真正的智能硬件,其核心價值是動態(tài)的,可以通過算法的迭代和模型的自學(xué)習(xí)持續(xù)提升。用戶購買的不再是一個功能固定的產(chǎn)品,而是一個能夠與自己共同成長的服務(wù)和進化的平臺,而要實現(xiàn)這種“持續(xù)生長”的高階智能形態(tài),則更需要底層的顛覆性創(chuàng)新來支撐。
隨著Yan系列模型的發(fā)布,以及其與PC等廠商合作的不斷深入,RockAI在這條難而正確之路上的堅持已經(jīng)初見成效。
這背后離不開其創(chuàng)始團隊的前瞻性洞察,以及過硬的技術(shù)積累。在當行業(yè)還沉浸在Transformer架構(gòu)帶來的技術(shù)紅利中時,RockAI察覺到該架構(gòu)在計算效率與場景適配性上的局限,并果斷入局非Transformer架構(gòu)探索。
對于未來的愿景,RockAI堅定“群體智能”的構(gòu)想。楊華解釋道,他們設(shè)想的不是單一智能體的演化,而是構(gòu)建一個由多個模型和終端組成的“機器社會”,如同人類社會般實現(xiàn)群策群力與高度協(xié)作。在這個體系中,每一個智能終端不僅具備環(huán)境感知能力,還能與物理世界實時交互、自主學(xué)習(xí)與進化,共同構(gòu)成一個有機協(xié)同、持續(xù)成長的智能群體。
“群體智能”不僅是技術(shù)的躍遷,也是RockAI認為邁向通用人工智能的關(guān)鍵路徑。Yan2.0Preview的發(fā)布與在終端設(shè)備的落地,或許很快能讓我們看到其這一愿景的雛形。
結(jié)語堅守非Transformer架構(gòu)之路讓每臺設(shè)備都擁有智能
面對主流Transformer架構(gòu),不盲目追隨這一浪潮,而是堅持自主創(chuàng)新,探索更貼近真實智能本質(zhì)的技術(shù)路線,并以實際行動探索非Transformer架構(gòu)的創(chuàng)新可能,是當下AI產(chǎn)業(yè)發(fā)展中最為可貴的。
RockAI當下取得的成果固然重要,但其基于對產(chǎn)業(yè)痛點的深刻洞察,為AI技術(shù)多元發(fā)展注入活力,從底層邏輯出發(fā)解決實際問題的舉措,正推動AI產(chǎn)業(yè)從對技術(shù)紅利的依賴走向真正的創(chuàng)新突破。
Yan2.0Preview展示的不僅是一次技術(shù)范式的突破,更是我們對未來人機關(guān)系的思考:不是遙不可及的超級模型,而是每一個設(shè)備都能思考、協(xié)作和成長的智能新時代。
“讓世界上每一臺設(shè)備擁有自己的智能”是RockAI的使命,這已經(jīng)在其成立初期的技術(shù)路線選擇、創(chuàng)新布局中充分展現(xiàn)出來,并且在當下取得階段性成果。
免責聲明:本文內(nèi)容由開放的智能模型自動生成,僅供參考。