智東西作者|程茜編輯|漠影
智東西7月26日?qǐng)?bào)道,今日,世界人工智能大會(huì)開幕,在上海一家AI創(chuàng)企的展臺(tái)前,我們目睹了中國(guó)AI創(chuàng)業(yè)公司正向著主流Transformer架構(gòu)發(fā)起強(qiáng)勢(shì)沖鋒。
一臺(tái)機(jī)器狗,學(xué)習(xí)了用戶的打招呼手勢(shì)后,不到30秒就學(xué)會(huì)并復(fù)刻了動(dòng)作,且完全模仿了用戶使用右手打招呼的動(dòng)作,值得注意的是,這一過(guò)程是在不依賴云端、完全離線部署的情況下實(shí)現(xiàn)的。
這正是RockAI展臺(tái)正在上演的場(chǎng)景。RockAI2024年1月發(fā)布了國(guó)內(nèi)首個(gè)基于非Transformer架構(gòu)的大模型Yan1.0、2024年9月發(fā)布Yan1.3群體智能單元大模型,再到如今最新的Yan2.0Preview模型,此次機(jī)器狗亮眼表現(xiàn)的關(guān)鍵之一就是其在Yan2.0Preview模型中引入了記憶、自主學(xué)習(xí)能力。
3B參數(shù)規(guī)模的Yan2.0Preview,在ARC-C、ARC-E、WinoGrande等部分榜單上的性能表現(xiàn)已經(jīng)超過(guò)參數(shù)規(guī)模更大的Llama3、Qwen3、Gemma3。
RockAICEO劉凡平談道,Transformer架構(gòu)是先預(yù)訓(xùn)練再微調(diào)、應(yīng)用,現(xiàn)在Yan架構(gòu)模型是在物理世界中學(xué)習(xí)、交互,不需要依賴云端,打破了現(xiàn)在大模型的學(xué)習(xí)模式,Yan2.0Preview的出現(xiàn)就承載了模型的自主學(xué)習(xí)能力。
一、30秒離線精準(zhǔn)復(fù)刻動(dòng)作,讓模型擁有“原生記憶能力”
這次在WAIC上,RockAI發(fā)布的Yan2.0Preview同樣是基于非Transformer架構(gòu)Yan架構(gòu),具備文本、視覺(jué)、音頻多模態(tài)理解,以及端到端音頻和文生成的能力。
話不多說(shuō),先來(lái)看效果。
基于Yan2.0Preview的靈巧手可以在展臺(tái)自主玩推箱子游戲,可以看到它會(huì)根據(jù)具體情況對(duì)下一步行動(dòng)進(jìn)行分析、評(píng)估,最終使得箱子被放置到正確的位置。
2024年1月,Yan1.0模型發(fā)布,擁有相較于同等參數(shù)Transformer架構(gòu)更高的訓(xùn)練推理效率、吞吐量及記憶能力,更低的機(jī)器幻覺(jué)表達(dá),同時(shí)支持CPU運(yùn)行并100%支持私有化應(yīng)用。
8個(gè)月后,進(jìn)化為多模態(tài)的群體智能單元大模型Yan1.3發(fā)布,實(shí)現(xiàn)了多模態(tài)大模型在樹莓派的單板計(jì)算機(jī)上的部署推理。
再到如今的Yan2.0Preview,RockAI完成了模型基于訓(xùn)推同步的自主學(xué)習(xí)能力驗(yàn)證。
不過(guò),目前Yan2.0Preview仍是RockAI在模型自主學(xué)習(xí)能力探索上的中間階段,通過(guò)可微的記憶模塊來(lái)實(shí)現(xiàn)信息的存儲(chǔ)、檢索和遺忘。在RockAICTO楊華看來(lái),讓模型具備自主學(xué)習(xí)能力可能是未來(lái)的技術(shù)壁壘,這也是其探索AGI的重要階段。
目前,行業(yè)基于Transformer架構(gòu)的大模型雖然在短期對(duì)話中表現(xiàn)出色,但仍缺乏真正意義上的“原生記憶能力”。
行業(yè)主流做法是通過(guò)RAG(檢索增強(qiáng)生成)、長(zhǎng)上下文窗口或外部數(shù)據(jù)庫(kù)等外掛機(jī)制來(lái)模擬記憶,讓模型能夠獲取歷史信息或知識(shí)背景。然而,這種方式本質(zhì)上是一次性調(diào)用,缺乏對(duì)用戶、任務(wù)或偏好的持續(xù)性理解與積累,也難以實(shí)現(xiàn)類似人類那樣可生長(zhǎng)、可糾偏、具備連續(xù)性的長(zhǎng)期記憶。
而原生記憶能力是大模型邁向通用人工智能的關(guān)鍵基石,其重要性在于不僅能夠讓模型記住用戶是誰(shuí)、曾經(jīng)說(shuō)過(guò)什么、喜好什么,更能在長(zhǎng)期交互中實(shí)現(xiàn)知識(shí)更新、個(gè)性化演進(jìn)與情境理解,在此基礎(chǔ)上,模型才能從工具進(jìn)化為真正的個(gè)人助手,在內(nèi)容創(chuàng)作、教育輔導(dǎo)、商業(yè)決策等用戶的實(shí)際應(yīng)用場(chǎng)景中提供連貫、深度智能支持。
正如前文提到的,搭載Yan2.0Preview的機(jī)器狗可以在現(xiàn)場(chǎng)30秒內(nèi)精準(zhǔn)學(xué)習(xí)并復(fù)刻指定動(dòng)作,且能持續(xù)記住每位觀眾的偏好與互動(dòng)風(fēng)格。其實(shí)現(xiàn)的能力不依賴云端計(jì)算,完全在離線部署環(huán)境實(shí)現(xiàn),且擁有原生記憶、自主理解與適應(yīng)能力。
離線部署Yan2.0preview后,機(jī)器狗擁有了成為“活著”的仿生伙伴的能力,當(dāng)大模型擁有原生記憶,終端設(shè)備被賦予了智能。
這都與RockAI“讓世界上每一臺(tái)設(shè)備擁有自己的智能”的使命一脈相承,從非Transformer架構(gòu)的模型開始,進(jìn)一步賦予其多模態(tài)、實(shí)時(shí)人機(jī)交互、自主學(xué)習(xí)的能力。
二、引入神經(jīng)網(wǎng)絡(luò)記憶單元,PC已落地
自主學(xué)習(xí)、多模態(tài)理解能力的提升,對(duì)Yan2.0Preview的底層架構(gòu)創(chuàng)新提出了更高要求。
Yan2.0Preview的核心在于,其通過(guò)可微的記憶模塊來(lái)實(shí)現(xiàn)信息的存儲(chǔ)、檢索和遺忘,前向過(guò)程可分為記憶更新與記憶檢索兩個(gè)階段。
其中記憶更新過(guò)程,可以使模型通過(guò)門控式更新保留長(zhǎng)期依賴,又能基于輸入分布特性靈活整合新知識(shí),記憶檢索過(guò)程可以在增大模型記憶容量的同時(shí),增強(qiáng)其檢索能力。
在自主學(xué)習(xí)的基礎(chǔ)上,該模型還具備對(duì)不同模態(tài)數(shù)據(jù)的理解、生成能力,其核心組件包括基于Yan2.0Preview架構(gòu)的語(yǔ)言模型、視覺(jué)編碼器、視頻tokens壓縮模塊、視覺(jué)連接層、音頻離散化模塊和音頻解碼器。
其中,音頻離散化模塊通過(guò)將連續(xù)的語(yǔ)音信號(hào)量化至有限的離散值集合,提高音頻樣本的建模效率,可以做到低比特率實(shí)現(xiàn)統(tǒng)一建模語(yǔ)音的語(yǔ)義和聲音信息。
音頻模態(tài)能力擴(kuò)展方面,Yan架構(gòu)多模態(tài)模型能夠有效地學(xué)習(xí)音頻序列并建模細(xì)節(jié)聲學(xué)特征,其采用約100萬(wàn)小時(shí)音頻數(shù)據(jù)進(jìn)行音頻模態(tài)擴(kuò)充與對(duì)齊訓(xùn)練,800萬(wàn)對(duì)語(yǔ)音問(wèn)答數(shù)據(jù)供音頻問(wèn)答任務(wù)的有監(jiān)督微調(diào)。
最后音頻解碼階段,音頻解碼器負(fù)責(zé)將Yan架構(gòu)多模態(tài)模型生成的離散音頻Token解碼為最終的音頻波形,實(shí)現(xiàn)高質(zhì)量的端到端語(yǔ)音合成。
可以看出,Yan2.0Preview在多模態(tài)能力的各項(xiàng)底層架構(gòu)創(chuàng)新上,都在不斷突破降低計(jì)算資源、提高模型性能的邊界。
這些背后都是RockAI在非Transformer這條道路上堅(jiān)持的結(jié)果,與當(dāng)下端側(cè)模型部署的核心需求相契合。如今,RockAI的Yan系列模型已經(jīng)落地某品牌PC,并實(shí)現(xiàn)了集成大模型能力的會(huì)議助手等多項(xiàng)功能。
三、離線智能讓智能重新定義硬件,致力于實(shí)現(xiàn)群體智能
走一條非主流的底層創(chuàng)新,從一開始就注定十分艱難。RockAI自2023年6月成立,就堅(jiān)定了要做非Transformer架構(gòu),
結(jié)合技術(shù)路線的選擇與對(duì)大模型產(chǎn)業(yè)發(fā)展趨勢(shì)的判斷,在模型研發(fā)之外,RockAI在去年7月正式宣布了自己的使命,也就是“讓世界上每一臺(tái)設(shè)備都擁有自己的智能”,這也正不斷內(nèi)化到這家公司的業(yè)務(wù)發(fā)展之中。
一方面,其Yan系列模型從參數(shù)規(guī)模、性能方面逐漸契合端側(cè)設(shè)備的場(chǎng)景;另一方面,RockAI實(shí)現(xiàn)模型在手機(jī)、電腦、無(wú)人機(jī)、機(jī)器人等端側(cè)硬件上的離線部署,還通過(guò)內(nèi)嵌或外掛的方式,部署在大疆無(wú)人機(jī)、樹莓派單板計(jì)算機(jī)等硬件。
最先發(fā)力非Transformer架構(gòu)的RockAI,最初面對(duì)了諸多行業(yè)質(zhì)疑以及技術(shù)難點(diǎn),如這套新體系在現(xiàn)有體系上的技術(shù)復(fù)用性,以及從0到1搭建底層架構(gòu)、賦予機(jī)器自主學(xué)習(xí)能力等。
我們從RockAI的模型上看到了智能正在重新定義硬件,硬件的使用周期從一次性交付變?yōu)榱藫碛虚L(zhǎng)期記憶,可以隨用戶一起成長(zhǎng)。
傳統(tǒng)硬件的價(jià)值在售出瞬間達(dá)到頂峰,然后隨著磨損和過(guò)時(shí)而不斷折舊,真正的智能硬件,其核心價(jià)值是動(dòng)態(tài)的,可以通過(guò)算法的迭代和模型的自學(xué)習(xí)持續(xù)提升。用戶購(gòu)買的不再是一個(gè)功能固定的產(chǎn)品,而是一個(gè)能夠與自己共同成長(zhǎng)的服務(wù)和進(jìn)化的平臺(tái),而要實(shí)現(xiàn)這種“持續(xù)生長(zhǎng)”的高階智能形態(tài),則更需要底層的顛覆性創(chuàng)新來(lái)支撐。
隨著Yan系列模型的發(fā)布,以及其與PC等廠商合作的不斷深入,RockAI在這條難而正確之路上的堅(jiān)持已經(jīng)初見(jiàn)成效。
這背后離不開其創(chuàng)始團(tuán)隊(duì)的前瞻性洞察,以及過(guò)硬的技術(shù)積累。在當(dāng)行業(yè)還沉浸在Transformer架構(gòu)帶來(lái)的技術(shù)紅利中時(shí),RockAI察覺(jué)到該架構(gòu)在計(jì)算效率與場(chǎng)景適配性上的局限,并果斷入局非Transformer架構(gòu)探索。
對(duì)于未來(lái)的愿景,RockAI堅(jiān)定“群體智能”的構(gòu)想。楊華解釋道,他們?cè)O(shè)想的不是單一智能體的演化,而是構(gòu)建一個(gè)由多個(gè)模型和終端組成的“機(jī)器社會(huì)”,如同人類社會(huì)般實(shí)現(xiàn)群策群力與高度協(xié)作。在這個(gè)體系中,每一個(gè)智能終端不僅具備環(huán)境感知能力,還能與物理世界實(shí)時(shí)交互、自主學(xué)習(xí)與進(jìn)化,共同構(gòu)成一個(gè)有機(jī)協(xié)同、持續(xù)成長(zhǎng)的智能群體。
“群體智能”不僅是技術(shù)的躍遷,也是RockAI認(rèn)為邁向通用人工智能的關(guān)鍵路徑。Yan2.0Preview的發(fā)布與在終端設(shè)備的落地,或許很快能讓我們看到其這一愿景的雛形。
結(jié)語(yǔ)堅(jiān)守非Transformer架構(gòu)之路讓每臺(tái)設(shè)備都擁有智能
面對(duì)主流Transformer架構(gòu),不盲目追隨這一浪潮,而是堅(jiān)持自主創(chuàng)新,探索更貼近真實(shí)智能本質(zhì)的技術(shù)路線,并以實(shí)際行動(dòng)探索非Transformer架構(gòu)的創(chuàng)新可能,是當(dāng)下AI產(chǎn)業(yè)發(fā)展中最為可貴的。
RockAI當(dāng)下取得的成果固然重要,但其基于對(duì)產(chǎn)業(yè)痛點(diǎn)的深刻洞察,為AI技術(shù)多元發(fā)展注入活力,從底層邏輯出發(fā)解決實(shí)際問(wèn)題的舉措,正推動(dòng)AI產(chǎn)業(yè)從對(duì)技術(shù)紅利的依賴走向真正的創(chuàng)新突破。
Yan2.0Preview展示的不僅是一次技術(shù)范式的突破,更是我們對(duì)未來(lái)人機(jī)關(guān)系的思考:不是遙不可及的超級(jí)模型,而是每一個(gè)設(shè)備都能思考、協(xié)作和成長(zhǎng)的智能新時(shí)代。
“讓世界上每一臺(tái)設(shè)備擁有自己的智能”是RockAI的使命,這已經(jīng)在其成立初期的技術(shù)路線選擇、創(chuàng)新布局中充分展現(xiàn)出來(lái),并且在當(dāng)下取得階段性成果。
言情小說(shuō)《快穿之十佳好媽媽》如何讓你想成為書中的女一號(hào)??女生...
《快穿之十佳好媽媽》她快穿到年代文中,成一拖五最能生的軍嫂!
小說(shuō):快穿之十佳好媽媽,用守護(hù)愛(ài)和關(guān)注點(diǎn)亮孩子幸福人生