當(dāng)云端模型高歌猛進(jìn)時(shí),我們?nèi)绾螌?shí)現(xiàn)真正的離線智能?
作者|LiYuan
編輯|鄭玄
過去兩年,關(guān)于AI模型的故事,幾乎都在圍繞兩個(gè)版本展開:無所不能的云,和充滿想象的端。
曾經(jīng),一個(gè)被廣泛描繪的行業(yè)藍(lán)圖是:隨著輕量化模型能力的持續(xù)增強(qiáng),AI擺脫云端束縛,在每個(gè)人的設(shè)備上實(shí)現(xiàn)永不離線的貼身智能,似乎只是一個(gè)時(shí)間問題。
然而,喧囂過后,一個(gè)尷尬的現(xiàn)實(shí)擺在眼前:不論是近期爆火的AI玩具,還是備受矚目的AI眼鏡,其核心交互和智能依然牢牢地系于云端。即使是算力更強(qiáng)的手機(jī)和PC,真正實(shí)現(xiàn)了離線AI能力的,卻依然鳳毛麟角。
技術(shù)演示里,端側(cè)模型看起來無所不能。但最后說好的離線智能,怎么還是離不開網(wǎng)絡(luò)?
矛盾的一面,是用戶對(duì)體驗(yàn)的極致渴求:即時(shí)響應(yīng)不能等,隱私數(shù)據(jù)不想傳,斷網(wǎng)時(shí)刻不失聯(lián)。而另一面,是端側(cè)設(shè)備永遠(yuǎn)無法回避的「物理天花板」——有限的算力、功耗和內(nèi)存,像一道無形的墻,殘酷地阻隔了絕大多數(shù)高性能模型的落地。
更深層的矛盾,則在于商業(yè)的引力。對(duì)于手握最強(qiáng)模型的巨頭而言,云端是彰顯技術(shù)領(lǐng)導(dǎo)力的標(biāo)桿,更是利潤(rùn)滾滾而來的收費(fèi)站。當(dāng)所有的目光和資源都聚焦于云端時(shí),那個(gè)更苦、更累、商業(yè)回報(bào)更不明朗的端側(cè),自然成了被忽略的角落。
那么,那些真正致力于推動(dòng)「離線智能」的少數(shù)派,他們到底在做什么?在今年的世界人工智能大會(huì)(WAIC)上,一家名為RockAI的公司給出了自己的答案。他們正走在一條少有人走的路上,并找到了破局的鑰匙。
以「讓每臺(tái)設(shè)備都擁有專屬智能」為使命,這支團(tuán)隊(duì)一頭扎進(jìn)底層技術(shù),甚至大膽舍棄主流Transformer架構(gòu),硬是啃下了端側(cè)部署這塊被視為「不可能完成的任務(wù)」的硬骨頭。早期,他們的模型就能完整跑在算力捉襟見肘的樹莓派上——這塊卡片大小的電腦向來是端側(cè)部署的嚴(yán)苛試金石,大多數(shù)同類模型在它上面往往跑出幾句話就卡住。
而在今年WAIC推出的Yan2.0Preview僅30億參數(shù),已經(jīng)能做到多模態(tài),并在本地實(shí)現(xiàn)真正的「記憶」:模型可動(dòng)態(tài)調(diào)整權(quán)重,長(zhǎng)期保留并更新用戶偏好。
而這項(xiàng)「不可能完成的任務(wù)」的成果,也并未停留在實(shí)驗(yàn)室的演示階段。量產(chǎn)訂單已經(jīng)從海內(nèi)外市場(chǎng)發(fā)來,將技術(shù)實(shí)力迅速兌換為商業(yè)價(jià)值。
他們的故事或許能回答那個(gè)根本問題:當(dāng)云端模型高歌猛進(jìn)時(shí),我們?yōu)槭裁催€需要、以及如何才能實(shí)現(xiàn)真正的離線智能?
極客公園采訪了RockAI的聯(lián)合創(chuàng)始人鄒佳思,與他們聊了聊RockAI背后的商業(yè)故事。
01
為什么我們還沒有擁有永不下線的隨身AI?
問:整個(gè)行業(yè)似乎都在為一個(gè)離線智能的未來而努力,蘋果這樣的巨頭更是將此視為核心戰(zhàn)略??蔀槭裁磸募夹g(shù)演示到消費(fèi)者手中,這「最后一公里」卻總是走不通?
鄒佳思:大家都在談離線智能、設(shè)備端的AI,但理想和現(xiàn)實(shí)之間,橫著兩座幾乎無法逾越的大山:一座是算力,另一座是功耗。
大模型想在設(shè)備上運(yùn)行,需要很高的算力配置。目前很多行業(yè)內(nèi)的AI公司,雖然也有參數(shù)比較小的模型,但是仍然需要算力更高的芯片才能跑上去。
比如我們的一個(gè)客戶,想要在手機(jī)上配置離線的大模型,但是當(dāng)時(shí)行業(yè)里其他大模型廠商提出的方案,幾乎無一例外地要求必須使用高通最新的旗艦芯片以及16G以上的內(nèi)存。但現(xiàn)實(shí)是,大多數(shù)智能設(shè)備,都不能具備這樣的算力芯片。
這就是最殘酷的算力鴻溝:你的AI技術(shù)再先進(jìn),如果只能滿足少數(shù)頂配設(shè)備應(yīng)用,那么就失去了普惠AI的意義。
另一座大山,則是功耗。
這個(gè)問題在手機(jī)上體現(xiàn)得淋漓盡致。現(xiàn)實(shí)中,手機(jī)廠商只要嘗試部署大模型,設(shè)備的發(fā)熱就非常嚴(yán)重,這幾乎是所有基于傳統(tǒng)Transformer架構(gòu)模型的通病。幾乎所有主流手機(jī)廠商都和我們交流過這個(gè)痛點(diǎn)。他們都想在下一代AI手機(jī)上實(shí)現(xiàn)突破,但又都被這堵功耗之墻擋住了去路。
為什么最后一公里走不通?
事實(shí)是,硬件的更新的節(jié)奏客觀上很慢,很多設(shè)備多年前就賣出去了,當(dāng)年的芯片、存儲(chǔ)、麥克風(fēng)、攝像頭都不是為今天的大模型準(zhǔn)備的,把Transformer往這些中低端算力上布,要么跑不起來,要么勉強(qiáng)跑效果差。
即便上游廠商推出新一代高端芯片,把它布置進(jìn)新產(chǎn)品線往往要經(jīng)歷6–12個(gè)月;而產(chǎn)品真正賣爆、規(guī)?;鲐洸V泛普及通常還需要額外1–2年。這種節(jié)奏是客觀物理現(xiàn)實(shí),不可能被跳過。
問:您剛才提到了,無論是算力還是功耗,很多問題的根源都指向了目前主流的Transformer架構(gòu)。Transformer在云端證明了自己是當(dāng)前最強(qiáng)的AI架構(gòu),為什么把它搬到端側(cè)設(shè)備上,就水土不服了呢?
鄒佳思:這個(gè)問題確實(shí)問到了在設(shè)備端運(yùn)行大挑戰(zhàn)的核心。Transformer之所以強(qiáng)大,依賴于它革命性的注意力(Attention)機(jī)制。但問題恰恰也出在這里。
傳統(tǒng)的AI模型像一個(gè)流水線工人,他處理信息是一個(gè)一個(gè)按順序來的,記憶力有限,處理到后面就忘了前面。而Transformer就像一個(gè)擁有超能力的總指揮,他不是按順序處理,而是讓信息排成一個(gè)方陣,然后要求方陣?yán)锏拿恳粋€(gè)字,都要和其他所有的字握手一次,來計(jì)算彼此之間的關(guān)聯(lián)度。
這種「全局握手」的能力,讓Transformer擁有了超凡的理解能力。但在云端,你有無限的算力去支持這種計(jì)算。
但手機(jī)芯片(CPU/NPU)的設(shè)計(jì),更像是剛才說的「流水線」,它擅長(zhǎng)的是高速、順序地執(zhí)行任務(wù)。你突然讓它去完成一個(gè)需要「全局握手」任務(wù)——每增加一個(gè)字,計(jì)算量就指數(shù)級(jí)暴增——它瞬間就不知所措了。
我們從一開始就關(guān)注到了這個(gè)問題。業(yè)界目前也有一些改進(jìn)方案,像FlashAttention、線性注意力等等。但我們的結(jié)論是,這些都只是在「指揮大廳」里做一些小修小補(bǔ),沒有從根本上改變「全局握手」這個(gè)高耗能的模式。
我們最后選擇了一條更徹底的路:保留Transformer強(qiáng)大的特征提取能力,但徹底拿掉那個(gè)消耗巨大的Attention機(jī)制,用一種全新的、更適合在「流水線」上運(yùn)行的架構(gòu)來替代它。國(guó)外同期的Mamba架構(gòu)也看到了類似的方向。我們不是去修補(bǔ)一輛不適合在小路上開的F1賽車,而是重新設(shè)計(jì)一輛能在小路上跑得飛快的越野車。
問:這聽起來非常復(fù)雜。只是為了在智能硬件上跑,就要重新設(shè)計(jì)一個(gè)架構(gòu)。離線智能真的有這么必要嗎?
鄒佳思:這個(gè)問題很有趣,我們認(rèn)為非常有必要,而且我們也確實(shí)看到了很強(qiáng)的市場(chǎng)需求。
它的必要性體現(xiàn)在幾個(gè)無法被云端替代的價(jià)值上:
第一,絕對(duì)的隱私安全。這是蘋果這樣的公司投入端側(cè)最核心的初衷。最敏感的數(shù)據(jù),比如你的相冊(cè)、健康信息、聊天記錄,根本就不應(yīng)該離開你的設(shè)備。這是一個(gè)原則問題。
第二,極致的實(shí)時(shí)交互。很多場(chǎng)景對(duì)延遲的要求是毫秒級(jí)的。比如部署了Yan架構(gòu)的無人機(jī),用戶喊一聲「在我跳起來的時(shí)候抓拍」,模型就必須瞬間響應(yīng)。這種場(chǎng)景,任何一次網(wǎng)絡(luò)波動(dòng)都可能是致命的,你不可能依賴云端。再比如未來的機(jī)器人,它需要根據(jù)自己獨(dú)特的臂長(zhǎng)、傳感器參數(shù)來做出精準(zhǔn)的動(dòng)作,這種與硬件高度綁定的實(shí)時(shí)控制,必須由本地的」大腦」來完成。
第三,成本問題。云端API的價(jià)格看起來在不斷下降,甚至免費(fèi),但仍然是有成本的。以攝像頭為例,出貨量是以億為單位。在這種海量規(guī)模下,云端再便宜,乘以億,也是一筆天文數(shù)字。而走向離線智能,硬件成本是已經(jīng)付出的,后續(xù)的使用幾乎不產(chǎn)生額外費(fèi)用。從商業(yè)邏輯上,海量設(shè)備,本地部署一定是成本最優(yōu)解。
本地模型就像一個(gè)守在門口的聰明管家,它隱私、安全,個(gè)性化的理解你。即使它不一定能解決所有最復(fù)雜的問題,但它應(yīng)該能處理掉80%的日常瑣事——開應(yīng)用、設(shè)提醒、簡(jiǎn)單翻譯、會(huì)議紀(jì)要等等,并且做得又快又安全。對(duì)于絕大多數(shù)用戶來說,不是每時(shí)每刻都需要處理復(fù)雜任務(wù)。
這就像華強(qiáng)北和品牌貨可以共存一樣。品牌貨是非常重要的,但是華強(qiáng)北也需要存在,云端模型能夠滿足用戶比較高的需求,但是設(shè)備端的模型能更快,更安全,更便宜地滿足用戶的大部分需求。
02
能實(shí)現(xiàn)離線智能的模型,應(yīng)該長(zhǎng)什么樣?
問:剛剛提到,為了實(shí)現(xiàn)離線智能,你們選擇了最難的路——重新設(shè)計(jì)一輛「越野車」。那么,這輛新車的「發(fā)動(dòng)機(jī)」,也就是你們新架構(gòu)的核心機(jī)制,究竟是什么?
鄒佳思:我們的核心創(chuàng)新,就是拋棄了我們前面說的Transformer那種需要「全局握手」的、高耗能的Attention機(jī)制,回退到更輕的「特征—抑制—激活」架構(gòu),再配合分區(qū)激活,把每次真正運(yùn)算的參數(shù)量壓到十分之一甚至更低。算力需求降到原來的五分之一以上,功耗降到十分之一。前面說過,標(biāo)準(zhǔn)Transformer架構(gòu)中,無論任務(wù)多小,所有參數(shù)都必須全部被激活,才能獲得一個(gè)高智能的答案。但是人腦其實(shí)不是這么運(yùn)行的。
人腦其實(shí)也有800-900億的神經(jīng)元,我們可以理解為,它是一個(gè)800-900億參數(shù)的模型,人腦如果是全量激活,功耗可能會(huì)到3000瓦甚至4000瓦,但是人腦其實(shí)際的功耗只有30瓦不到。
人腦怎么神奇地干成這件事情呢?就是靠分區(qū)激活。我們的模型就是借鑒了這種方式。
除了功耗降低了,新的架構(gòu)還讓我們能夠在一個(gè)3B的模型中,實(shí)現(xiàn)多模態(tài)。
用一個(gè)不太嚴(yán)謹(jǐn)?shù)谋扔?,?dāng)你看到一只鳥,聽到它的叫聲,同時(shí)又在閱讀「鳥」這個(gè)字時(shí),你的大腦并不是整個(gè)被點(diǎn)亮。它是在視覺區(qū)、聽覺區(qū)、語(yǔ)言區(qū)這些不同的分區(qū)里,激活了特定的、小范圍的神經(jīng)元。正是這些分區(qū)既獨(dú)立又相互重疊的激活,幫助我們高效地將形態(tài)、聲音和詞匯完美地對(duì)齊。
30億參數(shù)以下的Transformer模型因?yàn)槠淙钟?jì)算的特性,很難高效地處理和對(duì)齊不同來源的模態(tài)信息。而我們的類腦激活機(jī)制本身就更接近大腦的分區(qū)處理模式,不同模態(tài)輸入可以天然地激活不同的分區(qū),讓對(duì)齊變得更輕松、更精準(zhǔn)。因此在3B規(guī)模下,我們依然能保留強(qiáng)大的文本、語(yǔ)音、視覺聯(lián)合理解能力。
問:「分區(qū)激活」思路確實(shí)很巧妙。但人腦之所以能只激活一小部分,是因?yàn)樗旧硎且粋€(gè)近千億參數(shù)的巨型模型,底子夠厚。而我們現(xiàn)在的端側(cè)模型,本身就只有區(qū)區(qū)幾十億參數(shù),已經(jīng)是在「螺螄殼里做道場(chǎng)」了。我們真的能指望一個(gè)小模型,通過激活更小的一部分,來完成更好的智能嗎?
鄒佳思:您這個(gè)問題,正好觸及了當(dāng)前大模型發(fā)展范式的核心——我們稱之為壓縮智能的困境。
現(xiàn)在的預(yù)訓(xùn)練大模型,本質(zhì)上是一個(gè)壓縮智能的過程——像一塊巨大的海綿,它的訓(xùn)練過程,就是把海量的互聯(lián)網(wǎng)數(shù)據(jù)(水),壓縮進(jìn)這個(gè)由幾千億參數(shù)構(gòu)成的容器里。參數(shù)量越大,海綿越大,能吸收和儲(chǔ)存的知識(shí)自然就越多。
這個(gè)范式在處理多模態(tài)時(shí),會(huì)存在一些問題。壓縮過文件的人應(yīng)該都知道,1G的文字打包壓縮后,是比1G的視頻、圖像這樣的文件更小的。視頻圖像這樣的文件本來就大,而壓縮比又低,這就是為什么市面上小參數(shù)的Transformer模型,很難加入多模態(tài)能力。
所以,如果游戲規(guī)則只是比誰(shuí)的海綿更大、誰(shuí)背的書更厚,那小參數(shù)的模型確實(shí)沒有未來。
但我們認(rèn)為,真正的智能,不應(yīng)該只是壓縮,更應(yīng)該是成長(zhǎng)和學(xué)習(xí)。這就是我們路線的根本不同:我們不是在一條道上走到黑,而是壓縮智能+自主學(xué)習(xí)雙線并行。
我們剛才提到的分區(qū)激活,它的意義不僅在于節(jié)能,更在于它為成長(zhǎng)提供了可能性。
我們現(xiàn)在的模型只有30億參數(shù)。但通過神經(jīng)網(wǎng)絡(luò)精細(xì)的動(dòng)態(tài)分區(qū),打比方分成100個(gè)區(qū),那么一次只需要激活3000萬(wàn)個(gè)參數(shù)。這意味著,我們未來完全可以在手機(jī)內(nèi)存允許的范圍內(nèi),把端側(cè)模型的總參數(shù)也做得很大,比如做到百億甚至更多,但通過只激活其中極小一部分,來保持同樣低的功耗。
這就顛覆了游戲規(guī)則。我們不再是研究怎么把大模型變小,而是研究怎么讓模型在端側(cè)從小長(zhǎng)到大。
所以,當(dāng)別人都在壓縮這條路上內(nèi)卷時(shí),我們通過MCSD架構(gòu)、分區(qū)激活、記憶神經(jīng)單元,為端側(cè)模型找到了第二條、也是我們認(rèn)為更符合生命本質(zhì)的成長(zhǎng)路線——可持續(xù)的、低成本的自主學(xué)習(xí)。我們不只是在構(gòu)建一個(gè)能在設(shè)備端跑起來的模型,我們是在為端側(cè)AI的未來,構(gòu)建一個(gè)全新的、能夠不斷成長(zhǎng)的大腦底座。
問:您提到了自主學(xué)習(xí)這個(gè)詞,怎么理解Yan模型的自主學(xué)習(xí)?它和現(xiàn)在云端模型的個(gè)性化有什么不同嗎?
鄒佳思:自主學(xué)習(xí),正是我們這次在這次WAIC上想展示的最令人興奮的技術(shù)突破之一。
目前我們接觸到的云端大模型,都要通過預(yù)訓(xùn)練才能更新自己的智能。因?yàn)橐粋€(gè)模型真正學(xué)習(xí)的過程——理解用戶的反饋,并將其體現(xiàn)在自己的神經(jīng)網(wǎng)絡(luò)變化中,依賴于前向傳播(推理/猜測(cè))和反向傳播(學(xué)習(xí)/修正)的過程。而反向傳播本身是一個(gè)特別耗能的過程。在云端,一個(gè)千億模型進(jìn)行一次反向傳播,需要?jiǎng)佑靡粋€(gè)龐大的、由上千張GPU組成的訓(xùn)練集群。
所以,所有基于Transformer架構(gòu)的模型,一旦被部署到你的手機(jī)上,就成了只讀存儲(chǔ)器——它只有前向傳播的能力,失去了學(xué)習(xí)和更新的可能。我們接觸到的所謂的個(gè)性化,都只是模型通過對(duì)話,記住了你的一些偏好,形成了一個(gè)外掛知識(shí)庫(kù),這并不是從根本上學(xué)習(xí)了你的偏好。因此有時(shí)候你和模型即使強(qiáng)調(diào)了很多遍你的偏好,模型還是會(huì)有自己想偏好的輸出。
而我們的創(chuàng)新,恰恰是在這個(gè)最根本的物理限制上,實(shí)現(xiàn)了一個(gè)看似不可能的突破:它讓反向傳播這個(gè)學(xué)習(xí)過程,第一次有可能在端側(cè)設(shè)備上發(fā)生。
得益于分區(qū)激活的特性,當(dāng)模型需要學(xué)習(xí)新知識(shí)時(shí)——比如記住你「喝咖啡不加糖」這個(gè)偏好——它不需要去撼動(dòng)整個(gè)幾十億參數(shù)的神經(jīng)網(wǎng)絡(luò)。我們的架構(gòu)能做到:鎖定與這個(gè)新知識(shí)直接相關(guān)的、那個(gè)被激活的、極小的神經(jīng)元分區(qū)。在這個(gè)被隔離的微型戰(zhàn)場(chǎng)里,執(zhí)行一次低功耗的反向傳播,只更新這個(gè)分區(qū)內(nèi)極少數(shù)的權(quán)重參數(shù)。將這個(gè)學(xué)到的新知識(shí),直接、永久地寫入模型本體的神經(jīng)網(wǎng)絡(luò)中。
通往個(gè)性化記憶和自主學(xué)習(xí)的大門就這樣被打開了。
現(xiàn)在,我們的模型可以一邊使用(推理),一邊學(xué)習(xí)(訓(xùn)練),把新學(xué)到的東西,比如你的新習(xí)慣、新偏好,直接寫進(jìn)模型本體。它讓模型擁有了真正的自主進(jìn)化能力。
03
離線智能什么時(shí)候能夠上AI玩具?
問:我們剛才聊了很多技術(shù)上的不可能與可能?,F(xiàn)在我們回到市場(chǎng),當(dāng)大部分聲音還在追逐云端千億模型時(shí),你們的技術(shù)卻在短時(shí)間內(nèi)找到了真實(shí)的商業(yè)訂單。這讓我們非常好奇,從你們的視角看,當(dāng)前市場(chǎng)上,究竟是哪一類玩家,對(duì)離線智能抱有最強(qiáng)烈的執(zhí)念?他們背后的商業(yè)驅(qū)動(dòng)力是什么?
鄒佳思:目前,我們接觸了多個(gè)領(lǐng)域的客戶,而每個(gè)領(lǐng)域客戶對(duì)于離線智能的執(zhí)念背后,都有著深刻的商業(yè)邏輯。
PC、平板和機(jī)器人是我們當(dāng)前最核心、已實(shí)現(xiàn)量產(chǎn)的戰(zhàn)場(chǎng)。我們會(huì)更關(guān)注更廣域的中低算力市場(chǎng)。
以我們和某頭部出海廠商的合作為例。他們的核心訴求,并不僅僅是為未來的旗艦機(jī)型打造AI功能,更是要盤活手中數(shù)以億計(jì)的、已經(jīng)售出或正在銷售的中低端設(shè)備。
為什么硬件廠商如此在乎這些舊設(shè)備?這背后有兩條生命線:
第一條,是針對(duì)已經(jīng)賣到用戶手里的設(shè)備。通過OTA(空中升級(jí))的方式,為這些舊設(shè)備推送我們的AI模型,可以創(chuàng)造全新的軟件預(yù)裝和增值服務(wù)收入。更重要的是,這極大地提升了品牌價(jià)值——「我?guī)啄昵百I的電腦,現(xiàn)在居然也能升級(jí)成AIPC了!」這種口碑是花錢也買不來的。
第二條,是針對(duì)當(dāng)下仍在出貨的、非旗艦的機(jī)型。任何一個(gè)品牌都不可能只靠售價(jià)上萬(wàn)的頂配AIPC活著,真正的銷量和利潤(rùn),來自于廣大的中低端市場(chǎng)。但這些設(shè)備,因?yàn)樾酒懔ο拗?,根本無法運(yùn)行主流的Transformer模型,但廠商并不愿意因此看著自己的產(chǎn)品與AI絕緣。
而我們的技術(shù),恰恰是填補(bǔ)這個(gè)巨大空窗期的解。我們的模型能直接在這些非旗艦的存量設(shè)備上流暢運(yùn)行,讓廠商下個(gè)月就能把AIPC賣到用戶手中,而不是苦等三年。
除了PC和平板之外,我們也關(guān)注機(jī)器人和手機(jī)領(lǐng)域。與無人機(jī)公司也有一定的合作。
問:AI眼鏡和AI玩具這些炙手可熱的領(lǐng)域呢?
鄒佳思:這兩個(gè)品類,幾乎是所有媒體和投資人見到我們必問的問題。它們代表了設(shè)備端AI最性感的想象力,但也暴露了最骨感的現(xiàn)實(shí)。
它們的根源問題,其實(shí)是同一個(gè):為了極致的成本控制和輕便性,這些設(shè)備里的芯片,從設(shè)計(jì)之初就不是為了跑AI的。
以AI眼鏡為例,現(xiàn)在市面上的主流方案,用的要么是高通的AR專用芯片,要么是恒玄等廠商的芯片。這些芯片本質(zhì)上是通信芯片,它們的任務(wù)是做好藍(lán)牙連接、信息投屏、簡(jiǎn)單翻譯等,算力被嚴(yán)格限制。
結(jié)果就是,我們的模型想跑在大部分眼鏡上,都跑不上去,算力、內(nèi)存完全不達(dá)標(biāo)。連我們都跑不上去,就更別提那些動(dòng)輒幾十億參數(shù)的Transformer模型了,那更是天方夜譚。AI玩具也面臨著完全一樣的困境。
市場(chǎng)對(duì)體驗(yàn)有極高的幻想,但硬件的物理現(xiàn)實(shí)卻極其殘酷。
面對(duì)這個(gè)死結(jié),我們目前看到了兩條清晰的路徑,我們也在同時(shí)推進(jìn):
第一條路,是「曲線救國(guó)」,也是當(dāng)下最務(wù)實(shí)的方案。既然眼鏡本身算力不夠,那就借用手機(jī)端的算力。這個(gè)方案,我們正在和一些頭部的眼鏡廠商進(jìn)行深入的洽談。
另一條路,是更激進(jìn)、更面向未來的「釜底抽薪」。我們和一些像影目科技(INMO)這樣有魄力的伙伴,正在嘗試一個(gè)大膽的想法:在下一代的眼鏡上,直接換一顆更強(qiáng)大的大腦芯片。
這當(dāng)然會(huì)帶來巨大的功耗和工業(yè)設(shè)計(jì)挑戰(zhàn)。但對(duì)他們來說,一旦成功,就意味著擁有了一款獨(dú)一無二的、能真正實(shí)現(xiàn)離線智能的眼鏡。想象一下,你戴著它去海外旅游,在沒有任何網(wǎng)絡(luò)的環(huán)境下,它能實(shí)現(xiàn)即時(shí)的、高質(zhì)量的離線翻譯,這種體驗(yàn)是「炸裂」的,是絕對(duì)的差異化優(yōu)勢(shì)。
所以,對(duì)于眼鏡和玩具這兩個(gè)市場(chǎng),我們既有務(wù)實(shí)的「當(dāng)下解法」,也有著眼于未來的「終極方案」。我們非常有耐心,因?yàn)槲覀兿嘈?,真正的爆發(fā),需要等待技術(shù)和硬件的完美共振。
問:現(xiàn)在國(guó)內(nèi)的AI硬件賽道極其火熱,但都以使用云端AI為主。但我觀察到你們的客戶,實(shí)際上是銷往海外的。在離線智能這件事上,海內(nèi)外的市場(chǎng)溫度是否并不一致?
鄒佳思:您觀察到的這個(gè)「溫度差」,正是我們現(xiàn)階段戰(zhàn)略布局的核心。銷往海外市場(chǎng)的智能硬件,其實(shí)為我們提供了一片更廣闊的藍(lán)海。這種「熾熱」的需求,主要源于三個(gè)國(guó)內(nèi)不太敏感的「痛點(diǎn)」:
第一,是根植于文化的「隱私執(zhí)念」。在歐美市場(chǎng),用戶對(duì)于個(gè)人數(shù)據(jù)隱私的重視程度,是寫進(jìn)法律、深入人心的。我們目前也在和一家頭部玩具IP公司談合作,他們之所以對(duì)我們的方案產(chǎn)生濃厚興趣,一個(gè)核心前提就是:他們不希望用戶的隱私上云。他們的內(nèi)容IP和用戶數(shù)據(jù)是最高級(jí)別的資產(chǎn),必須在設(shè)備端處理。
第二,是客觀存在的「網(wǎng)絡(luò)鴻溝」。我們很容易被國(guó)內(nèi)一線城市無處不在的5G網(wǎng)絡(luò)所「蒙蔽」,認(rèn)為網(wǎng)絡(luò)無所不能。但放眼全球,對(duì)于我們的出?;锇閬碚f,他們的用戶可能在非洲的原野,也可能在東南亞的島嶼,這些地方的網(wǎng)絡(luò)環(huán)境,讓依賴云端的AI體驗(yàn)變得極不可靠。一個(gè)能在弱網(wǎng)、無網(wǎng)環(huán)境下穩(wěn)定運(yùn)行的離線模型,是他們的「救命稻草」。
第三,是更高的人力成本催生的「效率需求」。在海外,很多場(chǎng)景下用機(jī)器替代人力的意愿更強(qiáng)。當(dāng)他們需要一個(gè)可靠的、無需聯(lián)網(wǎng)的7x24小時(shí)接待員或多語(yǔ)言導(dǎo)游時(shí),離線智能的商業(yè)價(jià)值會(huì)比國(guó)內(nèi)市場(chǎng)體現(xiàn)得更直接、更迫切。
所以,我們的戰(zhàn)略非常清晰,我們稱之為「借船出?!?。我們通過賦能那些本身就非常優(yōu)秀的中國(guó)出海企業(yè),將我們的技術(shù)帶給全球那些對(duì)離線智能有著最真實(shí)、最強(qiáng)烈需求的C端用戶。
問:您的分享描繪了一個(gè)非常激動(dòng)人心的前景,但也無法回避一個(gè)尖銳的現(xiàn)實(shí):一方面,端側(cè)模型是各家智能硬件廠商都在關(guān)注的重點(diǎn),國(guó)外內(nèi)手機(jī)巨頭們都在投入重兵自研,試圖把AI的命脈掌握在自己手里;另一方面,硬件的摩爾定律也在飛速前進(jìn),兩三年后,當(dāng)手機(jī)芯片強(qiáng)大到能輕松運(yùn)行更大的模型時(shí),你們今天「小而美」的優(yōu)勢(shì),是否還存在?面對(duì)這樣的未來,RockAI最深的護(hù)城河,究竟是什么?
鄒佳思:您這個(gè)問題非常尖銳,它恰好點(diǎn)出了我們每天都在思考的兩個(gè)核心挑戰(zhàn)。
首先,關(guān)于硬件變強(qiáng)。我們認(rèn)為這是一個(gè)對(duì)我們有利的趨勢(shì)。第一,任何高端硬件的普及,都至少需要兩到三年的窗口期,在這個(gè)窗口期內(nèi),我們是解決海量存量和中端設(shè)備AI化問題的最優(yōu)解。第二,當(dāng)硬件底座變強(qiáng),它能容納的不僅僅是更大的Transformer,也能容納我們從小長(zhǎng)到大的Yan架構(gòu)大模型。我們同樣可以做10B甚至更大的模型,而我們獨(dú)特的自主學(xué)習(xí)、低功耗特性等優(yōu)勢(shì),依然會(huì)存在。
另一個(gè)問題,可能更觸及我們這家公司的靈魂,回答了我們真正的護(hù)城河是什么。
我們的團(tuán)隊(duì)基因,其實(shí)源于一個(gè)始于2015年的、未完成的夢(mèng)。那時(shí)候,我們幾個(gè)創(chuàng)始人就想做真正的智能硬件,當(dāng)時(shí)的形態(tài)類似于小愛同學(xué),但當(dāng)時(shí)就因?yàn)锳I技術(shù)不成熟而失敗了。直到我們看到了Transformer的潛力,覺得時(shí)機(jī)到了,才再次聚到一起創(chuàng)業(yè)。
再后來,我們就痛苦地發(fā)現(xiàn),把Transformer這臺(tái)「云端猛獸」硬塞進(jìn)小小的設(shè)備里,這條路,在工程上根本走不通。
那時(shí),擺在我們面前的有兩條路:一條是跟著行業(yè)主流,給Transformer打補(bǔ)丁,做各種優(yōu)化,這條路更容易、也更容易被投資人看懂。另一條,是走一條更難、更孤獨(dú)的路,承認(rèn)此路不通,從零開始,去構(gòu)建一個(gè)全新的、為端側(cè)而生的架構(gòu)。
我們選擇了后者。而支撐我們走下來的,不是我們有多少錢,有多少卡,或者團(tuán)隊(duì)背景有多光鮮。我們內(nèi)部總結(jié),可能就是一個(gè)很「玄學(xué)」的詞:堅(jiān)持。
我們篤信,模型一定要跑到端上去,設(shè)備一定要有自己的智能。正是因?yàn)檫@份執(zhí)念,我們才愿意去坐那兩年多的冷板凳,在別人追逐云端風(fēng)口時(shí),我們像一個(gè)實(shí)驗(yàn)派的煉丹師,在實(shí)驗(yàn)室里反復(fù)嘗試、驗(yàn)證,最終才煉出了Yan架構(gòu)大模型這顆丹。
所以,我們的護(hù)城河,不是某一兩個(gè)技術(shù)點(diǎn),因?yàn)槁斆鞯娜撕蛨F(tuán)隊(duì)太多了。我們的護(hù)城河,是我們因?yàn)閳?jiān)持而趟過的那些坑、積累的認(rèn)知,以及我們從第一天起就與眾不同的、為端側(cè)智能而生的創(chuàng)新基因。
*頭圖來源:AI生成
本文為極客公園原創(chuàng)文章,轉(zhuǎn)載請(qǐng)聯(lián)系極客君微信geekparkGO
極客一問
你如何看待RockAI?
售價(jià)2.5萬(wàn)元的特斯拉?馬斯克拯救計(jì)劃開始!
點(diǎn)贊關(guān)注極客公園視頻號(hào),