“四年前創(chuàng)業(yè)時,我常被問道:存算一體那么好,為什么別人不做?”后摩智能創(chuàng)始人兼CEO吳強(qiáng)深有體會,“現(xiàn)在一些上市公司或者即將上市的公司都說要布局存算一體,沒有人再問四年前的問題,大家意識到了存算一體芯片對于大模型的優(yōu)勢?!?/p>
存算一體芯片的賽道過去幾年確實十分熱鬧,國內(nèi)就有十多家公司布局不同技術(shù)路線、不同算力的存算一體芯片。
后摩的壁壘是什么?吳強(qiáng)說,“看論文做一個測試芯片,證明技術(shù)原理不難。我們的壁壘是將存算一體芯片量產(chǎn),過去四年我們趟過無數(shù)的坑,解決了一個又一個量產(chǎn)難題?!?/p>
世界人工智能大會2025(WAIC)前夕,后摩智能發(fā)布了即將在今年第四季度量產(chǎn)的端邊大模型AI芯片——后摩漫界M50,這是一款單芯片就能運(yùn)行百億參數(shù)大模型的存算一體芯片。
吳強(qiáng)透露,后摩智能已啟動下一代DRAM-PIM技術(shù)研發(fā)。
率先起跑,一次轉(zhuǎn)向,后摩智能建起壁壘
2020年吳強(qiáng)創(chuàng)業(yè)時,選擇存算一體技術(shù)路線有兩個核心原因,一個原因是吳強(qiáng)博士論文的方向是高能效比計算芯片以及編譯器,吳強(qiáng)甚至要解決功耗墻和存儲墻問題,必須走存算一體路線。另一個是看到英偉達(dá)的強(qiáng)大,決定用創(chuàng)新的架構(gòu)另辟蹊徑,嘗試彎道超車。
存算一體技術(shù)在學(xué)術(shù)界研究很多,但要將學(xué)術(shù)研究轉(zhuǎn)化成商業(yè)化落地的產(chǎn)品,中間還有巨大的鴻溝。
“論文里能看到理論和原理,但要把存算一體技術(shù)轉(zhuǎn)化為量產(chǎn)產(chǎn)品,必須解決可測性和可靠性問題,中間有無數(shù)的坑?!眳菑?qiáng)說,“沒有人做過存算的DFT(DesignforTestability,可測性設(shè)計),也不知道怎么做BIST(Built-inSelf-Test,內(nèi)建自測試技術(shù)),如何解決小面積大算力帶來的電源穩(wěn)定性問題?”
業(yè)界沒有人遇到這些問題,也沒有對應(yīng)的制造工藝和EDA軟件,后摩智能的團(tuán)隊就只能用普通的工藝和EDA軟件填補(bǔ)中間巨大的鴻溝。
“我們非常希望友商一起做,把存算一體芯片的生態(tài)做好。”吳強(qiáng)說。
靠著后摩研發(fā)團(tuán)隊攻克一個個難題,2023年后摩發(fā)布了國內(nèi)首款大算力存算一體智駕芯片鴻途H30,最高物理算力256TOPS,典型功耗35W。
此后雖有后摩智能融資的消息,但一直沒有后摩智能產(chǎn)品和落地方面的消息,直到2025年7月的世界人工智能大會2025(WAIC)。
談及此事,吳強(qiáng)告訴雷峰網(wǎng),2023年下半年整個自動駕駛賽道競爭非常激烈,格局逐漸穩(wěn)定,給新入局者的機(jī)會越來越少。
“我們第一代芯片為了體現(xiàn)存算一體的優(yōu)勢,算力很高,也意味著成本高。但當(dāng)時市場都在講低成本,我們的大算力芯片和汽車芯片市場的需求有鴻溝。”吳強(qiáng)坦言,“那時候在糾結(jié)要不要轉(zhuǎn)型,放棄汽車市場到一個新領(lǐng)域很痛苦,但又知道自動駕駛芯片對我們來說是一條走不通的路?!?/p>
“最后生存的壓力戰(zhàn)勝了面子,2023年下半年開始轉(zhuǎn)型?!眳菑?qiáng)說,“我們看到了端邊大模型的新興市場,沒有巨頭公司,與存算一體芯片的適用場景又很契合,2024年初快速調(diào)整第一代芯片,針對大模型優(yōu)化推出了漫界M30?!?/p>
在股東中國移動的幫助下,后摩智能的漫界M30隨中國移動在2024年的世界移動通信大會(MWC)亮相,這款芯片能夠運(yùn)行60B參數(shù)的模型,給了吳強(qiáng)和團(tuán)隊信心。
于是后摩智能就堅定轉(zhuǎn)到端邊大模型芯片的市場,經(jīng)過近兩年時間,推出了第二代IPU架構(gòu)的存算一體量產(chǎn)芯片漫界M50。
無論是將存算一體芯片從學(xué)術(shù)界推向商業(yè)市場,還是芯片應(yīng)用落地的選擇,其中趟過的坑,走過的彎路積累下來的經(jīng)驗,都是后摩在存算一體賽道和國產(chǎn)芯片公司里的壁壘。
這個壁壘,幫助后摩智能能夠更好設(shè)計第二代芯片。
單芯片160TOPS,能運(yùn)行百億參數(shù)大模型
后摩漫界M50采用的是自研的第二代IPU架構(gòu)——天璇,實現(xiàn)了160TOPS@INT8、100TFLOPS@bFP16的物理算力,搭配最大48GB內(nèi)存與153.6GB/s的超高帶寬,典型功耗僅10W,相當(dāng)于手機(jī)快充的功率,就能讓PC、智能語音設(shè)備、機(jī)器人等智能移動終端高效運(yùn)行1.5B到70B參數(shù)的本地大模型。
得益于存算一體通過把計算和存儲單元集成在一起,讓數(shù)據(jù)就近處理,能從根本上解決傳統(tǒng)芯片“數(shù)據(jù)傳輸慢、功耗高”問題的特性,和傳統(tǒng)架構(gòu)相比,M50的能效提升5~10倍,能充分滿足端邊設(shè)備"算得快又吃得少"的需求。
但為了能夠最大程度發(fā)揮存算一體架構(gòu)的優(yōu)勢高效運(yùn)行大模型,后摩智能進(jìn)行了一系列的優(yōu)化,吳強(qiáng)重點分享了兩個優(yōu)化。
一個是彈性加速,這個技術(shù)與GPU的稀疏加速有點類似。GPU的稀疏加速,是在遇到權(quán)重參數(shù)為“0”時,跳過計算,實現(xiàn)加速。但這種方式權(quán)重必須嚴(yán)格為“0”,在現(xiàn)實應(yīng)用中,要讓大量權(quán)重都恰好為“0”是非常困難的,因此GPU的稀疏加速效果往往不盡如人意。
SRAM存算一體技術(shù)是按照一個比特(bit)一個比特進(jìn)行串行計算,這意味著后摩可以做到更細(xì)粒度的優(yōu)化。
“我們并不需要整個權(quán)重是0,只要它在bit里面有0,就可能做彈性加速?!眳菑?qiáng)介紹,這讓加速的機(jī)會大大增加,也讓量化變得更加靈活,可以實現(xiàn)7bit、6bit甚至5bit的超低精度量化,從而在不犧牲太多精度的情況下,將性能壓榨到極致。
據(jù)悉,天璇架構(gòu)最高可實現(xiàn)160%的加速效果。
另一個優(yōu)化是直接支持浮點運(yùn)算。“基于存算的架構(gòu)做浮點運(yùn)算,并把它量產(chǎn),我們在業(yè)內(nèi)應(yīng)該是第一個?!眳菑?qiáng)解釋,芯片直接支持浮點運(yùn)算,意味著開源或者FP16的浮點模型可以直接運(yùn)行,能夠提升適配和應(yīng)用的效率,只有特殊需要的情況下才會做額外的量化,這進(jìn)一步降低了漫界M50芯片應(yīng)用落地的難度。
對于用戶來說,易用性還是取決于上層的軟件,包括編譯器。
“第一代編譯器用傳統(tǒng)的方案做,很多功能發(fā)揮不出來,所以中間重構(gòu)了一遍,完全從0-1。”吳強(qiáng)說,“我們也是逐漸地摸索,這種經(jīng)驗在外面看不到,這是我們積累的壁壘?!?/p>
傳統(tǒng)的NPU編譯器有幾百個選項,手動調(diào)優(yōu)困難,導(dǎo)致上手門檻高、使用不便。
后摩重構(gòu)的編譯器后摩大道,應(yīng)用了自動的優(yōu)化算子,只要給一些輸入的圖Graph,它就能自動搜索最優(yōu)化的策略,無需開發(fā)者手動嘗試,支持浮點運(yùn)算,無需量化參數(shù)和精度調(diào)優(yōu),讓開發(fā)者更容易上手。
從硬件到軟件,后摩解決了AI芯片落地的技術(shù)難題,市場策略成為后摩走向商業(yè)化成功的下一個關(guān)鍵。
多元產(chǎn)品組合,重點拓展三大領(lǐng)域
基于漫界M50內(nèi)建的高速多芯互聯(lián)技術(shù),后摩智能推出了覆蓋端側(cè)到邊緣的多元算力方案。
力擎LQ50M.2卡以口香糖大小的標(biāo)準(zhǔn)M.2規(guī)格,為AIPC、AIStick、陪伴機(jī)器人等移動終端提供"即插即用"的端側(cè)AI能力,支持7B/8B模型推理超25tokens/s。
力擎LQ50DuoM.2卡集成雙M50芯片,320TOPS的算力,突破14B/32B大模型端側(cè)部署瓶頸。
力謀LM5050加速卡與力謀LM5070加速卡分別集成2顆、4顆M50芯片,為單機(jī)及超大模型推理提供高密度算力,最高達(dá)640TOPS。
BX50計算盒子則以緊湊機(jī)身適配邊緣場景,支持32路視頻分析與本地大模型運(yùn)行。
目前后摩智能比較看重三個領(lǐng)域,一是平板和電腦這種消費終端類,這是大模型生產(chǎn)力工具,對AI性能有剛需。二是智能語音系統(tǒng),大模型語音會議也是重點布局的一個方面。三是運(yùn)營商的邊緣計算,看中了5G+AI是一個趨勢。
“目前這幾個方面都有早期客戶,消費終端、智能辦公、智能工業(yè)我們重點布局的領(lǐng)域?!眳菑?qiáng)說,“我們精力有限,先把這三個領(lǐng)域做好,未來只要對大模型有需要,對功耗敏感,都是會逐步拓展的客戶?!?/p>
在世界人工智能大會(WAIC)后摩的展臺上,后摩也展示了單顆漫界M50芯片運(yùn)行端側(cè)大模型的應(yīng)用,比如基于Qwen3-14b模型的Chatbot知識問答;還有基于Qwen-8b模型的會議紀(jì)要,支持2K左右的上下文,一小時的會議,目前五六分鐘可以生成會議紀(jì)要;還有專門為信創(chuàng)市場提供服務(wù)的公文寫作,采用純國產(chǎn)芯片和操作系統(tǒng),運(yùn)行Qwen2.5-7b模型,速度十分理想。
目前,聯(lián)想的下一代AIPC,科大訊飛的訊飛聽見下一代智能語音設(shè)備,以及中國移動的新一代5G+AI邊緣計算盒子,都是后摩智能的意向客戶。
吳強(qiáng)告訴雷峰網(wǎng),目前后摩和算法合作伙伴以及OS都有合作,后摩的策略是每個領(lǐng)域與頭部客戶直接對接,腰部以及長尾客戶用編譯器工具鏈降低客戶開發(fā)的難度。
接下來,后摩將研發(fā)下一代DRAM-PIM技術(shù),通過將計算單元直接嵌入DRAM陣列,使計算與存儲的協(xié)同更加緊密高效,這一技術(shù)將突破1TB/s片內(nèi)帶寬,能效較現(xiàn)有水平再提升三倍,推動百億參數(shù)大模型在終端設(shè)備實現(xiàn)普及,讓更強(qiáng)大的AI算力能夠融入PC、平板等日常設(shè)備。
從最初的孤獨求證,到如今的大模型端側(cè)芯片量產(chǎn),后摩智能讓存算一體不再只是學(xué)術(shù)概念,而成為國產(chǎn)AI芯片攻入新場景的“潛航器”。
8本已完結(jié)墓園類英雄無敵小說,主角招募亡靈兵種,掀起死亡狂潮
小說:帶著亡者重生游戲,他復(fù)仇歸來,成就暴君傳奇
免責(zé)聲明:本文內(nèi)容由開放的智能模型自動生成,僅供參考。