“四年前創(chuàng)業(yè)時,我常被問道:存算一體那么好,為什么別人不做?”后摩智能創(chuàng)始人兼CEO吳強深有體會,“現(xiàn)在一些上市公司或者即將上市的公司都說要布局存算一體,沒有人再問四年前的問題,大家意識到了存算一體芯片對于大模型的優(yōu)勢?!?/p>
存算一體芯片的賽道過去幾年確實十分熱鬧,國內就有十多家公司布局不同技術路線、不同算力的存算一體芯片。
后摩的壁壘是什么?吳強說,“看論文做一個測試芯片,證明技術原理不難。我們的壁壘是將存算一體芯片量產(chǎn),過去四年我們趟過無數(shù)的坑,解決了一個又一個量產(chǎn)難題?!?/p>
世界人工智能大會2025(WAIC)前夕,后摩智能發(fā)布了即將在今年第四季度量產(chǎn)的端邊大模型AI芯片——后摩漫界M50,這是一款單芯片就能運行百億參數(shù)大模型的存算一體芯片。
吳強透露,后摩智能已啟動下一代DRAM-PIM技術研發(fā)。
率先起跑,一次轉向,后摩智能建起壁壘
2020年吳強創(chuàng)業(yè)時,選擇存算一體技術路線有兩個核心原因,一個原因是吳強博士論文的方向是高能效比計算芯片以及編譯器,吳強甚至要解決功耗墻和存儲墻問題,必須走存算一體路線。另一個是看到英偉達的強大,決定用創(chuàng)新的架構另辟蹊徑,嘗試彎道超車。
存算一體技術在學術界研究很多,但要將學術研究轉化成商業(yè)化落地的產(chǎn)品,中間還有巨大的鴻溝。
“論文里能看到理論和原理,但要把存算一體技術轉化為量產(chǎn)產(chǎn)品,必須解決可測性和可靠性問題,中間有無數(shù)的坑。”吳強說,“沒有人做過存算的DFT(DesignforTestability,可測性設計),也不知道怎么做BIST(Built-inSelf-Test,內建自測試技術),如何解決小面積大算力帶來的電源穩(wěn)定性問題?”
業(yè)界沒有人遇到這些問題,也沒有對應的制造工藝和EDA軟件,后摩智能的團隊就只能用普通的工藝和EDA軟件填補中間巨大的鴻溝。
“我們非常希望友商一起做,把存算一體芯片的生態(tài)做好?!眳菑娬f。
靠著后摩研發(fā)團隊攻克一個個難題,2023年后摩發(fā)布了國內首款大算力存算一體智駕芯片鴻途H30,最高物理算力256TOPS,典型功耗35W。
此后雖有后摩智能融資的消息,但一直沒有后摩智能產(chǎn)品和落地方面的消息,直到2025年7月的世界人工智能大會2025(WAIC)。
談及此事,吳強告訴雷峰網(wǎng),2023年下半年整個自動駕駛賽道競爭非常激烈,格局逐漸穩(wěn)定,給新入局者的機會越來越少。
“我們第一代芯片為了體現(xiàn)存算一體的優(yōu)勢,算力很高,也意味著成本高。但當時市場都在講低成本,我們的大算力芯片和汽車芯片市場的需求有鴻溝。”吳強坦言,“那時候在糾結要不要轉型,放棄汽車市場到一個新領域很痛苦,但又知道自動駕駛芯片對我們來說是一條走不通的路?!?/p>
“最后生存的壓力戰(zhàn)勝了面子,2023年下半年開始轉型。”吳強說,“我們看到了端邊大模型的新興市場,沒有巨頭公司,與存算一體芯片的適用場景又很契合,2024年初快速調整第一代芯片,針對大模型優(yōu)化推出了漫界M30?!?/p>
在股東中國移動的幫助下,后摩智能的漫界M30隨中國移動在2024年的世界移動通信大會(MWC)亮相,這款芯片能夠運行60B參數(shù)的模型,給了吳強和團隊信心。
于是后摩智能就堅定轉到端邊大模型芯片的市場,經(jīng)過近兩年時間,推出了第二代IPU架構的存算一體量產(chǎn)芯片漫界M50。
無論是將存算一體芯片從學術界推向商業(yè)市場,還是芯片應用落地的選擇,其中趟過的坑,走過的彎路積累下來的經(jīng)驗,都是后摩在存算一體賽道和國產(chǎn)芯片公司里的壁壘。
這個壁壘,幫助后摩智能能夠更好設計第二代芯片。
單芯片160TOPS,能運行百億參數(shù)大模型
后摩漫界M50采用的是自研的第二代IPU架構——天璇,實現(xiàn)了160TOPS@INT8、100TFLOPS@bFP16的物理算力,搭配最大48GB內存與153.6GB/s的超高帶寬,典型功耗僅10W,相當于手機快充的功率,就能讓PC、智能語音設備、機器人等智能移動終端高效運行1.5B到70B參數(shù)的本地大模型。
得益于存算一體通過把計算和存儲單元集成在一起,讓數(shù)據(jù)就近處理,能從根本上解決傳統(tǒng)芯片“數(shù)據(jù)傳輸慢、功耗高”問題的特性,和傳統(tǒng)架構相比,M50的能效提升5~10倍,能充分滿足端邊設備"算得快又吃得少"的需求。
但為了能夠最大程度發(fā)揮存算一體架構的優(yōu)勢高效運行大模型,后摩智能進行了一系列的優(yōu)化,吳強重點分享了兩個優(yōu)化。
一個是彈性加速,這個技術與GPU的稀疏加速有點類似。GPU的稀疏加速,是在遇到權重參數(shù)為“0”時,跳過計算,實現(xiàn)加速。但這種方式權重必須嚴格為“0”,在現(xiàn)實應用中,要讓大量權重都恰好為“0”是非常困難的,因此GPU的稀疏加速效果往往不盡如人意。
SRAM存算一體技術是按照一個比特(bit)一個比特進行串行計算,這意味著后摩可以做到更細粒度的優(yōu)化。
“我們并不需要整個權重是0,只要它在bit里面有0,就可能做彈性加速?!眳菑娊榻B,這讓加速的機會大大增加,也讓量化變得更加靈活,可以實現(xiàn)7bit、6bit甚至5bit的超低精度量化,從而在不犧牲太多精度的情況下,將性能壓榨到極致。
據(jù)悉,天璇架構最高可實現(xiàn)160%的加速效果。
另一個優(yōu)化是直接支持浮點運算?!盎诖嫠愕募軜嬜龈↑c運算,并把它量產(chǎn),我們在業(yè)內應該是第一個。”吳強解釋,芯片直接支持浮點運算,意味著開源或者FP16的浮點模型可以直接運行,能夠提升適配和應用的效率,只有特殊需要的情況下才會做額外的量化,這進一步降低了漫界M50芯片應用落地的難度。
對于用戶來說,易用性還是取決于上層的軟件,包括編譯器。
“第一代編譯器用傳統(tǒng)的方案做,很多功能發(fā)揮不出來,所以中間重構了一遍,完全從0-1?!眳菑娬f,“我們也是逐漸地摸索,這種經(jīng)驗在外面看不到,這是我們積累的壁壘?!?/p>
傳統(tǒng)的NPU編譯器有幾百個選項,手動調優(yōu)困難,導致上手門檻高、使用不便。
后摩重構的編譯器后摩大道,應用了自動的優(yōu)化算子,只要給一些輸入的圖Graph,它就能自動搜索最優(yōu)化的策略,無需開發(fā)者手動嘗試,支持浮點運算,無需量化參數(shù)和精度調優(yōu),讓開發(fā)者更容易上手。
從硬件到軟件,后摩解決了AI芯片落地的技術難題,市場策略成為后摩走向商業(yè)化成功的下一個關鍵。
多元產(chǎn)品組合,重點拓展三大領域
基于漫界M50內建的高速多芯互聯(lián)技術,后摩智能推出了覆蓋端側到邊緣的多元算力方案。
力擎LQ50M.2卡以口香糖大小的標準M.2規(guī)格,為AIPC、AIStick、陪伴機器人等移動終端提供"即插即用"的端側AI能力,支持7B/8B模型推理超25tokens/s。
力擎LQ50DuoM.2卡集成雙M50芯片,320TOPS的算力,突破14B/32B大模型端側部署瓶頸。
力謀LM5050加速卡與力謀LM5070加速卡分別集成2顆、4顆M50芯片,為單機及超大模型推理提供高密度算力,最高達640TOPS。
BX50計算盒子則以緊湊機身適配邊緣場景,支持32路視頻分析與本地大模型運行。
目前后摩智能比較看重三個領域,一是平板和電腦這種消費終端類,這是大模型生產(chǎn)力工具,對AI性能有剛需。二是智能語音系統(tǒng),大模型語音會議也是重點布局的一個方面。三是運營商的邊緣計算,看中了5G+AI是一個趨勢。
“目前這幾個方面都有早期客戶,消費終端、智能辦公、智能工業(yè)我們重點布局的領域。”吳強說,“我們精力有限,先把這三個領域做好,未來只要對大模型有需要,對功耗敏感,都是會逐步拓展的客戶?!?/p>
在世界人工智能大會(WAIC)后摩的展臺上,后摩也展示了單顆漫界M50芯片運行端側大模型的應用,比如基于Qwen3-14b模型的Chatbot知識問答;還有基于Qwen-8b模型的會議紀要,支持2K左右的上下文,一小時的會議,目前五六分鐘可以生成會議紀要;還有專門為信創(chuàng)市場提供服務的公文寫作,采用純國產(chǎn)芯片和操作系統(tǒng),運行Qwen2.5-7b模型,速度十分理想。
目前,聯(lián)想的下一代AIPC,科大訊飛的訊飛聽見下一代智能語音設備,以及中國移動的新一代5G+AI邊緣計算盒子,都是后摩智能的意向客戶。
吳強告訴雷峰網(wǎng),目前后摩和算法合作伙伴以及OS都有合作,后摩的策略是每個領域與頭部客戶直接對接,腰部以及長尾客戶用編譯器工具鏈降低客戶開發(fā)的難度。
接下來,后摩將研發(fā)下一代DRAM-PIM技術,通過將計算單元直接嵌入DRAM陣列,使計算與存儲的協(xié)同更加緊密高效,這一技術將突破1TB/s片內帶寬,能效較現(xiàn)有水平再提升三倍,推動百億參數(shù)大模型在終端設備實現(xiàn)普及,讓更強大的AI算力能夠融入PC、平板等日常設備。
從最初的孤獨求證,到如今的大模型端側芯片量產(chǎn),后摩智能讓存算一體不再只是學術概念,而成為國產(chǎn)AI芯片攻入新場景的“潛航器”。