作者:金旺
由于打破了芯片設(shè)計的“存儲墻”和“功耗墻”,實現(xiàn)了計算單元與存儲單元的集成,顛覆了馮·諾依曼架構(gòu)的存算一體技術(shù)正在成為大模型時代設(shè)計AI芯片的一條全新技術(shù)路徑。
不過,在大模型還未引爆全球的2020年,吳強基于存算一體技術(shù)創(chuàng)業(yè)做AI芯片時,當(dāng)時的后摩智能并不被大家所理解。
后摩智能創(chuàng)始人、CEO吳強回憶起創(chuàng)業(yè)之初,當(dāng)時被問到最多的是,“既然存算一體技術(shù)這么好,為什么別人沒有做,只有你們在做?”
作為第一批將存算一體技術(shù)從學(xué)術(shù)界應(yīng)用到工業(yè)界的人,被質(zhì)疑在所難免。
不過,當(dāng)四年后,以大模型技術(shù)為代表的人工智能新范式成為這個社會主流意識時,存算一體技術(shù)的優(yōu)勢開始顯現(xiàn),主流芯片廠商也開始進入這一領(lǐng)域。
這時的吳強需要面對的問題成了,“面對其他廠商的入局和競爭,后摩智能如何形成自己的護城河?”
就在WAIC2025前夕,后摩智能正式對外發(fā)布了后摩漫界M50,這顆面向端邊大模型的AI芯片,就是吳強給出的答案。
01破解大模型的計算瓶頸
2020年,在鮮有主流芯片廠商會提及存算一體計算架構(gòu)時,在國內(nèi)外頭部科技廠商任職多年、負責(zé)過多個AI芯片項目的吳強決定創(chuàng)業(yè),當(dāng)時他為后摩智能選定的創(chuàng)業(yè)方向正是存算一體技術(shù)。
吳強之所以會選擇這樣一條路創(chuàng)業(yè),有兩個原因:
第一,吳強早年間在美國普林斯頓大學(xué)博士期間,論文的研究方向就是高能效比芯片和編譯器,自那時起他就知道,要真正解決“存儲墻”、“功耗墻”問題,存算一體是一條必然路徑;
第二,在英特爾、AMD、英偉達這樣巨頭林立的芯片領(lǐng)域,要想?yún)⑴c到全球競爭中,就需要通過創(chuàng)新技術(shù)進行彎道超車。
于是,吳強帶領(lǐng)后摩智能團隊基于存算一體這一冷門技術(shù)路線開始研發(fā)AI芯片,到現(xiàn)在已經(jīng)有四年多的時間。
后摩智能拿出第一顆存算一體芯片是在2023年。
2023年5月,后摩智能正式對外發(fā)布首款存算一體芯片鴻途H30,這款應(yīng)用于智駕領(lǐng)域的存算一體芯片最高物理算力達到了256TOPS,典型功耗為35W,存算一體技術(shù)的高算力、高帶寬、低功耗等特性首次顯現(xiàn)。
然而,2023年下半年,智能駕駛領(lǐng)域已經(jīng)格局逐漸趨于穩(wěn)定,留給新入局者的機會已經(jīng)不多,由于后摩智能第一代AI芯片做得算力很大,算力大就意味著成本高,彼時低成本已經(jīng)成為智能駕駛市場一大趨勢,智能駕駛AI芯片的價格甚至達到了千元級。
在無法看到L3級,乃至更高階自動駕駛的年代,拼算力成本成了市場上的主流聲音,吳強回憶稱,“由于我們第一代芯片的算力太超前,和當(dāng)時市場存在一個gap,再面向智能駕駛領(lǐng)域造一顆心的芯片,將會錯過這個市場的窗口期,我們在2023年開始思考轉(zhuǎn)型?!?/p>
創(chuàng)業(yè)團隊沒有大公司的通病,轉(zhuǎn)向并不算難,于是,后摩智能在2023年開始尋找新的機會。
2023年,ChatGPT已經(jīng)火遍全球,中國大模型市場正在經(jīng)歷著百團大戰(zhàn),大模型已經(jīng)成為了當(dāng)下時代趨勢。
當(dāng)時的吳強發(fā)現(xiàn),大模型中的Prefill算力非常密集,但是到了Decoding階段,開始對帶寬要求很高,所以大模型既是算力密集型,又是訪存密集型的AI應(yīng)用。
這樣的應(yīng)用需求與存算一體計算架構(gòu)的技術(shù)能力高度吻合,發(fā)現(xiàn)這樣的市場需求后,吳強和他的團隊非常興奮,在2023年年底決定轉(zhuǎn)向,基于大模型的應(yīng)用需求研發(fā)存算一體AI芯片。
在這個過程中,后摩智能團隊投入大量資源深入研究了大模型芯片架構(gòu)、設(shè)計、量化等問題,在過去兩年里陸續(xù)在國際頂刊上發(fā)表了30多篇論文,甚至其中一篇與北京大學(xué)合作的關(guān)于在大模型推理架構(gòu)中DRAM存算用的研究成果入選了2025ISCA最佳論文獎。
這是吳強在國外讀博士期間,每位學(xué)生都夢寐以求計算機架構(gòu)國際頂級會議。
也是基于這兩年的技術(shù)積累,在WAIC2025前夕,后摩智能兩年磨一劍的后摩漫界M50芯片正式對外亮相。
02大模型計算權(quán)重下放,90%需求在端邊
說起來,M50并不是后摩智能面向大模型領(lǐng)域推出的第一顆AI芯片。
早在2024年6月,后摩智能就面向大模型領(lǐng)域推出了第一顆基于存算一體計算架構(gòu)的AI芯片,后摩漫界M30。
這顆芯片首先應(yīng)用到了中國移動的一體機產(chǎn)品中,并在2024年年初隨著中國移動在MWC2024上正式對外展出,當(dāng)時基于后摩漫界M30運行60B大模型的效果超出了后摩智能團隊的預(yù)期,這進一步堅定了后摩智能做大模型AI芯片的決心。
與此同時,中國移動旗下的北京中移數(shù)字新經(jīng)濟產(chǎn)業(yè)基金和上海中移數(shù)字轉(zhuǎn)型產(chǎn)業(yè)基金后來也成了后摩智能的投資方。
錨定大模型AI芯片后,基于對大模型的深入研究,吳強又有了兩個判斷:
第一,大模型的重心將逐漸從訓(xùn)練向推理側(cè)遷移,未來大模型推理對AI芯片會有更多需求;
第二,大模型將從云端智能向端邊智能遷移,在未來端邊云混合智能體系中,90%的數(shù)據(jù)處理需求將會來自端和邊。
基于這兩大趨勢判斷,后摩智能將下一代芯片,也就是這次發(fā)布的后摩漫界M50定位到了端邊大模型應(yīng)用場景。
后摩漫界M50采用存算一體計算架構(gòu),芯片大小只有20×23mm,典型功耗進一步控制到了10W,單芯片算力最高可達160TOPS,配備最大48GB內(nèi)存和153.6GB/s帶寬,目前已經(jīng)實現(xiàn)了7B/8B大模型25+Tokens/s的推理速度。
不過,后摩漫界M50不僅僅能夠支持7B/8B大模型,據(jù)吳強在媒體溝通會上透露,這款芯片已經(jīng)完成了對70B參數(shù)的deepseek的適配,最大可以支持100B參數(shù)大模型。
這樣的后摩漫界M50,是后摩智能過去兩年的研發(fā)成果,而之所以這顆芯片能實現(xiàn)如此高的能效,是因為后摩智能在存算一體化計算架構(gòu)上的技術(shù)突破,這又包括存算IP和IPU架構(gòu)兩個方面。
在存算IP上,后摩智能演進到了第二代,在權(quán)重加載電路、加法樹架構(gòu)、加法樹物理實現(xiàn)、控制電路以及時序電路優(yōu)、SRAM電路上都進行了全新的優(yōu)化設(shè)計,在此過程中,后摩智能團隊就可測性、可靠性,以及存算成本、電源穩(wěn)定性、面效比等方面都進行了深入研究,并將這些成果集成到了M50芯片上。
在IPU架構(gòu)上,后摩智能同樣向前邁進了一代,對于第二代天璇架構(gòu),吳強特別介紹了團隊在以下兩個方面進行的優(yōu)化:
第一,通過自適應(yīng)計算周期壓縮實現(xiàn)彈性加速。
在GPU中已經(jīng)得到普遍應(yīng)用的稀疏加速的技術(shù)原理是,如果某個權(quán)重為0,就可以直接跳過,以此實現(xiàn)計算加速,而如果這個權(quán)重不是0,GPU中的稀疏算力將會很難被利用起來。
相較而言,存算一體AI芯片是基于比特串行的計算,這就使得針對某個輸入,不需要所有值都為0,而是只要比特位內(nèi)有0就可以按照比特位進行優(yōu)化,進行彈性加速。
第二,浮點模型直接運行,提升應(yīng)用效率。
基于第二代天璇架構(gòu)M50運行的大模型,針對FP16的浮點模型可以直接運行,只有特殊場景下才需要做額外的量化工作,由此提升了模型的適配和應(yīng)用效率。
為了更好地發(fā)揮出M50芯片的能力,后摩智能還為這代芯片重構(gòu)了編譯器工具,研發(fā)了支持主流深度學(xué)習(xí)框架、能夠自動搜索最優(yōu)優(yōu)化策略、提供原生浮點算力支持的后摩大道編譯器。
此外,基于后摩漫界M50,后摩智能還同步推出了力系列M.2卡、力謀系列加速卡及計算盒子等硬件組合,形成了覆蓋移動終端與邊緣場景完整的產(chǎn)品矩陣。
03AI終端潛力,開始加速釋放
2022年11月30日,OpenAI正式對外發(fā)布了ChatGPT,作為大模型時代第一個超級應(yīng)用,ChatGPT僅用了2個月就達到了1億用戶。
更為瘋狂的是,2024年面世的deepseek,達到1億用戶量,僅僅用了兩周時間。
這樣的現(xiàn)象級大模型產(chǎn)品的出現(xiàn),讓吳強意識到,大模型時代的產(chǎn)品底層邏輯已經(jīng)改變。
互聯(lián)網(wǎng)產(chǎn)品是通過連接產(chǎn)生價值,只有擁有一定用戶量形成網(wǎng)絡(luò)效應(yīng)才能產(chǎn)生價值,而大模型產(chǎn)品發(fā)展更快速,可以在很短時間能成長為超級應(yīng)用,直接創(chuàng)造生產(chǎn)力,產(chǎn)生價值。
那么,后摩智能當(dāng)下的目標商業(yè)市場是在哪里呢?
吳強給出的答案是:消費終端、智能辦公、智能工業(yè)、機器人。
這是吳強為后摩智能商業(yè)化發(fā)展制定的方向,也是后摩漫界M50最先落地方向。
這其中,在發(fā)布會上,吳強也進一步透露了,諸如聯(lián)想的下一代AIPC、訊飛聽見的下一代智能語音設(shè)備、中國移動的5G+AI應(yīng)用落地設(shè)備,都將是后摩智能面向端邊大模型布局的后摩智能M50的意向客戶。
值得注意的是,吳強同樣看好如今處于風(fēng)口上的具身智能市場,他告訴我們,“機器人對功耗更敏感,對AI芯片有更高要求,也是我們的機會之一?!?/p>
據(jù)悉,后摩智能如今已經(jīng)在與機器人廠商合作,在具身智能領(lǐng)域進行提前布局。