作者:金旺
由于打破了芯片設(shè)計(jì)的“存儲墻”和“功耗墻”,實(shí)現(xiàn)了計(jì)算單元與存儲單元的集成,顛覆了馮·諾依曼架構(gòu)的存算一體技術(shù)正在成為大模型時(shí)代設(shè)計(jì)AI芯片的一條全新技術(shù)路徑。
不過,在大模型還未引爆全球的2020年,吳強(qiáng)基于存算一體技術(shù)創(chuàng)業(yè)做AI芯片時(shí),當(dāng)時(shí)的后摩智能并不被大家所理解。
后摩智能創(chuàng)始人、CEO吳強(qiáng)回憶起創(chuàng)業(yè)之初,當(dāng)時(shí)被問到最多的是,“既然存算一體技術(shù)這么好,為什么別人沒有做,只有你們在做?”
作為第一批將存算一體技術(shù)從學(xué)術(shù)界應(yīng)用到工業(yè)界的人,被質(zhì)疑在所難免。
不過,當(dāng)四年后,以大模型技術(shù)為代表的人工智能新范式成為這個(gè)社會主流意識時(shí),存算一體技術(shù)的優(yōu)勢開始顯現(xiàn),主流芯片廠商也開始進(jìn)入這一領(lǐng)域。
這時(shí)的吳強(qiáng)需要面對的問題成了,“面對其他廠商的入局和競爭,后摩智能如何形成自己的護(hù)城河?”
就在WAIC2025前夕,后摩智能正式對外發(fā)布了后摩漫界M50,這顆面向端邊大模型的AI芯片,就是吳強(qiáng)給出的答案。
01破解大模型的計(jì)算瓶頸
2020年,在鮮有主流芯片廠商會提及存算一體計(jì)算架構(gòu)時(shí),在國內(nèi)外頭部科技廠商任職多年、負(fù)責(zé)過多個(gè)AI芯片項(xiàng)目的吳強(qiáng)決定創(chuàng)業(yè),當(dāng)時(shí)他為后摩智能選定的創(chuàng)業(yè)方向正是存算一體技術(shù)。
吳強(qiáng)之所以會選擇這樣一條路創(chuàng)業(yè),有兩個(gè)原因:
第一,吳強(qiáng)早年間在美國普林斯頓大學(xué)博士期間,論文的研究方向就是高能效比芯片和編譯器,自那時(shí)起他就知道,要真正解決“存儲墻”、“功耗墻”問題,存算一體是一條必然路徑;
第二,在英特爾、AMD、英偉達(dá)這樣巨頭林立的芯片領(lǐng)域,要想?yún)⑴c到全球競爭中,就需要通過創(chuàng)新技術(shù)進(jìn)行彎道超車。
于是,吳強(qiáng)帶領(lǐng)后摩智能團(tuán)隊(duì)基于存算一體這一冷門技術(shù)路線開始研發(fā)AI芯片,到現(xiàn)在已經(jīng)有四年多的時(shí)間。
后摩智能拿出第一顆存算一體芯片是在2023年。
2023年5月,后摩智能正式對外發(fā)布首款存算一體芯片鴻途H30,這款應(yīng)用于智駕領(lǐng)域的存算一體芯片最高物理算力達(dá)到了256TOPS,典型功耗為35W,存算一體技術(shù)的高算力、高帶寬、低功耗等特性首次顯現(xiàn)。
然而,2023年下半年,智能駕駛領(lǐng)域已經(jīng)格局逐漸趨于穩(wěn)定,留給新入局者的機(jī)會已經(jīng)不多,由于后摩智能第一代AI芯片做得算力很大,算力大就意味著成本高,彼時(shí)低成本已經(jīng)成為智能駕駛市場一大趨勢,智能駕駛AI芯片的價(jià)格甚至達(dá)到了千元級。
在無法看到L3級,乃至更高階自動駕駛的年代,拼算力成本成了市場上的主流聲音,吳強(qiáng)回憶稱,“由于我們第一代芯片的算力太超前,和當(dāng)時(shí)市場存在一個(gè)gap,再面向智能駕駛領(lǐng)域造一顆心的芯片,將會錯(cuò)過這個(gè)市場的窗口期,我們在2023年開始思考轉(zhuǎn)型?!?/p>
創(chuàng)業(yè)團(tuán)隊(duì)沒有大公司的通病,轉(zhuǎn)向并不算難,于是,后摩智能在2023年開始尋找新的機(jī)會。
2023年,ChatGPT已經(jīng)火遍全球,中國大模型市場正在經(jīng)歷著百團(tuán)大戰(zhàn),大模型已經(jīng)成為了當(dāng)下時(shí)代趨勢。
當(dāng)時(shí)的吳強(qiáng)發(fā)現(xiàn),大模型中的Prefill算力非常密集,但是到了Decoding階段,開始對帶寬要求很高,所以大模型既是算力密集型,又是訪存密集型的AI應(yīng)用。
這樣的應(yīng)用需求與存算一體計(jì)算架構(gòu)的技術(shù)能力高度吻合,發(fā)現(xiàn)這樣的市場需求后,吳強(qiáng)和他的團(tuán)隊(duì)非常興奮,在2023年年底決定轉(zhuǎn)向,基于大模型的應(yīng)用需求研發(fā)存算一體AI芯片。
在這個(gè)過程中,后摩智能團(tuán)隊(duì)投入大量資源深入研究了大模型芯片架構(gòu)、設(shè)計(jì)、量化等問題,在過去兩年里陸續(xù)在國際頂刊上發(fā)表了30多篇論文,甚至其中一篇與北京大學(xué)合作的關(guān)于在大模型推理架構(gòu)中DRAM存算用的研究成果入選了2025ISCA最佳論文獎。
這是吳強(qiáng)在國外讀博士期間,每位學(xué)生都夢寐以求計(jì)算機(jī)架構(gòu)國際頂級會議。
也是基于這兩年的技術(shù)積累,在WAIC2025前夕,后摩智能兩年磨一劍的后摩漫界M50芯片正式對外亮相。
02大模型計(jì)算權(quán)重下放,90%需求在端邊
說起來,M50并不是后摩智能面向大模型領(lǐng)域推出的第一顆AI芯片。
早在2024年6月,后摩智能就面向大模型領(lǐng)域推出了第一顆基于存算一體計(jì)算架構(gòu)的AI芯片,后摩漫界M30。
這顆芯片首先應(yīng)用到了中國移動的一體機(jī)產(chǎn)品中,并在2024年年初隨著中國移動在MWC2024上正式對外展出,當(dāng)時(shí)基于后摩漫界M30運(yùn)行60B大模型的效果超出了后摩智能團(tuán)隊(duì)的預(yù)期,這進(jìn)一步堅(jiān)定了后摩智能做大模型AI芯片的決心。
與此同時(shí),中國移動旗下的北京中移數(shù)字新經(jīng)濟(jì)產(chǎn)業(yè)基金和上海中移數(shù)字轉(zhuǎn)型產(chǎn)業(yè)基金后來也成了后摩智能的投資方。
錨定大模型AI芯片后,基于對大模型的深入研究,吳強(qiáng)又有了兩個(gè)判斷:
第一,大模型的重心將逐漸從訓(xùn)練向推理側(cè)遷移,未來大模型推理對AI芯片會有更多需求;
第二,大模型將從云端智能向端邊智能遷移,在未來端邊云混合智能體系中,90%的數(shù)據(jù)處理需求將會來自端和邊。
基于這兩大趨勢判斷,后摩智能將下一代芯片,也就是這次發(fā)布的后摩漫界M50定位到了端邊大模型應(yīng)用場景。
后摩漫界M50采用存算一體計(jì)算架構(gòu),芯片大小只有20×23mm,典型功耗進(jìn)一步控制到了10W,單芯片算力最高可達(dá)160TOPS,配備最大48GB內(nèi)存和153.6GB/s帶寬,目前已經(jīng)實(shí)現(xiàn)了7B/8B大模型25+Tokens/s的推理速度。
不過,后摩漫界M50不僅僅能夠支持7B/8B大模型,據(jù)吳強(qiáng)在媒體溝通會上透露,這款芯片已經(jīng)完成了對70B參數(shù)的deepseek的適配,最大可以支持100B參數(shù)大模型。
這樣的后摩漫界M50,是后摩智能過去兩年的研發(fā)成果,而之所以這顆芯片能實(shí)現(xiàn)如此高的能效,是因?yàn)楹竽χ悄茉诖嫠阋惑w化計(jì)算架構(gòu)上的技術(shù)突破,這又包括存算IP和IPU架構(gòu)兩個(gè)方面。
在存算IP上,后摩智能演進(jìn)到了第二代,在權(quán)重加載電路、加法樹架構(gòu)、加法樹物理實(shí)現(xiàn)、控制電路以及時(shí)序電路優(yōu)、SRAM電路上都進(jìn)行了全新的優(yōu)化設(shè)計(jì),在此過程中,后摩智能團(tuán)隊(duì)就可測性、可靠性,以及存算成本、電源穩(wěn)定性、面效比等方面都進(jìn)行了深入研究,并將這些成果集成到了M50芯片上。
在IPU架構(gòu)上,后摩智能同樣向前邁進(jìn)了一代,對于第二代天璇架構(gòu),吳強(qiáng)特別介紹了團(tuán)隊(duì)在以下兩個(gè)方面進(jìn)行的優(yōu)化:
第一,通過自適應(yīng)計(jì)算周期壓縮實(shí)現(xiàn)彈性加速。
在GPU中已經(jīng)得到普遍應(yīng)用的稀疏加速的技術(shù)原理是,如果某個(gè)權(quán)重為0,就可以直接跳過,以此實(shí)現(xiàn)計(jì)算加速,而如果這個(gè)權(quán)重不是0,GPU中的稀疏算力將會很難被利用起來。
相較而言,存算一體AI芯片是基于比特串行的計(jì)算,這就使得針對某個(gè)輸入,不需要所有值都為0,而是只要比特位內(nèi)有0就可以按照比特位進(jìn)行優(yōu)化,進(jìn)行彈性加速。
第二,浮點(diǎn)模型直接運(yùn)行,提升應(yīng)用效率。
基于第二代天璇架構(gòu)M50運(yùn)行的大模型,針對FP16的浮點(diǎn)模型可以直接運(yùn)行,只有特殊場景下才需要做額外的量化工作,由此提升了模型的適配和應(yīng)用效率。
為了更好地發(fā)揮出M50芯片的能力,后摩智能還為這代芯片重構(gòu)了編譯器工具,研發(fā)了支持主流深度學(xué)習(xí)框架、能夠自動搜索最優(yōu)優(yōu)化策略、提供原生浮點(diǎn)算力支持的后摩大道編譯器。
此外,基于后摩漫界M50,后摩智能還同步推出了力系列M.2卡、力謀系列加速卡及計(jì)算盒子等硬件組合,形成了覆蓋移動終端與邊緣場景完整的產(chǎn)品矩陣。
03AI終端潛力,開始加速釋放
2022年11月30日,OpenAI正式對外發(fā)布了ChatGPT,作為大模型時(shí)代第一個(gè)超級應(yīng)用,ChatGPT僅用了2個(gè)月就達(dá)到了1億用戶。
更為瘋狂的是,2024年面世的deepseek,達(dá)到1億用戶量,僅僅用了兩周時(shí)間。
這樣的現(xiàn)象級大模型產(chǎn)品的出現(xiàn),讓吳強(qiáng)意識到,大模型時(shí)代的產(chǎn)品底層邏輯已經(jīng)改變。
互聯(lián)網(wǎng)產(chǎn)品是通過連接產(chǎn)生價(jià)值,只有擁有一定用戶量形成網(wǎng)絡(luò)效應(yīng)才能產(chǎn)生價(jià)值,而大模型產(chǎn)品發(fā)展更快速,可以在很短時(shí)間能成長為超級應(yīng)用,直接創(chuàng)造生產(chǎn)力,產(chǎn)生價(jià)值。
那么,后摩智能當(dāng)下的目標(biāo)商業(yè)市場是在哪里呢?
吳強(qiáng)給出的答案是:消費(fèi)終端、智能辦公、智能工業(yè)、機(jī)器人。
這是吳強(qiáng)為后摩智能商業(yè)化發(fā)展制定的方向,也是后摩漫界M50最先落地方向。
這其中,在發(fā)布會上,吳強(qiáng)也進(jìn)一步透露了,諸如聯(lián)想的下一代AIPC、訊飛聽見的下一代智能語音設(shè)備、中國移動的5G+AI應(yīng)用落地設(shè)備,都將是后摩智能面向端邊大模型布局的后摩智能M50的意向客戶。
值得注意的是,吳強(qiáng)同樣看好如今處于風(fēng)口上的具身智能市場,他告訴我們,“機(jī)器人對功耗更敏感,對AI芯片有更高要求,也是我們的機(jī)會之一?!?/p>
據(jù)悉,后摩智能如今已經(jīng)在與機(jī)器人廠商合作,在具身智能領(lǐng)域進(jìn)行提前布局。
《最佳上門女婿》,竟然1天就火遍全網(wǎng)?放心入坑就對了
獨(dú)家好書《最佳上門女婿》,都讓讓,我拿的才是主角劇本
爽點(diǎn)十足的《最佳上門女婿》,讓人魂?duì)繅艨M的篇章,錯(cuò)過它是你的遺憾!