矯惜玉
金磊發(fā)自WAIC量子位|公眾號(hào)QbitAI
當(dāng)他再次高調(diào)出現(xiàn)在大眾面前,已經(jīng)是時(shí)隔兩年之久。
他就是后摩智能CEO吳強(qiáng)博士,很多人好奇他和他的團(tuán)隊(duì)在這兩年時(shí)間里都在做什么。
而就在今年WAIC期間,吳強(qiáng)終于給出了答案——
發(fā)布潛心兩年的成果:后摩漫界?M50,一款業(yè)界能效比最高的存算一體端邊大模型AI芯片。
△后摩智能CEO吳強(qiáng)發(fā)布后摩漫界?M50
M50擁有160TOPS@INT8的物理算力,100TFLOPS@bFP16的浮點(diǎn)算力,以及高達(dá)153.6GB/s的超高帶寬和最大48GB的內(nèi)存。
更令人側(cè)目的是,實(shí)現(xiàn)這一切的典型功耗,僅僅10W——相當(dāng)于一個(gè)手機(jī)快充的功率。
用吳強(qiáng)的話來(lái)說(shuō)就是:
我們希望讓大模型算力像電力一樣隨處可得、隨取隨用,真正走進(jìn)每一條產(chǎn)線、每一臺(tái)設(shè)備、每一個(gè)人的指尖。
兩年前,后摩智能帶著第一代存算一體芯片驚艷亮相WAIC。
兩年后,面對(duì)大模型時(shí)代帶來(lái)的全新機(jī)遇與挑戰(zhàn),他們依舊穩(wěn)健,選擇繼續(xù)死磕存算一體這條當(dāng)時(shí)看來(lái)頗為“冷門(mén)”的賽道,并再次拿出了業(yè)界第一的成績(jī)。
把存算一體推入了第二代
M50之所以能實(shí)現(xiàn)如此驚艷的能效比,其背后實(shí)則是后摩智能在存算一體技術(shù)上的持續(xù)深耕和迭代突破。
因?yàn)樗钶d的,正是后摩智能自研的第二代存算一體技術(shù)。
要理解這一的技術(shù),我們首先要明白什么是“存算一體”。
在傳統(tǒng)的計(jì)算機(jī)架構(gòu)(馮·諾依曼架構(gòu))中,計(jì)算單元和存儲(chǔ)單元是分離的。CPU或GPU要計(jì)算數(shù)據(jù),需要先從內(nèi)存中把數(shù)據(jù)“搬運(yùn)”過(guò)來(lái),計(jì)算完成后再“搬運(yùn)”回去。
這個(gè)“搬運(yùn)”過(guò)程,就像快遞運(yùn)輸,不僅耗費(fèi)時(shí)間(帶寬限制),還消耗大量能量(功耗),形成了所謂的“功耗墻”和“存儲(chǔ)墻”,成為制約芯片性能提升的最大瓶頸。
而存算一體,顧名思義,就是將計(jì)算和存儲(chǔ)融合在一起,讓數(shù)據(jù)在存儲(chǔ)單元內(nèi)部就近完成計(jì)算,從根本上解決了數(shù)據(jù)來(lái)回搬運(yùn)的問(wèn)題。這好比將工廠直接建在了倉(cāng)庫(kù)里,省去了所有的物流環(huán)節(jié),效率自然大大提升。
吳強(qiáng)在創(chuàng)業(yè)之初就敏銳地意識(shí)到,要想在英偉達(dá)這樣的國(guó)際巨頭環(huán)伺下實(shí)現(xiàn)“彎道超車(chē)”,就必須在架構(gòu)上進(jìn)行創(chuàng)新。存算一體,便是他認(rèn)定的那條另辟蹊徑的道路。
M50采用的第二代SRAM-CIM(基于SRAM的存內(nèi)計(jì)算)技術(shù),是真正的“存內(nèi)計(jì)算”。
吳強(qiáng)解釋道:
很多朋友問(wèn)存內(nèi)和近存有什么區(qū)別?如果把SRAM的陣列或者結(jié)構(gòu)改變,它就是存內(nèi)。如果不改變,它只是拿標(biāo)準(zhǔn)的SRAM,在旁邊做計(jì)算,那就是近存。
后摩智能選擇的是更徹底、更具挑戰(zhàn)性的前者——他們把SRAM的陣列全部打開(kāi),進(jìn)行了深度的結(jié)構(gòu)性改變。
這一代的存算IP實(shí)現(xiàn)了“雙端口加載與計(jì)算并行”,權(quán)重加載和矩陣計(jì)算可以同時(shí)進(jìn)行,效率倍增。
同時(shí),為了解決量產(chǎn)難題,后摩智能團(tuán)隊(duì)自主摸索出了一套針對(duì)存算芯片的測(cè)試和可靠性保障方案(MBIST和CBIST),趟出了一條業(yè)內(nèi)無(wú)人走過(guò)的路。
有了高效的存算IP,還需要一個(gè)聰明的“大腦”來(lái)調(diào)度和使用它。后摩智能為此自研了全新的第二代IPU(AI處理器)架構(gòu)——天璇。
天璇架構(gòu)針對(duì)大模型的計(jì)算特點(diǎn),做了大量?jī)?yōu)化,其中最核心的創(chuàng)新之一,就是彈性計(jì)算(ElasticComputing),或者叫自適應(yīng)計(jì)算。
這有點(diǎn)類(lèi)似于GPU的稀疏加速技術(shù)。
在GPU中,如果權(quán)重參數(shù)為“0”,計(jì)算時(shí)就可以跳過(guò),從而實(shí)現(xiàn)加速。但這種技術(shù)的限制是,權(quán)重必須嚴(yán)格為“0”。而在現(xiàn)實(shí)應(yīng)用中,要讓大量權(quán)重都恰好為“0”是非常困難的,因此GPU的稀疏加速效果往往不盡如人意。
而存算一體的特性,給了后摩智能一個(gè)絕佳的機(jī)會(huì)。他們的SRAM存算,是按照一個(gè)比特(bit)一個(gè)比特進(jìn)行串行計(jì)算的。這意味著,他們可以做到更細(xì)粒度的優(yōu)化。
吳強(qiáng)對(duì)此解釋道:
我們并不需要它(權(quán)重)整個(gè)是0,我只要它在bit里面有0,我就可能做彈性加速,我就可能授予這個(gè)0跳過(guò)去0的加速。
這個(gè)看似微小的區(qū)別,帶來(lái)了本質(zhì)的不同。
它讓加速的機(jī)會(huì)大大增加,也讓量化變得更加靈活,可以實(shí)現(xiàn)7bit、6bit甚至5bit的超低精度量化,從而在不犧牲太多精度的情況下,將性能壓榨到極致。根據(jù)后摩的數(shù)據(jù),天璇架構(gòu)最高可提供160%的加速效果。
此外,天璇架構(gòu)還在業(yè)內(nèi)首次實(shí)現(xiàn)了在存算架構(gòu)上直接進(jìn)行浮點(diǎn)運(yùn)算,并成功量產(chǎn)。這意味著,開(kāi)發(fā)者可以直接運(yùn)行開(kāi)源的FP16浮點(diǎn)模型,無(wú)需復(fù)雜的量化和精度調(diào)優(yōu),大大降低了應(yīng)用落地的門(mén)檻和開(kāi)發(fā)周期。
再?gòu)?qiáng)大的硬件,也需要軟件來(lái)釋放其全部潛能。與M50配套的,是后摩智能新一代編譯器工具鏈——后摩大道?。
這款完全重構(gòu)的編譯器,最大的特點(diǎn)是靈活易用。它支持細(xì)顆粒度的算子,能將復(fù)雜的算子自動(dòng)拆分、組合和優(yōu)化。
開(kāi)發(fā)者不再需要面對(duì)幾百個(gè)優(yōu)化選項(xiàng)手動(dòng)“煉丹”,編譯器可以自動(dòng)搜索最優(yōu)化的策略,大大減輕了適配和部署的負(fù)擔(dān)。
從底層的存算IP,到上層的IPU架構(gòu),再到頂層的編譯器工具鏈,后摩智能通過(guò)全棧自研,將軟硬件深度協(xié)同優(yōu)化,最終打磨出了M50這把刺穿端邊大模型計(jì)算“最后一公里”的利刃。
衍生出了更多存算一體產(chǎn)品
這顆業(yè)界能效比最高的芯片還只是故事的開(kāi)始。
為了讓M50的算力能夠以最便捷的方式觸達(dá)不同場(chǎng)景,后摩智能同步推出了一系列硬件產(chǎn)品,構(gòu)建了覆蓋終端與邊緣的完整產(chǎn)品矩陣。
終端側(cè):力擎TM系列M.2卡
在終端側(cè),首先是力擎TMLQ50M.2卡。
這款產(chǎn)品的大小僅如同一塊口香糖,采用標(biāo)準(zhǔn)的M.2接口,可以“即插即用”地為AIPC、AIStick、陪伴機(jī)器人等移動(dòng)終端提供強(qiáng)大的本地AI能力。
單卡即可支持7B/8B模型推理速度超過(guò)25tokens/s。吳強(qiáng)特別提到,低功耗帶來(lái)的一個(gè)巨大優(yōu)勢(shì)是可以使用被動(dòng)散熱,無(wú)需風(fēng)扇,這對(duì)于智能語(yǔ)音設(shè)備等對(duì)噪音敏感的場(chǎng)景至關(guān)重要。
其次是力擎TMLQ50DuoM.2卡。
在標(biāo)準(zhǔn)M.2卡的基礎(chǔ)上,它集成了兩顆M50芯片,算力、帶寬、內(nèi)存全部翻倍,達(dá)到320TOPS算力,突破了14B/32B大模型在端側(cè)部署的瓶頸。
值得一提的是,這兩顆芯片并非簡(jiǎn)單的堆砌,而是通過(guò)后摩自研的C-to-C互聯(lián)技術(shù)協(xié)同工作,實(shí)現(xiàn)1+1>2的效果。
邊緣側(cè):力謀?系列加速卡及計(jì)算盒子
在邊緣側(cè),后摩智能同樣發(fā)布了一些利產(chǎn)品。
首先是力謀?LM5050/LM5070加速卡。
面向?qū)w積不那么敏感,但對(duì)算力有更高要求的邊緣計(jì)算場(chǎng)景,后摩推出了半高半長(zhǎng)和全高全長(zhǎng)的加速卡,分別集成2顆和4顆M50芯片,最高可提供640TOPS的物理算力。
這樣的算力足以在邊緣端支持70B甚至千億參數(shù)級(jí)別的大模型。而功耗,相比友商同等算力產(chǎn)品動(dòng)輒幾百瓦的“電老虎”,后摩的加速卡僅為幾十瓦,能效優(yōu)勢(shì)極為突出。
其次是力謀?BX50智能計(jì)算盒。
這是一款A(yù)ll-in-One的解決方案,在一個(gè)緊湊的機(jī)身內(nèi),集成了強(qiáng)大的M50芯片、豐富的I/O接口,并支持加密安全功能,可適配邊緣場(chǎng)景,支持多達(dá)32路視頻分析與本地大模型的同時(shí)運(yùn)行。
從消費(fèi)終端的AIPC、學(xué)習(xí)機(jī),到智能辦公的會(huì)議系統(tǒng),再到智能工業(yè)的產(chǎn)線質(zhì)檢,后摩智能的產(chǎn)品矩陣,讓離線、安全、低延遲的本地大模型應(yīng)用成為可能,真正構(gòu)建起一個(gè)“低功耗、高安全、好體驗(yàn)”的端邊智能新生態(tài)。
為什么要死磕存算一體?
首先,這是差異化競(jìng)爭(zhēng)的必然選擇。
面對(duì)英偉達(dá)、華為這樣“大而全”的巨頭,初創(chuàng)公司如果跟在后面亦步亦趨,很難有出頭之日。
正如吳強(qiáng)所述:
如果跟國(guó)際巨頭競(jìng)爭(zhēng),需要一些比較創(chuàng)新的架構(gòu)才有可能另辟蹊徑彎道超車(chē)。
存算一體,就是他找到的那個(gè)“蹊徑”。
其次,這是技術(shù)發(fā)展的必然趨勢(shì)。
大模型時(shí)代,應(yīng)用對(duì)算力和帶寬的需求是空前的,而傳統(tǒng)架構(gòu)的瓶頸日益凸顯。
吳強(qiáng)和他的團(tuán)隊(duì)發(fā)現(xiàn),大模型應(yīng)用“既要算力密集,又要帶寬密集”的特點(diǎn),與存算一體技術(shù)“既能提升算力密度,又能提升帶寬”的優(yōu)勢(shì)完美契合。
“我們發(fā)現(xiàn)這個(gè)之后就很興奮,”吳強(qiáng)說(shuō),“我們決定聚焦在端邊大模型AI計(jì)算,讓存算和大模型形成共振,釋放更大的勢(shì)能?!?/p>
最終,這也是實(shí)現(xiàn)普惠AI的必經(jīng)之路。
吳強(qiáng)認(rèn)為,未來(lái)90%的數(shù)據(jù)處理都將在端和邊完成,只有10%的訓(xùn)練和復(fù)雜任務(wù)在云端進(jìn)行。要讓大模型真正走出云端,賦能千行百業(yè),就必須解決端邊設(shè)備算力不足、功耗過(guò)高的問(wèn)題。
這份專注與堅(jiān)持,也為后摩智能贏得了產(chǎn)業(yè)和資本的認(rèn)可。近年來(lái),公司陸續(xù)獲得了中國(guó)移動(dòng)、北京人工智能基金、亦莊國(guó)投等重量級(jí)產(chǎn)業(yè)方和國(guó)有資本的投資,為持續(xù)的研發(fā)創(chuàng)新提供了堅(jiān)實(shí)的后盾。
從兩年前的嶄露頭角,到如今的厚積薄發(fā),吳強(qiáng)和他的后摩智能,正以一種近乎“執(zhí)拗”的堅(jiān)持,在存算一體這條道路上篤定前行。
M50的發(fā)布,只是他們交出的階段性答卷。未來(lái),當(dāng)更強(qiáng)大的AI算力以更低的功耗融入我們身邊的每一個(gè)設(shè)備時(shí),我們或許會(huì)再次想起這位熱愛(ài)足球、堅(jiān)持跑步的技術(shù)人,以及他那個(gè)“讓智能無(wú)處不在”的初心。
TwoMoreThing:
發(fā)布會(huì)的最后,吳強(qiáng)還透露了兩個(gè)有趣的小細(xì)節(jié)。
一是M50的命名,之所以跳過(guò)了M40,這也算是創(chuàng)業(yè)公司的生存玄學(xué)了,畢竟在芯片行業(yè)——跳過(guò)“4”,可能就跳過(guò)了“生死劫”。
二是他向大家承諾:“下次不用等2年了,明年還會(huì)有新品?!?/p>
據(jù)了解,后摩智能已經(jīng)啟動(dòng)了下一代DRAM-PIM(基于DRAM的存內(nèi)處理)技術(shù)的研發(fā)。
這個(gè)技術(shù)將突破1TB/s的片內(nèi)帶寬,能效再提升三倍,旨在推動(dòng)百億參數(shù)大模型在PC、平板等終端設(shè)備上的普及。
來(lái)源:紅網(wǎng)
作者:李雨旺
編輯:熊曉絲
本文為紅辣椒評(píng)論 原創(chuàng)文章,僅系作者個(gè)人觀點(diǎn),不代表紅網(wǎng)立場(chǎng)。轉(zhuǎn)載請(qǐng)附原文出處鏈接和本聲明。