金磊發(fā)自WAIC量子位|公眾號QbitAI
當他再次高調(diào)出現(xiàn)在大眾面前,已經(jīng)是時隔兩年之久。
他就是后摩智能CEO吳強博士,很多人好奇他和他的團隊在這兩年時間里都在做什么。
而就在今年WAIC期間,吳強終于給出了答案——
發(fā)布潛心兩年的成果:后摩漫界?M50,一款業(yè)界能效比最高的存算一體端邊大模型AI芯片。
△后摩智能CEO吳強發(fā)布后摩漫界?M50
M50擁有160TOPS@INT8的物理算力,100TFLOPS@bFP16的浮點算力,以及高達153.6GB/s的超高帶寬和最大48GB的內(nèi)存。
更令人側(cè)目的是,實現(xiàn)這一切的典型功耗,僅僅10W——相當于一個手機快充的功率。
用吳強的話來說就是:
我們希望讓大模型算力像電力一樣隨處可得、隨取隨用,真正走進每一條產(chǎn)線、每一臺設備、每一個人的指尖。
兩年前,后摩智能帶著第一代存算一體芯片驚艷亮相WAIC。
兩年后,面對大模型時代帶來的全新機遇與挑戰(zhàn),他們依舊穩(wěn)健,選擇繼續(xù)死磕存算一體這條當時看來頗為“冷門”的賽道,并再次拿出了業(yè)界第一的成績。
把存算一體推入了第二代
M50之所以能實現(xiàn)如此驚艷的能效比,其背后實則是后摩智能在存算一體技術上的持續(xù)深耕和迭代突破。
因為它所搭載的,正是后摩智能自研的第二代存算一體技術。
要理解這一的技術,我們首先要明白什么是“存算一體”。
在傳統(tǒng)的計算機架構(gòu)(馮·諾依曼架構(gòu))中,計算單元和存儲單元是分離的。CPU或GPU要計算數(shù)據(jù),需要先從內(nèi)存中把數(shù)據(jù)“搬運”過來,計算完成后再“搬運”回去。
這個“搬運”過程,就像快遞運輸,不僅耗費時間(帶寬限制),還消耗大量能量(功耗),形成了所謂的“功耗墻”和“存儲墻”,成為制約芯片性能提升的最大瓶頸。
而存算一體,顧名思義,就是將計算和存儲融合在一起,讓數(shù)據(jù)在存儲單元內(nèi)部就近完成計算,從根本上解決了數(shù)據(jù)來回搬運的問題。這好比將工廠直接建在了倉庫里,省去了所有的物流環(huán)節(jié),效率自然大大提升。
吳強在創(chuàng)業(yè)之初就敏銳地意識到,要想在英偉達這樣的國際巨頭環(huán)伺下實現(xiàn)“彎道超車”,就必須在架構(gòu)上進行創(chuàng)新。存算一體,便是他認定的那條另辟蹊徑的道路。
M50采用的第二代SRAM-CIM(基于SRAM的存內(nèi)計算)技術,是真正的“存內(nèi)計算”。
吳強解釋道:
很多朋友問存內(nèi)和近存有什么區(qū)別?如果把SRAM的陣列或者結(jié)構(gòu)改變,它就是存內(nèi)。如果不改變,它只是拿標準的SRAM,在旁邊做計算,那就是近存。
后摩智能選擇的是更徹底、更具挑戰(zhàn)性的前者——他們把SRAM的陣列全部打開,進行了深度的結(jié)構(gòu)性改變。
這一代的存算IP實現(xiàn)了“雙端口加載與計算并行”,權(quán)重加載和矩陣計算可以同時進行,效率倍增。
同時,為了解決量產(chǎn)難題,后摩智能團隊自主摸索出了一套針對存算芯片的測試和可靠性保障方案(MBIST和CBIST),趟出了一條業(yè)內(nèi)無人走過的路。
有了高效的存算IP,還需要一個聰明的“大腦”來調(diào)度和使用它。后摩智能為此自研了全新的第二代IPU(AI處理器)架構(gòu)——天璇。
天璇架構(gòu)針對大模型的計算特點,做了大量優(yōu)化,其中最核心的創(chuàng)新之一,就是彈性計算(ElasticComputing),或者叫自適應計算。
這有點類似于GPU的稀疏加速技術。
在GPU中,如果權(quán)重參數(shù)為“0”,計算時就可以跳過,從而實現(xiàn)加速。但這種技術的限制是,權(quán)重必須嚴格為“0”。而在現(xiàn)實應用中,要讓大量權(quán)重都恰好為“0”是非常困難的,因此GPU的稀疏加速效果往往不盡如人意。
而存算一體的特性,給了后摩智能一個絕佳的機會。他們的SRAM存算,是按照一個比特(bit)一個比特進行串行計算的。這意味著,他們可以做到更細粒度的優(yōu)化。
吳強對此解釋道:
我們并不需要它(權(quán)重)整個是0,我只要它在bit里面有0,我就可能做彈性加速,我就可能授予這個0跳過去0的加速。
這個看似微小的區(qū)別,帶來了本質(zhì)的不同。
它讓加速的機會大大增加,也讓量化變得更加靈活,可以實現(xiàn)7bit、6bit甚至5bit的超低精度量化,從而在不犧牲太多精度的情況下,將性能壓榨到極致。根據(jù)后摩的數(shù)據(jù),天璇架構(gòu)最高可提供160%的加速效果。
此外,天璇架構(gòu)還在業(yè)內(nèi)首次實現(xiàn)了在存算架構(gòu)上直接進行浮點運算,并成功量產(chǎn)。這意味著,開發(fā)者可以直接運行開源的FP16浮點模型,無需復雜的量化和精度調(diào)優(yōu),大大降低了應用落地的門檻和開發(fā)周期。
再強大的硬件,也需要軟件來釋放其全部潛能。與M50配套的,是后摩智能新一代編譯器工具鏈——后摩大道?。
這款完全重構(gòu)的編譯器,最大的特點是靈活易用。它支持細顆粒度的算子,能將復雜的算子自動拆分、組合和優(yōu)化。
開發(fā)者不再需要面對幾百個優(yōu)化選項手動“煉丹”,編譯器可以自動搜索最優(yōu)化的策略,大大減輕了適配和部署的負擔。
從底層的存算IP,到上層的IPU架構(gòu),再到頂層的編譯器工具鏈,后摩智能通過全棧自研,將軟硬件深度協(xié)同優(yōu)化,最終打磨出了M50這把刺穿端邊大模型計算“最后一公里”的利刃。
衍生出了更多存算一體產(chǎn)品
這顆業(yè)界能效比最高的芯片還只是故事的開始。
為了讓M50的算力能夠以最便捷的方式觸達不同場景,后摩智能同步推出了一系列硬件產(chǎn)品,構(gòu)建了覆蓋終端與邊緣的完整產(chǎn)品矩陣。
終端側(cè):力擎TM系列M.2卡
在終端側(cè),首先是力擎TMLQ50M.2卡。
這款產(chǎn)品的大小僅如同一塊口香糖,采用標準的M.2接口,可以“即插即用”地為AIPC、AIStick、陪伴機器人等移動終端提供強大的本地AI能力。
單卡即可支持7B/8B模型推理速度超過25tokens/s。吳強特別提到,低功耗帶來的一個巨大優(yōu)勢是可以使用被動散熱,無需風扇,這對于智能語音設備等對噪音敏感的場景至關重要。
其次是力擎TMLQ50DuoM.2卡。
在標準M.2卡的基礎上,它集成了兩顆M50芯片,算力、帶寬、內(nèi)存全部翻倍,達到320TOPS算力,突破了14B/32B大模型在端側(cè)部署的瓶頸。
值得一提的是,這兩顆芯片并非簡單的堆砌,而是通過后摩自研的C-to-C互聯(lián)技術協(xié)同工作,實現(xiàn)1+1>2的效果。
邊緣側(cè):力謀?系列加速卡及計算盒子
在邊緣側(cè),后摩智能同樣發(fā)布了一些利產(chǎn)品。
首先是力謀?LM5050/LM5070加速卡。
面向?qū)w積不那么敏感,但對算力有更高要求的邊緣計算場景,后摩推出了半高半長和全高全長的加速卡,分別集成2顆和4顆M50芯片,最高可提供640TOPS的物理算力。
這樣的算力足以在邊緣端支持70B甚至千億參數(shù)級別的大模型。而功耗,相比友商同等算力產(chǎn)品動輒幾百瓦的“電老虎”,后摩的加速卡僅為幾十瓦,能效優(yōu)勢極為突出。
其次是力謀?BX50智能計算盒。
這是一款All-in-One的解決方案,在一個緊湊的機身內(nèi),集成了強大的M50芯片、豐富的I/O接口,并支持加密安全功能,可適配邊緣場景,支持多達32路視頻分析與本地大模型的同時運行。
從消費終端的AIPC、學習機,到智能辦公的會議系統(tǒng),再到智能工業(yè)的產(chǎn)線質(zhì)檢,后摩智能的產(chǎn)品矩陣,讓離線、安全、低延遲的本地大模型應用成為可能,真正構(gòu)建起一個“低功耗、高安全、好體驗”的端邊智能新生態(tài)。
為什么要死磕存算一體?
首先,這是差異化競爭的必然選擇。
面對英偉達、華為這樣“大而全”的巨頭,初創(chuàng)公司如果跟在后面亦步亦趨,很難有出頭之日。
正如吳強所述:
如果跟國際巨頭競爭,需要一些比較創(chuàng)新的架構(gòu)才有可能另辟蹊徑彎道超車。
存算一體,就是他找到的那個“蹊徑”。
其次,這是技術發(fā)展的必然趨勢。
大模型時代,應用對算力和帶寬的需求是空前的,而傳統(tǒng)架構(gòu)的瓶頸日益凸顯。
吳強和他的團隊發(fā)現(xiàn),大模型應用“既要算力密集,又要帶寬密集”的特點,與存算一體技術“既能提升算力密度,又能提升帶寬”的優(yōu)勢完美契合。
“我們發(fā)現(xiàn)這個之后就很興奮,”吳強說,“我們決定聚焦在端邊大模型AI計算,讓存算和大模型形成共振,釋放更大的勢能?!?/p>
最終,這也是實現(xiàn)普惠AI的必經(jīng)之路。
吳強認為,未來90%的數(shù)據(jù)處理都將在端和邊完成,只有10%的訓練和復雜任務在云端進行。要讓大模型真正走出云端,賦能千行百業(yè),就必須解決端邊設備算力不足、功耗過高的問題。
這份專注與堅持,也為后摩智能贏得了產(chǎn)業(yè)和資本的認可。近年來,公司陸續(xù)獲得了中國移動、北京人工智能基金、亦莊國投等重量級產(chǎn)業(yè)方和國有資本的投資,為持續(xù)的研發(fā)創(chuàng)新提供了堅實的后盾。
從兩年前的嶄露頭角,到如今的厚積薄發(fā),吳強和他的后摩智能,正以一種近乎“執(zhí)拗”的堅持,在存算一體這條道路上篤定前行。
M50的發(fā)布,只是他們交出的階段性答卷。未來,當更強大的AI算力以更低的功耗融入我們身邊的每一個設備時,我們或許會再次想起這位熱愛足球、堅持跑步的技術人,以及他那個“讓智能無處不在”的初心。
TwoMoreThing:
發(fā)布會的最后,吳強還透露了兩個有趣的小細節(jié)。
一是M50的命名,之所以跳過了M40,這也算是創(chuàng)業(yè)公司的生存玄學了,畢竟在芯片行業(yè)——跳過“4”,可能就跳過了“生死劫”。
二是他向大家承諾:“下次不用等2年了,明年還會有新品?!?/p>
據(jù)了解,后摩智能已經(jīng)啟動了下一代DRAM-PIM(基于DRAM的存內(nèi)處理)技術的研發(fā)。
這個技術將突破1TB/s的片內(nèi)帶寬,能效再提升三倍,旨在推動百億參數(shù)大模型在PC、平板等終端設備上的普及。
正在為您播放第09集女頻戀愛《亂世佳人》全集完整版在線免費觀看...
豆瓣9.3,經(jīng)典銀幕情侶光芒閃耀八十載,《亂世佳人》全集下
亂世佳人續(xù)集:刻骨銘心的愛情,都有這3個共同點,愿你也懂