可編程芯片能否拯救“短命”的AI硬件?
盡管如今人工智能的能力在不斷突飛猛進(jìn),但為其提供支持的硬件卻難以跟上步伐。通用CPU能夠“優(yōu)雅地老去”,長期保持兼容性,而人工智能芯片卻往往和它們所運行的模型一樣,迅速過時。這種快速演進(jìn)的算法與固定功能芯片之間的脫節(jié),正逐漸成為一個嚴(yán)重的瓶頸。
那么,是什么讓人工智能硬件如此缺乏靈活性?像imec這樣的公司是如何解決這個問題的?可編程芯片能否成為打造更具未來適應(yīng)性的人工智能基礎(chǔ)設(shè)施的關(guān)鍵?
人工智能硬件的挑戰(zhàn)及其固定性本質(zhì)
電子世界從未停滯不前。從真空管到如今尖端的半導(dǎo)體,這是一場永不停歇的進(jìn)步之旅,坦率地說,也是一場輝煌的征程。微控制器已成為現(xiàn)代嵌入式系統(tǒng)的支柱,微處理器是從智能手機(jī)到服務(wù)器等一切設(shè)備的核心,而圖形處理器(GPU)曾經(jīng)只是游戲玩家和3D設(shè)計師的專屬,如今卻被廣泛應(yīng)用于從圖像處理到深度學(xué)習(xí)的幾乎所有領(lǐng)域。我們在每一代產(chǎn)品中,都能將更強(qiáng)大的性能融入更小、更便宜的設(shè)備中。
但問題在于:這種進(jìn)步有其時效性,在人工智能領(lǐng)域尤其如此。
為何傳統(tǒng)CPU能“優(yōu)雅老去”,而人工智能硬件卻不能
一款10年前的CPU,以如今的標(biāo)準(zhǔn)來看可能速度較慢,但它本質(zhì)上仍然是一款CPU。它運行相同的邏輯,遵循相同的指令集,能兼容任何基于標(biāo)準(zhǔn)架構(gòu)編寫的軟件。你可以通過升級提升其性能,但它不會在一夜之間就功能過時。
然而,人工智能硬件則完全是另一回事。機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)的算法進(jìn)步速度驚人。我們不僅在改進(jìn)舊技術(shù),還每隔幾個月就會發(fā)明全新的架構(gòu),從Transformer模型到擴(kuò)散網(wǎng)絡(luò)皆是如此。每一種新架構(gòu)都需要不同的計算模式、內(nèi)存布局和優(yōu)化策略。
因此,當(dāng)你為人工智能打造專用硬件時——無論是張量處理單元、人工智能優(yōu)化的GPU,還是某種專有ASIC——實際上都把自己鎖定在了當(dāng)前的技術(shù)路線上。而在這個每個會議季都會迎來革新的領(lǐng)域,這種做法風(fēng)險極高。一個殘酷的事實是:你的全新芯片可能在數(shù)據(jù)手冊上的墨跡未干之時,就已經(jīng)過時了。
固定功能人工智能芯片與可重構(gòu)替代方案的對比
這與現(xiàn)場可編程門陣列(FPGA)等可重構(gòu)硬件形成了鮮明對比。這類芯片真的能實時改變自身邏輯。如果出現(xiàn)一種需要不同流水線或架構(gòu)的新人工智能范式,你只需重新編程FPGA就能繼續(xù)使用。這就像是在不觸碰物理硬件的情況下完成了硬件升級。對于前沿人工智能領(lǐng)域而言,這種靈活性價值連城。
遺憾的是,大多數(shù)大型人工智能數(shù)據(jù)中心都搭建在一排排GPU之上。這些GPU雖然擅長并行數(shù)學(xué)運算,但在適應(yīng)新算法方面卻不夠靈活。隨著人工智能的不斷演進(jìn),那些昂貴的服務(wù)器集群漸漸不再像創(chuàng)新中心,反而更像是技術(shù)博物館的化石。你可能耗費大量電力和資金,運行的卻是已不符合最佳實踐的模型。
這種僵化不僅是技術(shù)障礙,更是戰(zhàn)略隱患。它限制了研究范圍——開發(fā)者不得不讓模型去適配硬件能力,而非根據(jù)科學(xué)需求來設(shè)計模型。這完全本末倒置,就像為了適配道路而設(shè)計汽車,而非為汽車修建道路。
imec聚焦可編程人工智能芯片,CEO表態(tài)
為解決半導(dǎo)體行業(yè)在人工智能硬件開發(fā)中面臨的挑戰(zhàn),imec正探索可編程人工智能芯片的研發(fā)。imec首席執(zhí)行官LucVandenHove表示,行業(yè)需要轉(zhuǎn)向可重構(gòu)芯片設(shè)計,以避免成為人工智能未來發(fā)展的瓶頸。
VandenHove解釋道,單純提升計算能力已不再可行?!霸黾痈郍PU、數(shù)據(jù)和訓(xùn)練時間……不足以應(yīng)對一系列多樣化的工作負(fù)載,”他指出。相反,我們需要轉(zhuǎn)向更動態(tài)的計算架構(gòu),讓硬件能靈活適配同時運行的各種推理、感知和動作模型。
為何僅靠可擴(kuò)展計算無法滿足下一代人工智能需求
在近期的一次采訪中,VandenHove強(qiáng)調(diào)了行業(yè)在人工智能硬件開發(fā)中面臨的挑戰(zhàn)。他指出,人工智能算法的快速進(jìn)步已經(jīng)超越了當(dāng)前以開發(fā)定制化、側(cè)重原始算力的芯片為核心的策略。這導(dǎo)致在能耗、成本和硬件開發(fā)速度方面都出現(xiàn)了顯著問題。
軟件速度與硬件就緒度之間的不匹配,造就了VandenHove所說的“同步問題”。人工智能工作負(fù)載可能在一夜之間發(fā)生變化(例如深度求索的模型創(chuàng)新),而新芯片設(shè)計卻需要數(shù)年時間才能完成。這種硬件適應(yīng)滯后的問題,加劇了成本和環(huán)境方面的擔(dān)憂——尤其是在能耗持續(xù)攀升的情況下。
VandenHove還對人工智能硬件行業(yè)的“擱淺資產(chǎn)”風(fēng)險表示擔(dān)憂。他指出,當(dāng)人工智能硬件準(zhǔn)備就緒時,快速發(fā)展的軟件領(lǐng)域可能已經(jīng)轉(zhuǎn)向了其他方向。對于那些在定制芯片開發(fā)上投入巨資的公司(如OpenAI)而言,這種風(fēng)險尤其突出。
定制人工智能芯片開發(fā)中的擱淺資產(chǎn)問題
在這個高速發(fā)展的人工智能領(lǐng)域,擱淺資產(chǎn)的風(fēng)險尤為嚴(yán)峻。盡管像OpenAI這樣的科技巨頭正通過臺積電等合作伙伴開發(fā)定制芯片,但VandenHove認(rèn)為,對許多企業(yè)而言,這條道路并不可行——考慮到其成本、風(fēng)險以及芯片出廠時可能已過時的潛在問題。
作為半導(dǎo)體突破的先驅(qū),imec一直走在新技術(shù)開發(fā)的前沿,其技術(shù)被臺積電、英特爾等芯片制造商廣泛采用。該公司目前正探索能適應(yīng)不斷變化的人工智能算法需求的可重構(gòu)芯片架構(gòu)。根據(jù)VandenHove的設(shè)想,未來的芯片將把所有必要功能整合為名為“超級單元”(supercells)的模塊化結(jié)構(gòu)。然后,片上網(wǎng)絡(luò)將引導(dǎo)和重構(gòu)這些模塊,以滿足最新算法的需求。
這些超級單元由垂直堆疊的半導(dǎo)體組成,內(nèi)存和邏輯在物理上緊密相鄰,從而減少延遲和能量損耗。imec表示,這種配置能將數(shù)據(jù)傳輸距離從厘米級縮短至納米級,最多可節(jié)省80%的能量——在人工智能工作負(fù)載能耗日益高昂的背景下,這一優(yōu)勢極具吸引力。
超級單元與3D堆疊:imec的高能效人工智能硬件愿景
為實現(xiàn)這一目標(biāo),imec正致力于真正的三維堆疊技術(shù)——一種將邏輯層和內(nèi)存層硅片鍵合在一起的制造工藝。這家總部位于比利時的機(jī)構(gòu)為3D堆疊技術(shù)的進(jìn)步和完善做出了關(guān)鍵貢獻(xiàn),該技術(shù)將應(yīng)用于臺積電的A14和英特爾的18A-PT節(jié)點。
該項目旨在彌合實驗室研究與芯片制造之間的差距,通過培育一個更敏捷、垂直整合的生態(tài)系統(tǒng),連接人工智能初創(chuàng)企業(yè)、設(shè)計公司和代工廠。
靈活的人工智能硬件是答案,還是空想?
理論上,為人工智能工作負(fù)載設(shè)計可重構(gòu)硬件的想法極具吸引力。其承諾的適應(yīng)性、未來兼容性和模型無關(guān)性都切中要害——尤其是在人工智能發(fā)展速度快到讓去年的芯片都顯得陳舊的當(dāng)下。但理論再好,也要經(jīng)得起實踐檢驗。
首先要正視一個明顯的問題:人工智能工作負(fù)載不同于典型的數(shù)字邏輯。它們依賴大規(guī)模、細(xì)粒度的并行計算。這也是GPU能在人工智能領(lǐng)域占據(jù)主導(dǎo)地位的原因——其成千上萬的核心和為并行操作優(yōu)化的內(nèi)存結(jié)構(gòu)獨具優(yōu)勢。相比之下,F(xiàn)PGA雖然在靈活性上堪稱奇跡,但在擴(kuò)展至神經(jīng)網(wǎng)絡(luò)級計算時卻會遇到瓶頸。
即便你嘗試將多個FPGA封裝拼接起來以匹配GPU的規(guī)模,也會面臨嚴(yán)重的延遲問題。數(shù)據(jù)不會在芯片之間憑空傳輸。封裝內(nèi)帶寬至關(guān)重要,而一旦超出緊密耦合的芯片邊界,延遲就會急劇增加。這使得實時推理或高速訓(xùn)練變得異常困難。
其次是密度和效率問題。FPGA的緊湊性向來不佳。一個能在定制ASIC中緊湊實現(xiàn)的功能,在FPGA上可能需要占用多得多的硅片面積。這意味著需要更多電路板空間、產(chǎn)生更多熱量、消耗更多電力——而數(shù)據(jù)中心在這些方面早已捉襟見肘。因此,用可重構(gòu)邏輯構(gòu)建人工智能加速器雖可行,但會在功耗和功率效率方面付出高昂代價。
況且,數(shù)據(jù)中心不是博物館,它們的存在是為了實現(xiàn)最大吞吐量和投資回報。如果你試圖以未來適應(yīng)性為理由,說服別人用一整機(jī)架的靈活人工智能芯片替換經(jīng)過實戰(zhàn)檢驗的GPU,那必須拿出極具說服力的性能路線圖。否則,任何有頭腦的CTO都不會同意這種替換——畢竟GPU能適配下一個模型,而新方案可能只是“或許”能做到。
人工智能芯片設(shè)計中性能與靈活性的平衡
現(xiàn)實來看,我們可能會看到一種混合方案。未來的人工智能芯片或許會在以固定功能為主的架構(gòu)中,嵌入有限的可重構(gòu)組件。這是一種明智的折中:讓大部分硅片針對當(dāng)前最苛刻的任務(wù)進(jìn)行優(yōu)化,同時保留部分邏輯以應(yīng)對算法靈活性需求。這種方案雖不像全可編程核心那樣花哨,但更有可能實現(xiàn)規(guī)模化生產(chǎn)并投入實際使用。
那么,靈活的人工智能硬件會成為游戲規(guī)則改變者嗎?在特定場景下可能會。例如,對于工作負(fù)載不斷演進(jìn)的邊緣設(shè)備,或者用于新架構(gòu)的學(xué)術(shù)研究,它都能發(fā)揮作用。但對于訓(xùn)練數(shù)十億參數(shù)模型或大規(guī)模運行實時推理的核心領(lǐng)域,可重構(gòu)芯片在短期內(nèi)還無法取代GPU。
歸根結(jié)底,靈活性固然重要,但性能才是硬道理。
*聲明:本文系原作者創(chuàng)作。文章內(nèi)容系其個人觀點,我方轉(zhuǎn)載僅為分享與討論,不代表我方贊成或認(rèn)同,如有異議,請聯(lián)系后臺。
想要獲取半導(dǎo)體產(chǎn)業(yè)的前沿洞見、技術(shù)速遞、趨勢解析,關(guān)注我們!
圍棋棋力測試,段位死活1段篇,全答對穩(wěn)穩(wěn)1D
第一題:黑先做活(小心陷阱哦)答案:第二題:黑先殺白(這題不難啦,第一步很關(guān)鍵)答案:第三題:黑先做活(來咯,堅持住咯)答案:第四題:黑先殺白(破掉關(guān)鍵的那只眼)答案:第五題:黑先殺白(最后一題,加油咯)答案:這幾道開胃菜,對您來說是否可口,我相信很多棋友能夠全部答對,那么,準(zhǔn)備迎接明日的2段測試吧!點贊+關(guān)注,支持一下有幫助請點贊。 答案:題目二:黑先凈活答案:題目三:黑先殺白答案:題目四:黑先殺白答案:題目五:黑先殺白(打劫)答案:1.2.今天的題目是不是有一些難度咯,不要怕,戰(zhàn)勝難題的辦法就是面對難題,奧利給!點贊+關(guān)注,每天學(xué)習(xí)各種圍棋姿勢!您也可以評論區(qū)留言,說出你想看的內(nèi)容和您的疑問,小編會在第一時間給您后面會介紹_-。圍棋趣味死活題:“心”