可編程芯片能否拯救“短命”的AI硬件?
盡管如今人工智能的能力在不斷突飛猛進(jìn),但為其提供支持的硬件卻難以跟上步伐。通用CPU能夠“優(yōu)雅地老去”,長期保持兼容性,而人工智能芯片卻往往和它們所運(yùn)行的模型一樣,迅速過時(shí)。這種快速演進(jìn)的算法與固定功能芯片之間的脫節(jié),正逐漸成為一個(gè)嚴(yán)重的瓶頸。
那么,是什么讓人工智能硬件如此缺乏靈活性?像imec這樣的公司是如何解決這個(gè)問題的?可編程芯片能否成為打造更具未來適應(yīng)性的人工智能基礎(chǔ)設(shè)施的關(guān)鍵?
人工智能硬件的挑戰(zhàn)及其固定性本質(zhì)
電子世界從未停滯不前。從真空管到如今尖端的半導(dǎo)體,這是一場永不停歇的進(jìn)步之旅,坦率地說,也是一場輝煌的征程。微控制器已成為現(xiàn)代嵌入式系統(tǒng)的支柱,微處理器是從智能手機(jī)到服務(wù)器等一切設(shè)備的核心,而圖形處理器(GPU)曾經(jīng)只是游戲玩家和3D設(shè)計(jì)師的專屬,如今卻被廣泛應(yīng)用于從圖像處理到深度學(xué)習(xí)的幾乎所有領(lǐng)域。我們在每一代產(chǎn)品中,都能將更強(qiáng)大的性能融入更小、更便宜的設(shè)備中。
但問題在于:這種進(jìn)步有其時(shí)效性,在人工智能領(lǐng)域尤其如此。
為何傳統(tǒng)CPU能“優(yōu)雅老去”,而人工智能硬件卻不能
一款10年前的CPU,以如今的標(biāo)準(zhǔn)來看可能速度較慢,但它本質(zhì)上仍然是一款CPU。它運(yùn)行相同的邏輯,遵循相同的指令集,能兼容任何基于標(biāo)準(zhǔn)架構(gòu)編寫的軟件。你可以通過升級(jí)提升其性能,但它不會(huì)在一夜之間就功能過時(shí)。
然而,人工智能硬件則完全是另一回事。機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)的算法進(jìn)步速度驚人。我們不僅在改進(jìn)舊技術(shù),還每隔幾個(gè)月就會(huì)發(fā)明全新的架構(gòu),從Transformer模型到擴(kuò)散網(wǎng)絡(luò)皆是如此。每一種新架構(gòu)都需要不同的計(jì)算模式、內(nèi)存布局和優(yōu)化策略。
因此,當(dāng)你為人工智能打造專用硬件時(shí)——無論是張量處理單元、人工智能優(yōu)化的GPU,還是某種專有ASIC——實(shí)際上都把自己鎖定在了當(dāng)前的技術(shù)路線上。而在這個(gè)每個(gè)會(huì)議季都會(huì)迎來革新的領(lǐng)域,這種做法風(fēng)險(xiǎn)極高。一個(gè)殘酷的事實(shí)是:你的全新芯片可能在數(shù)據(jù)手冊上的墨跡未干之時(shí),就已經(jīng)過時(shí)了。
固定功能人工智能芯片與可重構(gòu)替代方案的對比
這與現(xiàn)場可編程門陣列(FPGA)等可重構(gòu)硬件形成了鮮明對比。這類芯片真的能實(shí)時(shí)改變自身邏輯。如果出現(xiàn)一種需要不同流水線或架構(gòu)的新人工智能范式,你只需重新編程FPGA就能繼續(xù)使用。這就像是在不觸碰物理硬件的情況下完成了硬件升級(jí)。對于前沿人工智能領(lǐng)域而言,這種靈活性價(jià)值連城。
遺憾的是,大多數(shù)大型人工智能數(shù)據(jù)中心都搭建在一排排GPU之上。這些GPU雖然擅長并行數(shù)學(xué)運(yùn)算,但在適應(yīng)新算法方面卻不夠靈活。隨著人工智能的不斷演進(jìn),那些昂貴的服務(wù)器集群漸漸不再像創(chuàng)新中心,反而更像是技術(shù)博物館的化石。你可能耗費(fèi)大量電力和資金,運(yùn)行的卻是已不符合最佳實(shí)踐的模型。
這種僵化不僅是技術(shù)障礙,更是戰(zhàn)略隱患。它限制了研究范圍——開發(fā)者不得不讓模型去適配硬件能力,而非根據(jù)科學(xué)需求來設(shè)計(jì)模型。這完全本末倒置,就像為了適配道路而設(shè)計(jì)汽車,而非為汽車修建道路。
imec聚焦可編程人工智能芯片,CEO表態(tài)
為解決半導(dǎo)體行業(yè)在人工智能硬件開發(fā)中面臨的挑戰(zhàn),imec正探索可編程人工智能芯片的研發(fā)。imec首席執(zhí)行官LucVandenHove表示,行業(yè)需要轉(zhuǎn)向可重構(gòu)芯片設(shè)計(jì),以避免成為人工智能未來發(fā)展的瓶頸。
VandenHove解釋道,單純提升計(jì)算能力已不再可行?!霸黾痈郍PU、數(shù)據(jù)和訓(xùn)練時(shí)間……不足以應(yīng)對一系列多樣化的工作負(fù)載,”他指出。相反,我們需要轉(zhuǎn)向更動(dòng)態(tài)的計(jì)算架構(gòu),讓硬件能靈活適配同時(shí)運(yùn)行的各種推理、感知和動(dòng)作模型。
為何僅靠可擴(kuò)展計(jì)算無法滿足下一代人工智能需求
在近期的一次采訪中,VandenHove強(qiáng)調(diào)了行業(yè)在人工智能硬件開發(fā)中面臨的挑戰(zhàn)。他指出,人工智能算法的快速進(jìn)步已經(jīng)超越了當(dāng)前以開發(fā)定制化、側(cè)重原始算力的芯片為核心的策略。這導(dǎo)致在能耗、成本和硬件開發(fā)速度方面都出現(xiàn)了顯著問題。
軟件速度與硬件就緒度之間的不匹配,造就了VandenHove所說的“同步問題”。人工智能工作負(fù)載可能在一夜之間發(fā)生變化(例如深度求索的模型創(chuàng)新),而新芯片設(shè)計(jì)卻需要數(shù)年時(shí)間才能完成。這種硬件適應(yīng)滯后的問題,加劇了成本和環(huán)境方面的擔(dān)憂——尤其是在能耗持續(xù)攀升的情況下。
VandenHove還對人工智能硬件行業(yè)的“擱淺資產(chǎn)”風(fēng)險(xiǎn)表示擔(dān)憂。他指出,當(dāng)人工智能硬件準(zhǔn)備就緒時(shí),快速發(fā)展的軟件領(lǐng)域可能已經(jīng)轉(zhuǎn)向了其他方向。對于那些在定制芯片開發(fā)上投入巨資的公司(如OpenAI)而言,這種風(fēng)險(xiǎn)尤其突出。
定制人工智能芯片開發(fā)中的擱淺資產(chǎn)問題
在這個(gè)高速發(fā)展的人工智能領(lǐng)域,擱淺資產(chǎn)的風(fēng)險(xiǎn)尤為嚴(yán)峻。盡管像OpenAI這樣的科技巨頭正通過臺(tái)積電等合作伙伴開發(fā)定制芯片,但VandenHove認(rèn)為,對許多企業(yè)而言,這條道路并不可行——考慮到其成本、風(fēng)險(xiǎn)以及芯片出廠時(shí)可能已過時(shí)的潛在問題。
作為半導(dǎo)體突破的先驅(qū),imec一直走在新技術(shù)開發(fā)的前沿,其技術(shù)被臺(tái)積電、英特爾等芯片制造商廣泛采用。該公司目前正探索能適應(yīng)不斷變化的人工智能算法需求的可重構(gòu)芯片架構(gòu)。根據(jù)VandenHove的設(shè)想,未來的芯片將把所有必要功能整合為名為“超級(jí)單元”(supercells)的模塊化結(jié)構(gòu)。然后,片上網(wǎng)絡(luò)將引導(dǎo)和重構(gòu)這些模塊,以滿足最新算法的需求。
這些超級(jí)單元由垂直堆疊的半導(dǎo)體組成,內(nèi)存和邏輯在物理上緊密相鄰,從而減少延遲和能量損耗。imec表示,這種配置能將數(shù)據(jù)傳輸距離從厘米級(jí)縮短至納米級(jí),最多可節(jié)省80%的能量——在人工智能工作負(fù)載能耗日益高昂的背景下,這一優(yōu)勢極具吸引力。
超級(jí)單元與3D堆疊:imec的高能效人工智能硬件愿景
為實(shí)現(xiàn)這一目標(biāo),imec正致力于真正的三維堆疊技術(shù)——一種將邏輯層和內(nèi)存層硅片鍵合在一起的制造工藝。這家總部位于比利時(shí)的機(jī)構(gòu)為3D堆疊技術(shù)的進(jìn)步和完善做出了關(guān)鍵貢獻(xiàn),該技術(shù)將應(yīng)用于臺(tái)積電的A14和英特爾的18A-PT節(jié)點(diǎn)。
該項(xiàng)目旨在彌合實(shí)驗(yàn)室研究與芯片制造之間的差距,通過培育一個(gè)更敏捷、垂直整合的生態(tài)系統(tǒng),連接人工智能初創(chuàng)企業(yè)、設(shè)計(jì)公司和代工廠。
靈活的人工智能硬件是答案,還是空想?
理論上,為人工智能工作負(fù)載設(shè)計(jì)可重構(gòu)硬件的想法極具吸引力。其承諾的適應(yīng)性、未來兼容性和模型無關(guān)性都切中要害——尤其是在人工智能發(fā)展速度快到讓去年的芯片都顯得陳舊的當(dāng)下。但理論再好,也要經(jīng)得起實(shí)踐檢驗(yàn)。
首先要正視一個(gè)明顯的問題:人工智能工作負(fù)載不同于典型的數(shù)字邏輯。它們依賴大規(guī)模、細(xì)粒度的并行計(jì)算。這也是GPU能在人工智能領(lǐng)域占據(jù)主導(dǎo)地位的原因——其成千上萬的核心和為并行操作優(yōu)化的內(nèi)存結(jié)構(gòu)獨(dú)具優(yōu)勢。相比之下,F(xiàn)PGA雖然在靈活性上堪稱奇跡,但在擴(kuò)展至神經(jīng)網(wǎng)絡(luò)級(jí)計(jì)算時(shí)卻會(huì)遇到瓶頸。
即便你嘗試將多個(gè)FPGA封裝拼接起來以匹配GPU的規(guī)模,也會(huì)面臨嚴(yán)重的延遲問題。數(shù)據(jù)不會(huì)在芯片之間憑空傳輸。封裝內(nèi)帶寬至關(guān)重要,而一旦超出緊密耦合的芯片邊界,延遲就會(huì)急劇增加。這使得實(shí)時(shí)推理或高速訓(xùn)練變得異常困難。
其次是密度和效率問題。FPGA的緊湊性向來不佳。一個(gè)能在定制ASIC中緊湊實(shí)現(xiàn)的功能,在FPGA上可能需要占用多得多的硅片面積。這意味著需要更多電路板空間、產(chǎn)生更多熱量、消耗更多電力——而數(shù)據(jù)中心在這些方面早已捉襟見肘。因此,用可重構(gòu)邏輯構(gòu)建人工智能加速器雖可行,但會(huì)在功耗和功率效率方面付出高昂代價(jià)。
況且,數(shù)據(jù)中心不是博物館,它們的存在是為了實(shí)現(xiàn)最大吞吐量和投資回報(bào)。如果你試圖以未來適應(yīng)性為理由,說服別人用一整機(jī)架的靈活人工智能芯片替換經(jīng)過實(shí)戰(zhàn)檢驗(yàn)的GPU,那必須拿出極具說服力的性能路線圖。否則,任何有頭腦的CTO都不會(huì)同意這種替換——畢竟GPU能適配下一個(gè)模型,而新方案可能只是“或許”能做到。
人工智能芯片設(shè)計(jì)中性能與靈活性的平衡
現(xiàn)實(shí)來看,我們可能會(huì)看到一種混合方案。未來的人工智能芯片或許會(huì)在以固定功能為主的架構(gòu)中,嵌入有限的可重構(gòu)組件。這是一種明智的折中:讓大部分硅片針對當(dāng)前最苛刻的任務(wù)進(jìn)行優(yōu)化,同時(shí)保留部分邏輯以應(yīng)對算法靈活性需求。這種方案雖不像全可編程核心那樣花哨,但更有可能實(shí)現(xiàn)規(guī)模化生產(chǎn)并投入實(shí)際使用。
那么,靈活的人工智能硬件會(huì)成為游戲規(guī)則改變者嗎?在特定場景下可能會(huì)。例如,對于工作負(fù)載不斷演進(jìn)的邊緣設(shè)備,或者用于新架構(gòu)的學(xué)術(shù)研究,它都能發(fā)揮作用。但對于訓(xùn)練數(shù)十億參數(shù)模型或大規(guī)模運(yùn)行實(shí)時(shí)推理的核心領(lǐng)域,可重構(gòu)芯片在短期內(nèi)還無法取代GPU。
歸根結(jié)底,靈活性固然重要,但性能才是硬道理。
*聲明:本文系原作者創(chuàng)作。文章內(nèi)容系其個(gè)人觀點(diǎn),我方轉(zhuǎn)載僅為分享與討論,不代表我方贊成或認(rèn)同,如有異議,請聯(lián)系后臺(tái)。
想要獲取半導(dǎo)體產(chǎn)業(yè)的前沿洞見、技術(shù)速遞、趨勢解析,關(guān)注我們!
娛樂圈沙雕打臉?biāo)男≌f—《頂流竟是沙雕,全網(wǎng)求姐姐滴滴代打》
免責(zé)聲明:本文內(nèi)容由開放的智能模型自動(dòng)生成,僅供參考。