可編程芯片能否拯救“短命”的AI硬件?
盡管如今人工智能的能力在不斷突飛猛進,但為其提供支持的硬件卻難以跟上步伐。通用CPU能夠“優(yōu)雅地老去”,長期保持兼容性,而人工智能芯片卻往往和它們所運行的模型一樣,迅速過時。這種快速演進的算法與固定功能芯片之間的脫節(jié),正逐漸成為一個嚴重的瓶頸。
那么,是什么讓人工智能硬件如此缺乏靈活性?像imec這樣的公司是如何解決這個問題的?可編程芯片能否成為打造更具未來適應性的人工智能基礎設施的關鍵?
人工智能硬件的挑戰(zhàn)及其固定性本質(zhì)
電子世界從未停滯不前。從真空管到如今尖端的半導體,這是一場永不停歇的進步之旅,坦率地說,也是一場輝煌的征程。微控制器已成為現(xiàn)代嵌入式系統(tǒng)的支柱,微處理器是從智能手機到服務器等一切設備的核心,而圖形處理器(GPU)曾經(jīng)只是游戲玩家和3D設計師的專屬,如今卻被廣泛應用于從圖像處理到深度學習的幾乎所有領域。我們在每一代產(chǎn)品中,都能將更強大的性能融入更小、更便宜的設備中。
但問題在于:這種進步有其時效性,在人工智能領域尤其如此。
為何傳統(tǒng)CPU能“優(yōu)雅老去”,而人工智能硬件卻不能
一款10年前的CPU,以如今的標準來看可能速度較慢,但它本質(zhì)上仍然是一款CPU。它運行相同的邏輯,遵循相同的指令集,能兼容任何基于標準架構(gòu)編寫的軟件。你可以通過升級提升其性能,但它不會在一夜之間就功能過時。
然而,人工智能硬件則完全是另一回事。機器學習和神經(jīng)網(wǎng)絡的算法進步速度驚人。我們不僅在改進舊技術(shù),還每隔幾個月就會發(fā)明全新的架構(gòu),從Transformer模型到擴散網(wǎng)絡皆是如此。每一種新架構(gòu)都需要不同的計算模式、內(nèi)存布局和優(yōu)化策略。
因此,當你為人工智能打造專用硬件時——無論是張量處理單元、人工智能優(yōu)化的GPU,還是某種專有ASIC——實際上都把自己鎖定在了當前的技術(shù)路線上。而在這個每個會議季都會迎來革新的領域,這種做法風險極高。一個殘酷的事實是:你的全新芯片可能在數(shù)據(jù)手冊上的墨跡未干之時,就已經(jīng)過時了。
固定功能人工智能芯片與可重構(gòu)替代方案的對比
這與現(xiàn)場可編程門陣列(FPGA)等可重構(gòu)硬件形成了鮮明對比。這類芯片真的能實時改變自身邏輯。如果出現(xiàn)一種需要不同流水線或架構(gòu)的新人工智能范式,你只需重新編程FPGA就能繼續(xù)使用。這就像是在不觸碰物理硬件的情況下完成了硬件升級。對于前沿人工智能領域而言,這種靈活性價值連城。
遺憾的是,大多數(shù)大型人工智能數(shù)據(jù)中心都搭建在一排排GPU之上。這些GPU雖然擅長并行數(shù)學運算,但在適應新算法方面卻不夠靈活。隨著人工智能的不斷演進,那些昂貴的服務器集群漸漸不再像創(chuàng)新中心,反而更像是技術(shù)博物館的化石。你可能耗費大量電力和資金,運行的卻是已不符合最佳實踐的模型。
這種僵化不僅是技術(shù)障礙,更是戰(zhàn)略隱患。它限制了研究范圍——開發(fā)者不得不讓模型去適配硬件能力,而非根據(jù)科學需求來設計模型。這完全本末倒置,就像為了適配道路而設計汽車,而非為汽車修建道路。
imec聚焦可編程人工智能芯片,CEO表態(tài)
為解決半導體行業(yè)在人工智能硬件開發(fā)中面臨的挑戰(zhàn),imec正探索可編程人工智能芯片的研發(fā)。imec首席執(zhí)行官LucVandenHove表示,行業(yè)需要轉(zhuǎn)向可重構(gòu)芯片設計,以避免成為人工智能未來發(fā)展的瓶頸。
VandenHove解釋道,單純提升計算能力已不再可行。“增加更多GPU、數(shù)據(jù)和訓練時間……不足以應對一系列多樣化的工作負載,”他指出。相反,我們需要轉(zhuǎn)向更動態(tài)的計算架構(gòu),讓硬件能靈活適配同時運行的各種推理、感知和動作模型。
為何僅靠可擴展計算無法滿足下一代人工智能需求
在近期的一次采訪中,VandenHove強調(diào)了行業(yè)在人工智能硬件開發(fā)中面臨的挑戰(zhàn)。他指出,人工智能算法的快速進步已經(jīng)超越了當前以開發(fā)定制化、側(cè)重原始算力的芯片為核心的策略。這導致在能耗、成本和硬件開發(fā)速度方面都出現(xiàn)了顯著問題。
軟件速度與硬件就緒度之間的不匹配,造就了VandenHove所說的“同步問題”。人工智能工作負載可能在一夜之間發(fā)生變化(例如深度求索的模型創(chuàng)新),而新芯片設計卻需要數(shù)年時間才能完成。這種硬件適應滯后的問題,加劇了成本和環(huán)境方面的擔憂——尤其是在能耗持續(xù)攀升的情況下。
VandenHove還對人工智能硬件行業(yè)的“擱淺資產(chǎn)”風險表示擔憂。他指出,當人工智能硬件準備就緒時,快速發(fā)展的軟件領域可能已經(jīng)轉(zhuǎn)向了其他方向。對于那些在定制芯片開發(fā)上投入巨資的公司(如OpenAI)而言,這種風險尤其突出。
定制人工智能芯片開發(fā)中的擱淺資產(chǎn)問題
在這個高速發(fā)展的人工智能領域,擱淺資產(chǎn)的風險尤為嚴峻。盡管像OpenAI這樣的科技巨頭正通過臺積電等合作伙伴開發(fā)定制芯片,但VandenHove認為,對許多企業(yè)而言,這條道路并不可行——考慮到其成本、風險以及芯片出廠時可能已過時的潛在問題。
作為半導體突破的先驅(qū),imec一直走在新技術(shù)開發(fā)的前沿,其技術(shù)被臺積電、英特爾等芯片制造商廣泛采用。該公司目前正探索能適應不斷變化的人工智能算法需求的可重構(gòu)芯片架構(gòu)。根據(jù)VandenHove的設想,未來的芯片將把所有必要功能整合為名為“超級單元”(supercells)的模塊化結(jié)構(gòu)。然后,片上網(wǎng)絡將引導和重構(gòu)這些模塊,以滿足最新算法的需求。
這些超級單元由垂直堆疊的半導體組成,內(nèi)存和邏輯在物理上緊密相鄰,從而減少延遲和能量損耗。imec表示,這種配置能將數(shù)據(jù)傳輸距離從厘米級縮短至納米級,最多可節(jié)省80%的能量——在人工智能工作負載能耗日益高昂的背景下,這一優(yōu)勢極具吸引力。
超級單元與3D堆疊:imec的高能效人工智能硬件愿景
為實現(xiàn)這一目標,imec正致力于真正的三維堆疊技術(shù)——一種將邏輯層和內(nèi)存層硅片鍵合在一起的制造工藝。這家總部位于比利時的機構(gòu)為3D堆疊技術(shù)的進步和完善做出了關鍵貢獻,該技術(shù)將應用于臺積電的A14和英特爾的18A-PT節(jié)點。
該項目旨在彌合實驗室研究與芯片制造之間的差距,通過培育一個更敏捷、垂直整合的生態(tài)系統(tǒng),連接人工智能初創(chuàng)企業(yè)、設計公司和代工廠。
靈活的人工智能硬件是答案,還是空想?
理論上,為人工智能工作負載設計可重構(gòu)硬件的想法極具吸引力。其承諾的適應性、未來兼容性和模型無關性都切中要害——尤其是在人工智能發(fā)展速度快到讓去年的芯片都顯得陳舊的當下。但理論再好,也要經(jīng)得起實踐檢驗。
首先要正視一個明顯的問題:人工智能工作負載不同于典型的數(shù)字邏輯。它們依賴大規(guī)模、細粒度的并行計算。這也是GPU能在人工智能領域占據(jù)主導地位的原因——其成千上萬的核心和為并行操作優(yōu)化的內(nèi)存結(jié)構(gòu)獨具優(yōu)勢。相比之下,F(xiàn)PGA雖然在靈活性上堪稱奇跡,但在擴展至神經(jīng)網(wǎng)絡級計算時卻會遇到瓶頸。
即便你嘗試將多個FPGA封裝拼接起來以匹配GPU的規(guī)模,也會面臨嚴重的延遲問題。數(shù)據(jù)不會在芯片之間憑空傳輸。封裝內(nèi)帶寬至關重要,而一旦超出緊密耦合的芯片邊界,延遲就會急劇增加。這使得實時推理或高速訓練變得異常困難。
其次是密度和效率問題。FPGA的緊湊性向來不佳。一個能在定制ASIC中緊湊實現(xiàn)的功能,在FPGA上可能需要占用多得多的硅片面積。這意味著需要更多電路板空間、產(chǎn)生更多熱量、消耗更多電力——而數(shù)據(jù)中心在這些方面早已捉襟見肘。因此,用可重構(gòu)邏輯構(gòu)建人工智能加速器雖可行,但會在功耗和功率效率方面付出高昂代價。
況且,數(shù)據(jù)中心不是博物館,它們的存在是為了實現(xiàn)最大吞吐量和投資回報。如果你試圖以未來適應性為理由,說服別人用一整機架的靈活人工智能芯片替換經(jīng)過實戰(zhàn)檢驗的GPU,那必須拿出極具說服力的性能路線圖。否則,任何有頭腦的CTO都不會同意這種替換——畢竟GPU能適配下一個模型,而新方案可能只是“或許”能做到。
人工智能芯片設計中性能與靈活性的平衡
現(xiàn)實來看,我們可能會看到一種混合方案。未來的人工智能芯片或許會在以固定功能為主的架構(gòu)中,嵌入有限的可重構(gòu)組件。這是一種明智的折中:讓大部分硅片針對當前最苛刻的任務進行優(yōu)化,同時保留部分邏輯以應對算法靈活性需求。這種方案雖不像全可編程核心那樣花哨,但更有可能實現(xiàn)規(guī)?;a(chǎn)并投入實際使用。
那么,靈活的人工智能硬件會成為游戲規(guī)則改變者嗎?在特定場景下可能會。例如,對于工作負載不斷演進的邊緣設備,或者用于新架構(gòu)的學術(shù)研究,它都能發(fā)揮作用。但對于訓練數(shù)十億參數(shù)模型或大規(guī)模運行實時推理的核心領域,可重構(gòu)芯片在短期內(nèi)還無法取代GPU。
歸根結(jié)底,靈活性固然重要,但性能才是硬道理。
*聲明:本文系原作者創(chuàng)作。文章內(nèi)容系其個人觀點,我方轉(zhuǎn)載僅為分享與討論,不代表我方贊成或認同,如有異議,請聯(lián)系后臺。
想要獲取半導體產(chǎn)業(yè)的前沿洞見、技術(shù)速遞、趨勢解析,關注我們!
延伸閱讀:與 AI硬件卡殼 【出路】:在!!哪 的相關文章