最近,美國加州大學伯克利分校陳在俊助理教授團隊與合作者基于超多路復用集成光子學,開發(fā)了一種光學張量處理器(HITOP,HypermultiplexedIntegratedTensorOpticalProcessor),運算速度達每秒數(shù)萬億次,吞吐量達0.98TOPS,可應(yīng)對多數(shù)AI應(yīng)用需求。
這一架構(gòu)的核心創(chuàng)新在于其獨特的空間、時間和波長三維光學并行計算策略:通過在時間域和波長域同時復用計算任務(wù),HITOP僅需O(N)個片上電光調(diào)制器即可實現(xiàn)O(N2)級別的計算吞吐量,從而在硬件資源利用效率上實現(xiàn)了質(zhì)的飛躍。與傳統(tǒng)電子計算架構(gòu)相比,HITOP展現(xiàn)出顯著的能效優(yōu)勢,其單位操作能耗可降低超過100倍。
值得注意的是,HITOP通過引入時間積分器這一創(chuàng)新設(shè)計,巧妙地規(guī)避了傳統(tǒng)光學計算系統(tǒng)對高速高精度模數(shù)轉(zhuǎn)換器(ADC,analog-to-digitalconverters)的依賴。這一設(shè)計不僅大幅簡化了輸出電路結(jié)構(gòu),還顯著降低了系統(tǒng)整體能耗,解決了長期制約光學計算系統(tǒng)性能的關(guān)鍵瓶頸問題。
圖丨陳在俊團隊(來源:陳在?。?/p>
從實現(xiàn)的性能方面來看,該系統(tǒng)在10GS/s的高數(shù)據(jù)速率下仍能保持5-6位的計算精度(計算誤差約2.9%),可滿足圖像識別等多數(shù)AI任務(wù)對大規(guī)模矩陣運算的需求。實測數(shù)據(jù)顯示,HITOP在處理大規(guī)模矩陣運算時的單位操作能耗僅為18飛焦耳,這一數(shù)值比當前先進的電子計算系統(tǒng)(如NVIDIAH100GPU)低一個數(shù)量級以上。
此外,HITOP的芯片面積效率達到17.5GOPS/mm2,意味著在相同芯片面積下可完成更多計算任務(wù),顯著提升了硬件資源利用率。這項研究不僅解決了光學計算系統(tǒng)的可擴展性問題,更為AI和高性能計算領(lǐng)域提供了一種極具潛力的全新硬件實現(xiàn)方案。
日前,相關(guān)論文以《基于光子學的超多路復用集成光學張量處理器》(Hypermultiplexedintegratedphotonics–basedopticaltensorprocessor)為題發(fā)表在ScienceAdvances[1]。美國南加州大學碩士畢業(yè)生歐紹元、加州大學伯克利分校博士生薛凱文是主要作者,陳在俊擔任通訊作者。
圖丨相關(guān)論文(來源:ScienceAdvances)
多維信號處理機制:將乘法運算從“矩陣與向量”升級為“矩陣與矩陣”
傳統(tǒng)電子計算硬件(如GPU、TPU)在處理大規(guī)模AI模型時,正面臨能耗高、計算效率低的突出瓶頸。這一問題的根源在于電子架構(gòu)的物理限制:電信號在銅線中傳輸時會因電阻產(chǎn)生顯著損耗,同時電子器件的時鐘頻率提升空間有限,導致數(shù)據(jù)吞吐量受限。
若以交通系統(tǒng)作類比,傳統(tǒng)電子架構(gòu)就像平面交叉的單車道道路,數(shù)據(jù)信號如同密集的車流,極易因帶寬不足而引發(fā)“擁堵”。相比之下,光子計算則展現(xiàn)出顯著優(yōu)勢——其利用光波導傳輸信號,不僅避免了電阻損耗,還能通過多波長復用實現(xiàn)并行光路,如同立體交通樞紐中的多層立交橋,可同時容納更多“車輛”高速通行。
光學模擬計算的研究淵源可追溯至20世紀中葉,當時已有科學家提出利用空間光路構(gòu)建傅里葉變換計算器的方案。然而,受限于早期光學器件的集成度與調(diào)控精度,該技術(shù)長期未能實現(xiàn)規(guī)?;瘧?yīng)用。直至近年,隨著集成光子學技術(shù)的突破性進展,與此同時,摩爾定律在電子器件領(lǐng)域逐漸逼近物理極限,光子計算才因其低能耗、高吞吐的特性重獲學界與產(chǎn)業(yè)界的廣泛關(guān)注。
近年來,眾多高校和研究機構(gòu)陸續(xù)提出了多種光學計算架構(gòu),并在機器學習、圖形處理等領(lǐng)域展示了其大規(guī)模部署的可行性。然而,隨著系統(tǒng)中光學調(diào)制器數(shù)量的急劇增加,微納加工技術(shù)面臨巨大挑戰(zhàn),同時光學損耗也限制了波導路徑的可擴展性。
更深層次的矛盾存在于系統(tǒng)級優(yōu)化層面。雖然電光調(diào)制器已能實現(xiàn)皮秒級響應(yīng)速度,但后端ADC的性能卻成為整體算力的短板。現(xiàn)有技術(shù)中,維持高采樣率與高量化精度的ADC往往需消耗數(shù)十皮焦每轉(zhuǎn)換步的能耗,這與光計算單元飛焦級每操作的能耗形成巨大落差,導致系統(tǒng)能效優(yōu)勢被部分抵消。
此外,當前多數(shù)光計算架構(gòu)仍模仿電子計算的“存內(nèi)計算”范式,卻忽略了二者在物理尺度上的本質(zhì)差異:光學器件因受限于衍射極限,功能單元尺寸通常在百微米至毫米量級,而現(xiàn)代電子晶體管已縮至納米尺度。這種數(shù)量級的尺寸差異使得光學系統(tǒng)在集成密度上難以與電子芯片抗衡,也暴露出光子計算在有效縮放路線上的核心挑戰(zhàn)。
圖丨HITOP概念示意圖(來源:ScienceAdvances)
針對上述瓶頸,研究團隊提出了全新的光計算芯片架構(gòu),其核心創(chuàng)新體現(xiàn)在系統(tǒng)架構(gòu)設(shè)計層面。他們提出了“時間維度承載計算”的新范式:首先將數(shù)據(jù)編碼在時間序列上,再以時間維度作為橋梁,與波長維度和空間維度實現(xiàn)協(xié)同計算。通過多維度協(xié)同計算策略,為光學模擬計算提供了一種新的解決思路。
其突破在于:傳統(tǒng)光學計算實現(xiàn)1000×1000矩陣運算需要100萬個調(diào)制器(O(N2)規(guī)模),而HITOP架構(gòu)僅需1000-2000個調(diào)制器(O(N)規(guī)模),這相當于將硬件復雜度降低了三個數(shù)量級。
這種多維信號處理機制使得系統(tǒng)能夠直接完成矩陣與矩陣的乘法運算,而傳統(tǒng)電子芯片通常僅能實現(xiàn)矩陣與向量的乘法運算。陳在俊對DeepTech表示:“這種突破性的計算能力源于光信號在時間、波長和空間三個維度的并行處理特性,這是電子計算架構(gòu)難以實現(xiàn)的獨特優(yōu)勢。”
圖丨HITOP芯片架構(gòu)(來源:ScienceAdvances)
在材料選擇方面,研究團隊與加州大學伯克利分校喻夢潔助理教授、香港城市大學王騁副教授實驗室合作,采用了具有優(yōu)異電光特性的薄膜鈮酸鋰(TFLN,Thin-FilmLithiumNiobate)作為光學計算平臺。該材料具備優(yōu)異的電光特性,其較低的半波電壓(Vπ)顯著降低了電光轉(zhuǎn)換過程中的能耗,為實現(xiàn)高效、低功耗的光學計算系統(tǒng)提供了基礎(chǔ)。
應(yīng)用場景:從數(shù)據(jù)中心模型訓練到終端設(shè)備模型部署
陳在俊在德國馬克斯普朗克量子光學研究所和德國慕尼黑大學獲得博士學位,導師為諾貝爾物理學獎獲得者特奧多爾·W·亨施(TheodorW.H?nsch),之后分別在馬克斯普朗克量子光學研究所和美國麻省理工學院迪爾克·英格倫(DirkEnglund)教授團隊從事博士后研究工作(DeepTech此前報道:MIT團隊開發(fā)新型AI光子計算芯片,實現(xiàn)計算效率提高100倍)。
目前,陳在俊在加州大學伯克利分校成立了獨立實驗室,其研究方向主要聚焦于光計算技術(shù)及其應(yīng)用的創(chuàng)新,研究內(nèi)容涵蓋量子光學、壓縮態(tài)光子學和光學傳感技術(shù)等多個前沿領(lǐng)域。
近期,團隊正在開展存算一體化的新型光學傳感器方向研究,并探索量子增強傳感技術(shù)在自動駕駛等實際場景中的應(yīng)用。此外,團隊還致力于將人工智能與量子光學方法相結(jié)合,以實現(xiàn)分子和原子尺度的高精度測量。
該研究歷時兩年,始于陳在俊實驗室剛成立之際。研究的核心挑戰(zhàn)主要集中在如何確保長時間、高速光學計算過程中的測量精度與系統(tǒng)穩(wěn)定性。
在軟件架構(gòu)層面,研究團隊采用任意波形發(fā)生器對光學系統(tǒng)作為精確控制核心,通過高精度時序同步實現(xiàn)光學計算單元的數(shù)據(jù)采集與處理,并與計算機系統(tǒng)協(xié)同工作,成功實現(xiàn)了卷積神經(jīng)網(wǎng)絡(luò)(CNN,ConvolutionalNeuralNetwork)的運行。
在硬件測量方面,III/V族半導體垂直腔面發(fā)射激光器(VCSEL,vertical-cavitysurface-emittinglaser)與薄膜鈮酸鋰集成芯片之間的時序校準問題尤為關(guān)鍵,對實現(xiàn)高速測量的計算精度提出了嚴峻挑戰(zhàn)。
從計算原理來看,矩陣乘法運算(N×N矩陣乘以N×N矩陣)的本質(zhì)是,要求第一個矩陣中的所有行向量都必須與第二個矩陣中的所有列向量完成點積運算。
在這個過程中,光學計算的獨特優(yōu)勢得以充分展現(xiàn):系統(tǒng)可以在計算框架內(nèi)實現(xiàn)天然的并行運算,并通過波長復用技術(shù)將不同計算任務(wù)在光學域進行有效分離。例如,當一個向量(維度為1×N)乘以一個矩陣(維度為N×N)時,傳統(tǒng)電子計算需要將該向量復制N次,然后分別與矩陣的每一列進行運算。
雖然從數(shù)學表達式看這個過程相對簡單,但在硬件實現(xiàn)層面卻異常復雜。研究團隊通過光學手段巧妙地解決了這一難題——利用光的波動特性自然地完成向量復制過程,這種基于波場的并行數(shù)據(jù)傳輸機制是電子計算難以達到的。
此外,他們所使用的計算元件都非常簡單。陳在俊解釋說道:“我們最終的目標是從簡單的計算單元開發(fā)出高算力、低能耗的光學計算系統(tǒng),解決光學可擴展性?!?/p>
因此,他們選擇從最基礎(chǔ)的光學組件著手來構(gòu)建系統(tǒng)。例如,僅需讓激光束依次通過兩個調(diào)制器就能實現(xiàn)乘法運算:第一個調(diào)制器完成A系數(shù)調(diào)制,第二個完成B系數(shù)調(diào)制,經(jīng)過兩次調(diào)制后的輸出光強即對應(yīng)A×B的結(jié)果。通過這種簡潔而高效的乘法單元,研究團隊成功構(gòu)建起三維計算架構(gòu),并利用光學復制原理實現(xiàn)了前所未有的計算效率。
(來源:ScienceAdvances)
在應(yīng)用前景方面,這項技術(shù)直指當前AI算力發(fā)展的核心瓶頸,其應(yīng)用場景涵蓋從數(shù)據(jù)中心模型訓練、邊緣實時決策、終端設(shè)備模型部署、氣候模擬等場景。以自動駕駛為例,現(xiàn)代智能汽車通常搭載多個計算芯片,其中30-40%的整車能耗都消耗在計算任務(wù)上。這種低能耗、高算力的光學計算技術(shù)有望顯著提升終端設(shè)備的能效比。
實際上,AI的發(fā)展水平在很大程度上受限于芯片性能,而光學計算的突破可能徹底改變這一局面。當算力得到質(zhì)的提升后,此前受限于能耗和芯片效率的諸多技術(shù)瓶頸有望迎刃而解,更大規(guī)模的模型訓練將成為可能。
該研究中的實驗數(shù)據(jù)顯示,HITOP系統(tǒng)在圖像分類任務(wù)中表現(xiàn)出色,而所需的模型參數(shù)量僅約40萬。其中,在單層網(wǎng)絡(luò)(28×28→10)架構(gòu)下,78.4ns內(nèi)完成圖像處理,分類準確率達97%;在更復雜的三層網(wǎng)絡(luò)(28×28→100→10)FashionMNIST分類中,準確率保持91.8%。
這自然引出一個關(guān)鍵問題:該技術(shù)能否支撐GPT級別的超大規(guī)模模型訓練?陳在俊指出,當系統(tǒng)規(guī)模擴展到300×300通道時,單個光學芯片的計算能力將相當于多個GPU的并行組合,屆時完全具備訓練大模型的硬件條件。
盡管當前的原型系統(tǒng)規(guī)模有限,但技術(shù)路線已經(jīng)展現(xiàn)出巨大的發(fā)展?jié)摿?。特別值得一提的是,在實時性要求極高的自動駕駛場景中,現(xiàn)有系統(tǒng)需要1毫秒的反應(yīng)時間,而HITOP已實現(xiàn)100納秒的極低延遲。可以預見,隨著系統(tǒng)規(guī)模的持續(xù)擴大,這項技術(shù)可能在自動駕駛等對實時性和能效要求嚴苛的領(lǐng)域發(fā)揮重要作用。
(來源:ScienceAdvances)
現(xiàn)在,陳在俊正帶領(lǐng)團隊重點攻克光計算系統(tǒng)的相關(guān)技術(shù)難題并推進工程化。其首要目標是提升激光器的波長穩(wěn)定性,通過優(yōu)化系統(tǒng)架構(gòu)將計算規(guī)模擴展到300×300,同時增加波長和通道數(shù)量。盡管現(xiàn)有的硅光技術(shù)理論上支持這一規(guī)模,但在實際實現(xiàn)過程中仍面臨諸多技術(shù)挑戰(zhàn)。
他表示:“實現(xiàn)300×300的系統(tǒng)規(guī)模后,計算能力預計將達到4000TOPS(每秒4000萬億次運算),這一性能將顯著超越當前主流的NVIDIAGB200?!彪S著先進封裝工藝的持續(xù)發(fā)展和系統(tǒng)集成度的不斷提高,時序校準等關(guān)鍵技術(shù)難題將逐步得到解決,進而為光學計算系統(tǒng)的大規(guī)模商業(yè)化應(yīng)用奠定堅實基礎(chǔ)。
參考資料:
1.Ou,S.etal.Hypermultiplexedintegratedphotonics–basedoptical
tensorprocessor.ScienceAdvances11,eadu0228(2025).https://www.science.org/doi/10.1126/sciadv.adu0228
排版:劉雅坤
程序員重生2001,開啟完美時代,做名人的教父,富人的偶像!
《重生完美時代》穿越回高考前,我能逆襲嗎?「續(xù)讀」
老牌程序員重生2001,他誓要制霸IT產(chǎn)業(yè),成就完美時代