21世紀經(jīng)濟報道記者董靜怡上海報道2025年,AI的發(fā)展有更智能了嗎?
在人工智能的演進歷程中,大型語言模型(LLM)的崛起標志著AI技術的一次飛躍,但真正的通用人工智能(AGI)遠不止于文本的理解與生成。
當前大模型的發(fā)展已經(jīng)從單一的語言模型邁向了多模態(tài)融合的新階段,這是通向AGI的必經(jīng)之路。
近日,在2025年世界人工智能大會(WAIC2025)上,商湯科技聯(lián)合創(chuàng)始人、執(zhí)行董事、首席科學家林達華在接受21世紀經(jīng)濟報道記者采訪時表示,人工智能的未來發(fā)展在于多模態(tài)信息的融合與物理世界的交互,而當前的大模型技術正朝著這一方向加速演進。
林達華強調(diào),未來的多模態(tài)模型甚至能在純語言任務上超越單一語言模型,而國內(nèi)廠商也在加速布局,2025年下半年或?qū)⒂瓉矶嗄B(tài)模型的全面普及。
然而,通向AGI的道路仍面臨關鍵挑戰(zhàn),真正將智能落地到實際場景中目前來看仍有局限。
林達華向記者表示,盡管大模型在特定領域的推理能力已接近人類水平,但其泛化能力仍顯不足,真正的突破在于推理能力能否從狹窄領域泛化到復雜的生活與生產(chǎn)場景。此外,當前多模態(tài)模型的空間感知能力也存在短板,這一能力的缺失可能成為具身智能落地的關鍵障礙。
具身智能被視為AGI的終極形態(tài)之一,今年以來熱度居高不下。WAIC2025大模型論壇上,商湯也正式發(fā)布了“悟能”具身智能平臺,官宣入局具身智能。
顯然,AGI的實現(xiàn)需要長期的技術積累與場景迭代。從單一語言模型到原生多模態(tài)架構,從數(shù)字空間的推理到具身智能的落地,AI的未來不僅需要更深的跨模態(tài)理解能力,還需突破空間感知、數(shù)據(jù)稀缺等關鍵瓶頸,才能真正邁向AGI的終極目標。
多模態(tài)需從理解層面延伸到思考層面
《21世紀》:未來大模型的演化趨勢是怎樣的?
林達華:回到智能的本源來看,我們所生活的世界它是各種模態(tài)的信號共同存在的世界。所以,如果我們要自主跟這個世界進行交互的話,它必然是要去跟不同的模態(tài)進行共同的交互,并且把它的信息匯集在一起來進行處理和分析。
為什么語言模型會成為這一波大模型打響的第一槍?是因為在人類的歷史上積累下來非常豐富的知識,它本身是以語言的方式為主來存在的。但本質(zhì)上語言是一種交流的工具,是一種傳遞信息的符號化的表達。語言并不是整個世界的本身。所以,從智能的本質(zhì)來說,是需要對各種模態(tài)的信息進行跨模態(tài)的關聯(lián),才能夠完成對這個世界的理解和建模。
所以,從某種意義上,我覺得語言模型可以說是大模型通向AGI比較容易切入的第一步,但是最終要通向人工智能,是不可缺少的需要一個多模態(tài)的能力的。
《21世紀》:多模態(tài)未來會如何發(fā)展?
林達華:早期的多模態(tài)的架構是一個語言模型接一個視覺編碼器,這樣的天花板是比較低的,模態(tài)跟語言之間的融合也是比較淺的。直到2024年下半年,出來了像Gemini的模型,提出所謂的原生多模態(tài)的概念,它真正把圖像、視頻的信息,融合在預訓練的過程里面去,去形成更深層次的跨模態(tài)建模的能力。
現(xiàn)在我們要把多模態(tài)的融合從理解的層面,延伸到思考的層面?,F(xiàn)在市面上的大模型APP也有多模態(tài)的能力,但深度思考的模式里傳的都是文字。但是我覺得人的思考過程是一種邏輯思維跟形象思維的結(jié)合,也就是說在你思考的過程中,會不斷地浮現(xiàn)出新的景象,新的印象,新的圖形,然后在這個過程中,又在啟發(fā)新的思考。
當有效進行融合訓練之后,一個多模態(tài)模型是能夠在純語言的任務上面表現(xiàn)得比一個純語言的模型更好。所以,當做到這一步的時候,一個單獨的語言模型就不再是必要的。
商湯從日日新6.0開始,沒有語言模型單獨的存在,全部都是多模態(tài)模型,而且這個多模態(tài)模型在純語言、純文本的任務上面,依然也是表現(xiàn)出先進水平的性能。據(jù)我了解,現(xiàn)在國內(nèi)的廠商,可能在今年下半年陸陸續(xù)續(xù)也會這么走。
具身智能需空間感知能力
《21世紀》:Agent被認為是AI落地的重要形態(tài),如何看待它的發(fā)展?
林達華:Agent是大模型能力在現(xiàn)實世界落地的關鍵技術載體,2025年被視為“元年”并迎來大爆發(fā),這與大模型能力的提升密切相關。
不過需要注意的是,盡管許多模型聲稱具備Agent能力,并在相關評測榜單上得分很高,但在實際落地場景中,尤其是在復雜條件的場景中,通用Agent仍存在較大差距。例如,在工業(yè)設計中,某些關鍵要素可能對設計產(chǎn)生重大影響,而通用Agent可能無法準確理解這些要素,導致設計偏差。
Agent的最終迭代必須圍繞具體場景進行,否則其價值無法真正落地。在真實場景中,Agent的可靠性和成功率至關重要。如果Agent不能有效解決問題,反而增加用戶的工作負擔,那么它就無法被視為有價值的Agent。
我們發(fā)現(xiàn),只有將Agent放入真實場景中進行迭代,結(jié)合行業(yè)知識和關鍵需求,才能開發(fā)出真正有用的Agent。
《21世紀》:實現(xiàn)AGI,還要在哪些方面突破?
林達華:推理在單科做到非常高,這個技術路徑通過RL(強化學習)之后已經(jīng)是比較成熟了。這里面最值得觀察的突破點是,推理的性能能不能從單科的、單一領域的,比如奧賽、下圍棋、寫程序,拓展到廣泛的生產(chǎn)、工作和生活的領域,做到跟真人一樣能夠自由地去推理的水平。如果是做到了可泛化,我覺得現(xiàn)有的模型距離AGI就靠近了一大步。
另一個重要的觀察點是當前多模態(tài)模型的空間理解能力存在明顯不足。國際頂尖多模態(tài)模型,在面對諸如積木拼接等簡單空間問題時,也無法準確判斷積木的組成數(shù)量以及各部分之間的連接關系,而這些問題對于幾歲的兒童來說卻是輕而易舉的。
這表明當前多模態(tài)模型的思維方式主要依賴于邏輯推理,缺乏較強的空間感知能力。若這一問題得不到突破,未來將成為具身智能落地的重要障礙。
《21世紀》:具身智能當前面臨哪些瓶頸?
林達華:從到達AGI的角度來說,是需要讓智能走出數(shù)字空間,實現(xiàn)數(shù)字空間跟物理空間連接。具身智能與數(shù)字空間中的大模型存在顯著區(qū)別。大模型能夠從互聯(lián)網(wǎng)獲取海量的文本和圖片數(shù)據(jù),并對其進行深加工以提升質(zhì)量,進而用于訓練。
然而,具身智能的數(shù)據(jù)獲取方式存在局限性,其數(shù)據(jù)主要通過機器人操作獲得,而機器人的數(shù)量和操作速度都較為有限,導致數(shù)據(jù)吞吐量較低。無論是自動化操作還是人工操作,具身智能的數(shù)據(jù)獲取都面臨物理瓶頸,其數(shù)據(jù)量遠低于互聯(lián)網(wǎng)上的數(shù)字數(shù)據(jù)。
因此,僅依靠機器人真機操作的數(shù)據(jù)難以實現(xiàn)具身智能的有效發(fā)展,因為兩者之間的數(shù)據(jù)量差距過大。具身智能需要借助先驗能力、先驗結(jié)構和先驗數(shù)據(jù),這些可以通過互聯(lián)網(wǎng)上的大量視頻等多模態(tài)數(shù)據(jù)構建強大的基座模型。僅依賴真機數(shù)據(jù)不僅數(shù)量級不足,而且無法滿足當前快速迭代的需求。
5篇古言爽文推薦:她冷血無情,說一不二,唯獨對心尖寵頻頻破例
五本歡喜冤家文:給我站住,確認過眼神,你就是本君要撩的女人
寵文:遭最信任的姐姐背叛,天賦被毀,且看她抱夫大腿復仇!
免責聲明:本文內(nèi)容由開放的智能模型自動生成,僅供參考。