21世紀(jì)經(jīng)濟(jì)報道記者董靜怡上海報道2025年,AI的發(fā)展有更智能了嗎?
在人工智能的演進(jìn)歷程中,大型語言模型(LLM)的崛起標(biāo)志著AI技術(shù)的一次飛躍,但真正的通用人工智能(AGI)遠(yuǎn)不止于文本的理解與生成。
當(dāng)前大模型的發(fā)展已經(jīng)從單一的語言模型邁向了多模態(tài)融合的新階段,這是通向AGI的必經(jīng)之路。
近日,在2025年世界人工智能大會(WAIC2025)上,商湯科技聯(lián)合創(chuàng)始人、執(zhí)行董事、首席科學(xué)家林達(dá)華在接受21世紀(jì)經(jīng)濟(jì)報道記者采訪時表示,人工智能的未來發(fā)展在于多模態(tài)信息的融合與物理世界的交互,而當(dāng)前的大模型技術(shù)正朝著這一方向加速演進(jìn)。
林達(dá)華強(qiáng)調(diào),未來的多模態(tài)模型甚至能在純語言任務(wù)上超越單一語言模型,而國內(nèi)廠商也在加速布局,2025年下半年或?qū)⒂瓉矶嗄B(tài)模型的全面普及。
然而,通向AGI的道路仍面臨關(guān)鍵挑戰(zhàn),真正將智能落地到實(shí)際場景中目前來看仍有局限。
林達(dá)華向記者表示,盡管大模型在特定領(lǐng)域的推理能力已接近人類水平,但其泛化能力仍顯不足,真正的突破在于推理能力能否從狹窄領(lǐng)域泛化到復(fù)雜的生活與生產(chǎn)場景。此外,當(dāng)前多模態(tài)模型的空間感知能力也存在短板,這一能力的缺失可能成為具身智能落地的關(guān)鍵障礙。
具身智能被視為AGI的終極形態(tài)之一,今年以來熱度居高不下。WAIC2025大模型論壇上,商湯也正式發(fā)布了“悟能”具身智能平臺,官宣入局具身智能。
顯然,AGI的實(shí)現(xiàn)需要長期的技術(shù)積累與場景迭代。從單一語言模型到原生多模態(tài)架構(gòu),從數(shù)字空間的推理到具身智能的落地,AI的未來不僅需要更深的跨模態(tài)理解能力,還需突破空間感知、數(shù)據(jù)稀缺等關(guān)鍵瓶頸,才能真正邁向AGI的終極目標(biāo)。
多模態(tài)需從理解層面延伸到思考層面
《21世紀(jì)》:未來大模型的演化趨勢是怎樣的?
林達(dá)華:回到智能的本源來看,我們所生活的世界它是各種模態(tài)的信號共同存在的世界。所以,如果我們要自主跟這個世界進(jìn)行交互的話,它必然是要去跟不同的模態(tài)進(jìn)行共同的交互,并且把它的信息匯集在一起來進(jìn)行處理和分析。
為什么語言模型會成為這一波大模型打響的第一槍?是因?yàn)樵谌祟惖臍v史上積累下來非常豐富的知識,它本身是以語言的方式為主來存在的。但本質(zhì)上語言是一種交流的工具,是一種傳遞信息的符號化的表達(dá)。語言并不是整個世界的本身。所以,從智能的本質(zhì)來說,是需要對各種模態(tài)的信息進(jìn)行跨模態(tài)的關(guān)聯(lián),才能夠完成對這個世界的理解和建模。
所以,從某種意義上,我覺得語言模型可以說是大模型通向AGI比較容易切入的第一步,但是最終要通向人工智能,是不可缺少的需要一個多模態(tài)的能力的。
《21世紀(jì)》:多模態(tài)未來會如何發(fā)展?
林達(dá)華:早期的多模態(tài)的架構(gòu)是一個語言模型接一個視覺編碼器,這樣的天花板是比較低的,模態(tài)跟語言之間的融合也是比較淺的。直到2024年下半年,出來了像Gemini的模型,提出所謂的原生多模態(tài)的概念,它真正把圖像、視頻的信息,融合在預(yù)訓(xùn)練的過程里面去,去形成更深層次的跨模態(tài)建模的能力。
現(xiàn)在我們要把多模態(tài)的融合從理解的層面,延伸到思考的層面?,F(xiàn)在市面上的大模型APP也有多模態(tài)的能力,但深度思考的模式里傳的都是文字。但是我覺得人的思考過程是一種邏輯思維跟形象思維的結(jié)合,也就是說在你思考的過程中,會不斷地浮現(xiàn)出新的景象,新的印象,新的圖形,然后在這個過程中,又在啟發(fā)新的思考。
當(dāng)有效進(jìn)行融合訓(xùn)練之后,一個多模態(tài)模型是能夠在純語言的任務(wù)上面表現(xiàn)得比一個純語言的模型更好。所以,當(dāng)做到這一步的時候,一個單獨(dú)的語言模型就不再是必要的。
商湯從日日新6.0開始,沒有語言模型單獨(dú)的存在,全部都是多模態(tài)模型,而且這個多模態(tài)模型在純語言、純文本的任務(wù)上面,依然也是表現(xiàn)出先進(jìn)水平的性能。據(jù)我了解,現(xiàn)在國內(nèi)的廠商,可能在今年下半年陸陸續(xù)續(xù)也會這么走。
具身智能需空間感知能力
《21世紀(jì)》:Agent被認(rèn)為是AI落地的重要形態(tài),如何看待它的發(fā)展?
林達(dá)華:Agent是大模型能力在現(xiàn)實(shí)世界落地的關(guān)鍵技術(shù)載體,2025年被視為“元年”并迎來大爆發(fā),這與大模型能力的提升密切相關(guān)。
不過需要注意的是,盡管許多模型聲稱具備Agent能力,并在相關(guān)評測榜單上得分很高,但在實(shí)際落地場景中,尤其是在復(fù)雜條件的場景中,通用Agent仍存在較大差距。例如,在工業(yè)設(shè)計中,某些關(guān)鍵要素可能對設(shè)計產(chǎn)生重大影響,而通用Agent可能無法準(zhǔn)確理解這些要素,導(dǎo)致設(shè)計偏差。
Agent的最終迭代必須圍繞具體場景進(jìn)行,否則其價值無法真正落地。在真實(shí)場景中,Agent的可靠性和成功率至關(guān)重要。如果Agent不能有效解決問題,反而增加用戶的工作負(fù)擔(dān),那么它就無法被視為有價值的Agent。
我們發(fā)現(xiàn),只有將Agent放入真實(shí)場景中進(jìn)行迭代,結(jié)合行業(yè)知識和關(guān)鍵需求,才能開發(fā)出真正有用的Agent。
《21世紀(jì)》:實(shí)現(xiàn)AGI,還要在哪些方面突破?
林達(dá)華:推理在單科做到非常高,這個技術(shù)路徑通過RL(強(qiáng)化學(xué)習(xí))之后已經(jīng)是比較成熟了。這里面最值得觀察的突破點(diǎn)是,推理的性能能不能從單科的、單一領(lǐng)域的,比如奧賽、下圍棋、寫程序,拓展到廣泛的生產(chǎn)、工作和生活的領(lǐng)域,做到跟真人一樣能夠自由地去推理的水平。如果是做到了可泛化,我覺得現(xiàn)有的模型距離AGI就靠近了一大步。
另一個重要的觀察點(diǎn)是當(dāng)前多模態(tài)模型的空間理解能力存在明顯不足。國際頂尖多模態(tài)模型,在面對諸如積木拼接等簡單空間問題時,也無法準(zhǔn)確判斷積木的組成數(shù)量以及各部分之間的連接關(guān)系,而這些問題對于幾歲的兒童來說卻是輕而易舉的。
這表明當(dāng)前多模態(tài)模型的思維方式主要依賴于邏輯推理,缺乏較強(qiáng)的空間感知能力。若這一問題得不到突破,未來將成為具身智能落地的重要障礙。
《21世紀(jì)》:具身智能當(dāng)前面臨哪些瓶頸?
林達(dá)華:從到達(dá)AGI的角度來說,是需要讓智能走出數(shù)字空間,實(shí)現(xiàn)數(shù)字空間跟物理空間連接。具身智能與數(shù)字空間中的大模型存在顯著區(qū)別。大模型能夠從互聯(lián)網(wǎng)獲取海量的文本和圖片數(shù)據(jù),并對其進(jìn)行深加工以提升質(zhì)量,進(jìn)而用于訓(xùn)練。
然而,具身智能的數(shù)據(jù)獲取方式存在局限性,其數(shù)據(jù)主要通過機(jī)器人操作獲得,而機(jī)器人的數(shù)量和操作速度都較為有限,導(dǎo)致數(shù)據(jù)吞吐量較低。無論是自動化操作還是人工操作,具身智能的數(shù)據(jù)獲取都面臨物理瓶頸,其數(shù)據(jù)量遠(yuǎn)低于互聯(lián)網(wǎng)上的數(shù)字?jǐn)?shù)據(jù)。
因此,僅依靠機(jī)器人真機(jī)操作的數(shù)據(jù)難以實(shí)現(xiàn)具身智能的有效發(fā)展,因?yàn)閮烧咧g的數(shù)據(jù)量差距過大。具身智能需要借助先驗(yàn)?zāi)芰Α⑾闰?yàn)結(jié)構(gòu)和先驗(yàn)數(shù)據(jù),這些可以通過互聯(lián)網(wǎng)上的大量視頻等多模態(tài)數(shù)據(jù)構(gòu)建強(qiáng)大的基座模型。僅依賴真機(jī)數(shù)據(jù)不僅數(shù)量級不足,而且無法滿足當(dāng)前快速迭代的需求。
良心力薦《穿越獸世:獸王,別亂來!》,我和我的小伙伴都追瘋了
遠(yuǎn)古種田文:《穿越獸世:獸王,別亂來!》,現(xiàn)代女與妖孽美獸人
堪比《穿越獸世:獸王,別亂來!》的奇幻異能神作集合,越看越愛