集雪風(fēng)
21世紀(jì)經(jīng)濟(jì)報道記者董靜怡上海報道2025年,AI的發(fā)展有更智能了嗎?
在人工智能的演進(jìn)歷程中,大型語言模型(LLM)的崛起標(biāo)志著AI技術(shù)的一次飛躍,但真正的通用人工智能(AGI)遠(yuǎn)不止于文本的理解與生成。
當(dāng)前大模型的發(fā)展已經(jīng)從單一的語言模型邁向了多模態(tài)融合的新階段,這是通向AGI的必經(jīng)之路。
近日,在2025年世界人工智能大會(WAIC2025)上,商湯科技聯(lián)合創(chuàng)始人、執(zhí)行董事、首席科學(xué)家林達(dá)華在接受21世紀(jì)經(jīng)濟(jì)報道記者采訪時表示,人工智能的未來發(fā)展在于多模態(tài)信息的融合與物理世界的交互,而當(dāng)前的大模型技術(shù)正朝著這一方向加速演進(jìn)。
林達(dá)華強(qiáng)調(diào),未來的多模態(tài)模型甚至能在純語言任務(wù)上超越單一語言模型,而國內(nèi)廠商也在加速布局,2025年下半年或?qū)⒂瓉矶嗄B(tài)模型的全面普及。
然而,通向AGI的道路仍面臨關(guān)鍵挑戰(zhàn),真正將智能落地到實際場景中目前來看仍有局限。
林達(dá)華向記者表示,盡管大模型在特定領(lǐng)域的推理能力已接近人類水平,但其泛化能力仍顯不足,真正的突破在于推理能力能否從狹窄領(lǐng)域泛化到復(fù)雜的生活與生產(chǎn)場景。此外,當(dāng)前多模態(tài)模型的空間感知能力也存在短板,這一能力的缺失可能成為具身智能落地的關(guān)鍵障礙。
具身智能被視為AGI的終極形態(tài)之一,今年以來熱度居高不下。WAIC2025大模型論壇上,商湯也正式發(fā)布了“悟能”具身智能平臺,官宣入局具身智能。
顯然,AGI的實現(xiàn)需要長期的技術(shù)積累與場景迭代。從單一語言模型到原生多模態(tài)架構(gòu),從數(shù)字空間的推理到具身智能的落地,AI的未來不僅需要更深的跨模態(tài)理解能力,還需突破空間感知、數(shù)據(jù)稀缺等關(guān)鍵瓶頸,才能真正邁向AGI的終極目標(biāo)。
多模態(tài)需從理解層面延伸到思考層面
《21世紀(jì)》:未來大模型的演化趨勢是怎樣的?
林達(dá)華:回到智能的本源來看,我們所生活的世界它是各種模態(tài)的信號共同存在的世界。所以,如果我們要自主跟這個世界進(jìn)行交互的話,它必然是要去跟不同的模態(tài)進(jìn)行共同的交互,并且把它的信息匯集在一起來進(jìn)行處理和分析。
為什么語言模型會成為這一波大模型打響的第一槍?是因為在人類的歷史上積累下來非常豐富的知識,它本身是以語言的方式為主來存在的。但本質(zhì)上語言是一種交流的工具,是一種傳遞信息的符號化的表達(dá)。語言并不是整個世界的本身。所以,從智能的本質(zhì)來說,是需要對各種模態(tài)的信息進(jìn)行跨模態(tài)的關(guān)聯(lián),才能夠完成對這個世界的理解和建模。
所以,從某種意義上,我覺得語言模型可以說是大模型通向AGI比較容易切入的第一步,但是最終要通向人工智能,是不可缺少的需要一個多模態(tài)的能力的。
《21世紀(jì)》:多模態(tài)未來會如何發(fā)展?
林達(dá)華:早期的多模態(tài)的架構(gòu)是一個語言模型接一個視覺編碼器,這樣的天花板是比較低的,模態(tài)跟語言之間的融合也是比較淺的。直到2024年下半年,出來了像Gemini的模型,提出所謂的原生多模態(tài)的概念,它真正把圖像、視頻的信息,融合在預(yù)訓(xùn)練的過程里面去,去形成更深層次的跨模態(tài)建模的能力。
現(xiàn)在我們要把多模態(tài)的融合從理解的層面,延伸到思考的層面?,F(xiàn)在市面上的大模型APP也有多模態(tài)的能力,但深度思考的模式里傳的都是文字。但是我覺得人的思考過程是一種邏輯思維跟形象思維的結(jié)合,也就是說在你思考的過程中,會不斷地浮現(xiàn)出新的景象,新的印象,新的圖形,然后在這個過程中,又在啟發(fā)新的思考。
當(dāng)有效進(jìn)行融合訓(xùn)練之后,一個多模態(tài)模型是能夠在純語言的任務(wù)上面表現(xiàn)得比一個純語言的模型更好。所以,當(dāng)做到這一步的時候,一個單獨(dú)的語言模型就不再是必要的。
商湯從日日新6.0開始,沒有語言模型單獨(dú)的存在,全部都是多模態(tài)模型,而且這個多模態(tài)模型在純語言、純文本的任務(wù)上面,依然也是表現(xiàn)出先進(jìn)水平的性能。據(jù)我了解,現(xiàn)在國內(nèi)的廠商,可能在今年下半年陸陸續(xù)續(xù)也會這么走。
具身智能需空間感知能力
《21世紀(jì)》:Agent被認(rèn)為是AI落地的重要形態(tài),如何看待它的發(fā)展?
林達(dá)華:Agent是大模型能力在現(xiàn)實世界落地的關(guān)鍵技術(shù)載體,2025年被視為“元年”并迎來大爆發(fā),這與大模型能力的提升密切相關(guān)。
不過需要注意的是,盡管許多模型聲稱具備Agent能力,并在相關(guān)評測榜單上得分很高,但在實際落地場景中,尤其是在復(fù)雜條件的場景中,通用Agent仍存在較大差距。例如,在工業(yè)設(shè)計中,某些關(guān)鍵要素可能對設(shè)計產(chǎn)生重大影響,而通用Agent可能無法準(zhǔn)確理解這些要素,導(dǎo)致設(shè)計偏差。
Agent的最終迭代必須圍繞具體場景進(jìn)行,否則其價值無法真正落地。在真實場景中,Agent的可靠性和成功率至關(guān)重要。如果Agent不能有效解決問題,反而增加用戶的工作負(fù)擔(dān),那么它就無法被視為有價值的Agent。
我們發(fā)現(xiàn),只有將Agent放入真實場景中進(jìn)行迭代,結(jié)合行業(yè)知識和關(guān)鍵需求,才能開發(fā)出真正有用的Agent。
《21世紀(jì)》:實現(xiàn)AGI,還要在哪些方面突破?
林達(dá)華:推理在單科做到非常高,這個技術(shù)路徑通過RL(強(qiáng)化學(xué)習(xí))之后已經(jīng)是比較成熟了。這里面最值得觀察的突破點是,推理的性能能不能從單科的、單一領(lǐng)域的,比如奧賽、下圍棋、寫程序,拓展到廣泛的生產(chǎn)、工作和生活的領(lǐng)域,做到跟真人一樣能夠自由地去推理的水平。如果是做到了可泛化,我覺得現(xiàn)有的模型距離AGI就靠近了一大步。
另一個重要的觀察點是當(dāng)前多模態(tài)模型的空間理解能力存在明顯不足。國際頂尖多模態(tài)模型,在面對諸如積木拼接等簡單空間問題時,也無法準(zhǔn)確判斷積木的組成數(shù)量以及各部分之間的連接關(guān)系,而這些問題對于幾歲的兒童來說卻是輕而易舉的。
這表明當(dāng)前多模態(tài)模型的思維方式主要依賴于邏輯推理,缺乏較強(qiáng)的空間感知能力。若這一問題得不到突破,未來將成為具身智能落地的重要障礙。
《21世紀(jì)》:具身智能當(dāng)前面臨哪些瓶頸?
林達(dá)華:從到達(dá)AGI的角度來說,是需要讓智能走出數(shù)字空間,實現(xiàn)數(shù)字空間跟物理空間連接。具身智能與數(shù)字空間中的大模型存在顯著區(qū)別。大模型能夠從互聯(lián)網(wǎng)獲取海量的文本和圖片數(shù)據(jù),并對其進(jìn)行深加工以提升質(zhì)量,進(jìn)而用于訓(xùn)練。
然而,具身智能的數(shù)據(jù)獲取方式存在局限性,其數(shù)據(jù)主要通過機(jī)器人操作獲得,而機(jī)器人的數(shù)量和操作速度都較為有限,導(dǎo)致數(shù)據(jù)吞吐量較低。無論是自動化操作還是人工操作,具身智能的數(shù)據(jù)獲取都面臨物理瓶頸,其數(shù)據(jù)量遠(yuǎn)低于互聯(lián)網(wǎng)上的數(shù)字?jǐn)?shù)據(jù)。
因此,僅依靠機(jī)器人真機(jī)操作的數(shù)據(jù)難以實現(xiàn)具身智能的有效發(fā)展,因為兩者之間的數(shù)據(jù)量差距過大。具身智能需要借助先驗?zāi)芰?、先驗結(jié)構(gòu)和先驗數(shù)據(jù),這些可以通過互聯(lián)網(wǎng)上的大量視頻等多模態(tài)數(shù)據(jù)構(gòu)建強(qiáng)大的基座模型。僅依賴真機(jī)數(shù)據(jù)不僅數(shù)量級不足,而且無法滿足當(dāng)前快速迭代的需求。
小說:穿詭異御獸界獲編輯秘食力,寵獸進(jìn)化,驚懼萬界!
御獸師職業(yè),作為人類崛起的關(guān)鍵因素,在漫長歲月的完善、發(fā)展之后,也分為了戰(zhàn)斗、培育、醫(yī)療、制作魔藥、占卜等等職業(yè),將寵獸的力量細(xì)分,融入了人類文明的一部分。強(qiáng)大的御獸師,庇護(hù)一城,讓普通人免受超凡生物侵襲,甚至是進(jìn)一步開拓荒野,獲得大量的資源和財富-|。萬般皆下品,唯有御獸高!而御獸師的第一步就希望你能滿意--。
小說:御獸世界邪神窺視,我編秘食讓它們瘋狂進(jìn)化!
” 就這樣,沒有絲毫修為的李玄真,靠著一身神級裝備,成為了世間禁忌……(點擊下方免費(fèi)閱讀)《全球御獸:我的御獸能無限加點》 作者:飛舞小蜜蜂內(nèi)容簡介:穿越御獸世界,人類危在旦夕,坐困愁城,只能依靠與御獸契約獲得力量,才能活著撐過獸潮。在少數(shù)人因為契約了B級御獸沾沾自喜的時候,蘇北看著自還有呢?
讓讀者奉為經(jīng)典的五本仙俠幻情實力神作,熬夜也要追更
”(點擊下方免費(fèi)閱讀)第三本:《太荒吞天訣》作者:鐵馬飛橋簡介:天地皆靈,萬物皆茍,無名天地之始,有名萬物之母,此乃吞天神鼎,可凝精作物,并八荒之心。得此鼎,吞四海,容八荒……一代邪神,踏天之路!精彩內(nèi)容:徐凌雪緩緩道來,滄瀾城所有家族資料,她掌握的非常清楚?!榜Z獸術(shù),有點意思!”摸好了吧!
來源:紅網(wǎng)
作者:僧臻
編輯:保悅可
本文為紅辣椒評論 原創(chuàng)文章,僅系作者個人觀點,不代表紅網(wǎng)立場。轉(zhuǎn)載請附原文出處鏈接和本聲明。