作者|周一笑郵箱|zhouyixiao@pingwest.com
在今年世界人工智能大會上,一個頗為引人注目的場景,主角是一個人形機(jī)器人。它獨自站在臺上,自主講解著一份關(guān)于唐代荔枝運輸史的PPT。
根據(jù)商湯科技董事長兼CEO徐立在“大愛無疆·模塑未來”大模型論壇上的介紹,這個機(jī)器人不僅語言風(fēng)趣,能自行控制PPT翻頁,甚至可以在回答完臺下觀眾的提問后,無縫銜接回自己原來的講稿。這種流暢度,已經(jīng)超出了簡單程序控制的范疇,更像一個具備了初步理解和記憶能力的講解員。
這看似輕松的演示,背后恰恰是當(dāng)前AI領(lǐng)域的核心難題,如何讓視覺理解、語言生成、情境記憶、人機(jī)交互等多種能力無縫協(xié)作。正是這種對綜合能力的更高要求,促使行業(yè)開始重新審視過去幾年的主流發(fā)展路徑。
過去幾年,行業(yè)一度信奉“大力出奇跡”的路徑。但在2025年的今天,這條路正面臨清晰的邊界。正如行業(yè)普遍觀察到的,互聯(lián)網(wǎng)高質(zhì)量文本數(shù)據(jù)將在未來幾年內(nèi)耗盡,其增速已遠(yuǎn)落后于算力增長;同時,真實環(huán)境下的主動交互數(shù)據(jù)采集成本極高,成為了具身智能發(fā)展的核心瓶頸。單純“堆料”的模式,顯然已不足以支撐AI的持續(xù)進(jìn)化。
這正是商湯這家公司的特殊之處,作為一家在計算機(jī)視覺領(lǐng)域深耕了十年的公司,商湯的基因決定了它對世界的理解始于圖像和視頻。在生成式AI時代,商湯并未將自己局限在純語言模型的競賽中,而是選擇了一條更契合自身歷史基因的道路。根據(jù)其領(lǐng)導(dǎo)層在多個場合的闡述,商湯當(dāng)下的核心戰(zhàn)略,是利用其深厚的視覺理解能力,將公司定位在多模態(tài)基礎(chǔ)模型及其在具身智能等領(lǐng)域的應(yīng)用之上。
1
多模態(tài)的新故事:當(dāng)行業(yè)覺得“卷不動”時
多模態(tài)這個概念在行業(yè)里已被討論多年,各家都在布局,以至于很多人覺得這已是一個重要但缺乏新突破的領(lǐng)域。然而,商湯提出了一個更具挑戰(zhàn)性的想法:要實現(xiàn)更高階的智能,AI的多模態(tài)能力需要再往前走一步,從信息的“融合理解”深入到“動態(tài)思考”的核心。
在與我們的交流中,商湯科技聯(lián)合創(chuàng)始人、執(zhí)行董事、首席科學(xué)家林達(dá)華闡述了這意味著什么。他認(rèn)為,AI的思考過程不應(yīng)是純文本的,而是應(yīng)該能不斷生成新的圖像進(jìn)行推演,這便是“圖文交錯的思維鏈”。
要走通這條窄門,挑戰(zhàn)巨大。首先是數(shù)據(jù),能體現(xiàn)人類思考過程的數(shù)據(jù)天然是稀缺的。商湯的解法之一,是以少量專家數(shù)據(jù)為種子,用AI為AI造出大量包含推理過程的合成數(shù)據(jù),以提升訓(xùn)練數(shù)據(jù)的“思維密度”。
其次是成本。為了在控制成本的同時實現(xiàn)復(fù)雜推理,商湯在這次發(fā)布的日日新6.5多模態(tài)大模型上,對架構(gòu)進(jìn)行了創(chuàng)新。其模型體系采用了超過6000億參數(shù)的混合專家(MoE)架構(gòu)。林達(dá)華在采訪中提到,他們采用了一種“更扁平的視覺編碼器搭配更縱深的語言模型中樞”的新設(shè)計,讓模型“視覺上敏捷,思考上有深度”。根據(jù)公布的數(shù)據(jù),新架構(gòu)使得性價比提升了三倍,推理成本只有原來的30%。一個150億參數(shù)的輕量模型,性能已能在多數(shù)維度上達(dá)到過去6000億參數(shù)模型的95%。
1
寬路:從Agent到物理伙伴
一個更強(qiáng)大、更高效的模型,最終要通過Agent來體現(xiàn)價值。商湯的Agent家族小浣熊,其核心應(yīng)用之一便是處理復(fù)雜的數(shù)據(jù)分析任務(wù)。
現(xiàn)實世界中的Excel表格,往往充滿了合并單元格、多個子表和混雜的圖文,是典型的多模態(tài)難題。在一個頭部客戶的實際測試中,面對這類任務(wù),小浣熊的表現(xiàn)比當(dāng)時更新的DeepSeek模型,依然有十分左右的優(yōu)勢。這種在關(guān)鍵應(yīng)用上的性能差異,直接體現(xiàn)了其底層模型在強(qiáng)推理能力上的不同。
小浣熊領(lǐng)先的復(fù)雜數(shù)據(jù)分析能力
商湯對Agent的構(gòu)想,并不局限于小浣熊這樣的數(shù)字Agent形態(tài)。在今年的WAIC展區(qū),商湯展示了一個由眾多硬件伙伴構(gòu)成的應(yīng)用生態(tài),包括元蘿卜下棋機(jī)器人、小米AI眼鏡,以及來自鈦虎、傅利葉等公司的人形機(jī)器人。
當(dāng)然,打造一個開放的硬件生態(tài)也并非易事。相比蘋果或特斯拉那種軟硬一體、高度垂直整合的模式,平臺賦能的路線需要解決生態(tài)伙伴技術(shù)水平參差不齊、最終用戶體驗難以完全統(tǒng)一等問題。
商湯在其中扮演的是核心技術(shù)提供者的角色。林達(dá)華在采訪中解釋了硬件廠商選擇合作的原因:大部分硬件廠商,特別是智能玩具等消費電子公司,對成本高度敏感,因此并不具備自研頂尖交互模型的能力。商湯提供了一個它們亟需的、開箱即用的智能大腦。至此,商湯的Agent戰(zhàn)略版圖變得清晰:以小浣熊這樣的數(shù)字Agent深入企業(yè)的生產(chǎn)流程,再以賦能硬件的物理形態(tài)進(jìn)入人們的日常生活。
1
一場需要“沿途下蛋”的馬拉松
從Agent到機(jī)器人,再到讓它們與物理世界交互,商湯的布局也自然地延展到了具身智能這一前沿領(lǐng)域。這次WAIC上,商湯正式發(fā)布了“悟能”具身智能平臺。該平臺以商湯的具身世界模型為核心,旨在為機(jī)器人等終端提供強(qiáng)大的感知、導(dǎo)航和交互能力。徐立展示的“在真實世界開極品飛車”的Demo,就展示了其“開悟”世界模型在生成高保真、可交互場景方面的能力。
對未來的想象和布局上,也讓我們看到了AI巨頭們理解上的差異。谷歌DeepMind的領(lǐng)導(dǎo)者德米斯·哈薩比斯在近期一次廣為流傳的播客訪談中構(gòu)想,AGI的終極體現(xiàn)是破解聚變能源、模擬完整細(xì)胞,解決人類最根本的科學(xué)挑戰(zhàn)。
在林達(dá)華看來,真正意義上的Intelligence——智能的定義,就是一個智能體或者“人”它跟這個世界自主交互的能力。而這里面包括很多不同的維度,比如感知、推理、決策等等。商湯的路徑,是先讓AI成為能讀懂財報、看懂圖紙、幫你規(guī)劃旅行的得力助手。一個看似仰望星空,一個似乎腳踏實地。但后者的路徑,恰恰是離當(dāng)前企業(yè)和用戶的真實痛點最近,也是最快能創(chuàng)造商業(yè)價值的領(lǐng)域。
在中長期戰(zhàn)略上,商湯的思考傾向于在把基礎(chǔ)模型做好的同時,打造很多個能深入場景變革生產(chǎn)力、重塑工作范式的專業(yè)Agent,互相形成組合,最終實現(xiàn)可持續(xù)的商業(yè)閉環(huán),而非一個什么都能干的“超級智能體”。因為后者的成本在真實商業(yè)場景中可能難以承受。另一個,就是與合作伙伴一起推動像具身智能的發(fā)展。
這種選擇的背后,是商湯對AGI發(fā)展路徑的核心判斷,它不是一場百米沖刺,而是需要付出很長時間和努力的長跑。
在這場艱苦的競賽中,一時的技術(shù)突破固然重要,但能否跑到最后,更在于能否建立一個可持續(xù)的商業(yè)閉環(huán)。商湯的策略,被林達(dá)華在采訪中概括為“沿途下蛋”。即在追求AGI這個遠(yuǎn)大目標(biāo)的過程中,必須在沿途不斷創(chuàng)造出能自我造血的商業(yè)價值。無論是小浣熊,還是硬件生態(tài),都是商湯在長跑路上“生下的蛋”。它們不僅能為研發(fā)提供資金反哺,更能讓技術(shù)在真實應(yīng)用中獲得最寶貴的反饋。
這種務(wù)實的哲學(xué),并非憑空而來,而是源于商湯過去十年在AI浪潮起伏中的經(jīng)驗沉淀。一家經(jīng)歷過技術(shù)hype與現(xiàn)實挑戰(zhàn)的公司,對什么是真正有價值的東西,會形成自己的判斷。林達(dá)華在采訪結(jié)尾的一句話,或許能作為注腳:“AI行業(yè)之所以曾出現(xiàn)過冬天,就是因為技術(shù)無法落地,人們用不上,它就失去了價值”。
從WAIC上那個會講PPT的機(jī)器人開始,我們所看到的,是一個多層戰(zhàn)略的物理體現(xiàn),一條對多模態(tài)認(rèn)知的技術(shù)窄路,一個軟硬一體的商業(yè)寬路,以及一個為跑贏AGI馬拉松而設(shè)計的、可持續(xù)的發(fā)展哲學(xué)。
點個愛心,再走吧
延伸閱讀:與 商湯給:“出、了新答”案 的相關(guān)文章