作者|周一笑郵箱|zhouyixiao@pingwest.com
在今年世界人工智能大會上,一個頗為引人注目的場景,主角是一個人形機器人。它獨自站在臺上,自主講解著一份關于唐代荔枝運輸史的PPT。
根據(jù)商湯科技董事長兼CEO徐立在“大愛無疆·模塑未來”大模型論壇上的介紹,這個機器人不僅語言風趣,能自行控制PPT翻頁,甚至可以在回答完臺下觀眾的提問后,無縫銜接回自己原來的講稿。這種流暢度,已經超出了簡單程序控制的范疇,更像一個具備了初步理解和記憶能力的講解員。
這看似輕松的演示,背后恰恰是當前AI領域的核心難題,如何讓視覺理解、語言生成、情境記憶、人機交互等多種能力無縫協(xié)作。正是這種對綜合能力的更高要求,促使行業(yè)開始重新審視過去幾年的主流發(fā)展路徑。
過去幾年,行業(yè)一度信奉“大力出奇跡”的路徑。但在2025年的今天,這條路正面臨清晰的邊界。正如行業(yè)普遍觀察到的,互聯(lián)網高質量文本數(shù)據(jù)將在未來幾年內耗盡,其增速已遠落后于算力增長;同時,真實環(huán)境下的主動交互數(shù)據(jù)采集成本極高,成為了具身智能發(fā)展的核心瓶頸。單純“堆料”的模式,顯然已不足以支撐AI的持續(xù)進化。
這正是商湯這家公司的特殊之處,作為一家在計算機視覺領域深耕了十年的公司,商湯的基因決定了它對世界的理解始于圖像和視頻。在生成式AI時代,商湯并未將自己局限在純語言模型的競賽中,而是選擇了一條更契合自身歷史基因的道路。根據(jù)其領導層在多個場合的闡述,商湯當下的核心戰(zhàn)略,是利用其深厚的視覺理解能力,將公司定位在多模態(tài)基礎模型及其在具身智能等領域的應用之上。
1
多模態(tài)的新故事:當行業(yè)覺得“卷不動”時
多模態(tài)這個概念在行業(yè)里已被討論多年,各家都在布局,以至于很多人覺得這已是一個重要但缺乏新突破的領域。然而,商湯提出了一個更具挑戰(zhàn)性的想法:要實現(xiàn)更高階的智能,AI的多模態(tài)能力需要再往前走一步,從信息的“融合理解”深入到“動態(tài)思考”的核心。
在與我們的交流中,商湯科技聯(lián)合創(chuàng)始人、執(zhí)行董事、首席科學家林達華闡述了這意味著什么。他認為,AI的思考過程不應是純文本的,而是應該能不斷生成新的圖像進行推演,這便是“圖文交錯的思維鏈”。
要走通這條窄門,挑戰(zhàn)巨大。首先是數(shù)據(jù),能體現(xiàn)人類思考過程的數(shù)據(jù)天然是稀缺的。商湯的解法之一,是以少量專家數(shù)據(jù)為種子,用AI為AI造出大量包含推理過程的合成數(shù)據(jù),以提升訓練數(shù)據(jù)的“思維密度”。
其次是成本。為了在控制成本的同時實現(xiàn)復雜推理,商湯在這次發(fā)布的日日新6.5多模態(tài)大模型上,對架構進行了創(chuàng)新。其模型體系采用了超過6000億參數(shù)的混合專家(MoE)架構。林達華在采訪中提到,他們采用了一種“更扁平的視覺編碼器搭配更縱深的語言模型中樞”的新設計,讓模型“視覺上敏捷,思考上有深度”。根據(jù)公布的數(shù)據(jù),新架構使得性價比提升了三倍,推理成本只有原來的30%。一個150億參數(shù)的輕量模型,性能已能在多數(shù)維度上達到過去6000億參數(shù)模型的95%。
1
寬路:從Agent到物理伙伴
一個更強大、更高效的模型,最終要通過Agent來體現(xiàn)價值。商湯的Agent家族小浣熊,其核心應用之一便是處理復雜的數(shù)據(jù)分析任務。
現(xiàn)實世界中的Excel表格,往往充滿了合并單元格、多個子表和混雜的圖文,是典型的多模態(tài)難題。在一個頭部客戶的實際測試中,面對這類任務,小浣熊的表現(xiàn)比當時更新的DeepSeek模型,依然有十分左右的優(yōu)勢。這種在關鍵應用上的性能差異,直接體現(xiàn)了其底層模型在強推理能力上的不同。
小浣熊領先的復雜數(shù)據(jù)分析能力
商湯對Agent的構想,并不局限于小浣熊這樣的數(shù)字Agent形態(tài)。在今年的WAIC展區(qū),商湯展示了一個由眾多硬件伙伴構成的應用生態(tài),包括元蘿卜下棋機器人、小米AI眼鏡,以及來自鈦虎、傅利葉等公司的人形機器人。
當然,打造一個開放的硬件生態(tài)也并非易事。相比蘋果或特斯拉那種軟硬一體、高度垂直整合的模式,平臺賦能的路線需要解決生態(tài)伙伴技術水平參差不齊、最終用戶體驗難以完全統(tǒng)一等問題。
商湯在其中扮演的是核心技術提供者的角色。林達華在采訪中解釋了硬件廠商選擇合作的原因:大部分硬件廠商,特別是智能玩具等消費電子公司,對成本高度敏感,因此并不具備自研頂尖交互模型的能力。商湯提供了一個它們亟需的、開箱即用的智能大腦。至此,商湯的Agent戰(zhàn)略版圖變得清晰:以小浣熊這樣的數(shù)字Agent深入企業(yè)的生產流程,再以賦能硬件的物理形態(tài)進入人們的日常生活。
1
一場需要“沿途下蛋”的馬拉松
從Agent到機器人,再到讓它們與物理世界交互,商湯的布局也自然地延展到了具身智能這一前沿領域。這次WAIC上,商湯正式發(fā)布了“悟能”具身智能平臺。該平臺以商湯的具身世界模型為核心,旨在為機器人等終端提供強大的感知、導航和交互能力。徐立展示的“在真實世界開極品飛車”的Demo,就展示了其“開悟”世界模型在生成高保真、可交互場景方面的能力。
對未來的想象和布局上,也讓我們看到了AI巨頭們理解上的差異。谷歌DeepMind的領導者德米斯·哈薩比斯在近期一次廣為流傳的播客訪談中構想,AGI的終極體現(xiàn)是破解聚變能源、模擬完整細胞,解決人類最根本的科學挑戰(zhàn)。
在林達華看來,真正意義上的Intelligence——智能的定義,就是一個智能體或者“人”它跟這個世界自主交互的能力。而這里面包括很多不同的維度,比如感知、推理、決策等等。商湯的路徑,是先讓AI成為能讀懂財報、看懂圖紙、幫你規(guī)劃旅行的得力助手。一個看似仰望星空,一個似乎腳踏實地。但后者的路徑,恰恰是離當前企業(yè)和用戶的真實痛點最近,也是最快能創(chuàng)造商業(yè)價值的領域。
在中長期戰(zhàn)略上,商湯的思考傾向于在把基礎模型做好的同時,打造很多個能深入場景變革生產力、重塑工作范式的專業(yè)Agent,互相形成組合,最終實現(xiàn)可持續(xù)的商業(yè)閉環(huán),而非一個什么都能干的“超級智能體”。因為后者的成本在真實商業(yè)場景中可能難以承受。另一個,就是與合作伙伴一起推動像具身智能的發(fā)展。
這種選擇的背后,是商湯對AGI發(fā)展路徑的核心判斷,它不是一場百米沖刺,而是需要付出很長時間和努力的長跑。
在這場艱苦的競賽中,一時的技術突破固然重要,但能否跑到最后,更在于能否建立一個可持續(xù)的商業(yè)閉環(huán)。商湯的策略,被林達華在采訪中概括為“沿途下蛋”。即在追求AGI這個遠大目標的過程中,必須在沿途不斷創(chuàng)造出能自我造血的商業(yè)價值。無論是小浣熊,還是硬件生態(tài),都是商湯在長跑路上“生下的蛋”。它們不僅能為研發(fā)提供資金反哺,更能讓技術在真實應用中獲得最寶貴的反饋。
這種務實的哲學,并非憑空而來,而是源于商湯過去十年在AI浪潮起伏中的經驗沉淀。一家經歷過技術hype與現(xiàn)實挑戰(zhàn)的公司,對什么是真正有價值的東西,會形成自己的判斷。林達華在采訪結尾的一句話,或許能作為注腳:“AI行業(yè)之所以曾出現(xiàn)過冬天,就是因為技術無法落地,人們用不上,它就失去了價值”。
從WAIC上那個會講PPT的機器人開始,我們所看到的,是一個多層戰(zhàn)略的物理體現(xiàn),一條對多模態(tài)認知的技術窄路,一個軟硬一體的商業(yè)寬路,以及一個為跑贏AGI馬拉松而設計的、可持續(xù)的發(fā)展哲學。
點個愛心,再走吧
毒舌甜寵虐戀《許你情深深似?!烦x行——全員CP就他單身
毒舌甜寵虐戀《許你情深深似海》楚晉行——全員CP就他單身《許你情深深似?!酚置秮子薪鳌?,作者:魚不語。全文人物對話詼諧有趣,無論是懟人還是被懟,語言犀利干脆,總是讓人耳目一新--。女主姜西:學霸一枚,三觀超正,不作不圣母,主打人不犯我我不犯人,懟人功夫全文第一||。男主秦佔:深城三惡之首,外人面前冷傲強大,懟人 短評:魚不語經典之作,《許你情深深似?!匪⒉荒仯彝ソ處烿S黑面閻王。初見,閔姜西是面試的家庭教師,秦佔卻誤以為是投懷送抱的女人|。從此,她白天是熊孩子的老師,晚上,是黑面閻王的擋箭牌-。他的所有桃花都恨不得將她拆之入腹。她罷工跑路,他千里追妻:“女人,我包的可是歲歲年年……”內容賞析:..真心安利《許你情深深似?!繁刈x章節(jié)錯過它是你的遺憾!