克雷西發(fā)自凹非寺量子位|公眾號QbitAI
WAIC2025大模型論壇上,商湯科技正式發(fā)布了「悟能」具身智能平臺(tái),官宣入局具身智能。
以此為出發(fā)點(diǎn),商湯科技在具身智能領(lǐng)域的布局也開始浮出水面。
站在這個(gè)具身智能的風(fēng)口之上,商湯選擇此時(shí)入局,體現(xiàn)了怎樣的思考,其背后又有著怎樣的積淀?
吸引AI頭部企業(yè)、初創(chuàng)公司和投資者們紛紛踏足,具身智能又究竟發(fā)展到了哪一步?
在這場論壇上,這些問題的答案被一一揭開。
新型多模態(tài)模型亮相WAIC
先來看商湯發(fā)布的日日新V6.5多模態(tài)推理大模型。
日日新6.5獨(dú)創(chuàng)了圖文交錯(cuò)思維鏈,跨模態(tài)推理精度顯著提升。
傳統(tǒng)的多模態(tài)推理模型,在推理之前會(huì)將圖像轉(zhuǎn)變成文本解讀,后續(xù)的推理過程就變成了純文本。
而在圖文交錯(cuò)思維鏈當(dāng)中,圖像會(huì)以本體的形式參與到整個(gè)推理過程。
在這種圖文混合的思考模式下,日日新6.5的多媒體推理能力在多個(gè)數(shù)據(jù)集上都超越了Gemini2.5Pro。
同時(shí)依托輕量Vision?Encoder?+和縱深LLM架構(gòu),日日新6.5相比6.0表現(xiàn)提升了6.99%,但推理成本只有日日新6.0的30%,綜合算下來性價(jià)比提升了5倍。
隨著模型能力提升,商湯在大模型落地上,就不止做“賣軟件”的生意,還做“賣大腦”的生意。
從多模態(tài)模型到具身智能大腦
其實(shí),商湯能夠高調(diào)切入具身智能,是其從感知視覺、多模態(tài),走向物理世界交互的必然結(jié)果。
商湯科技聯(lián)合創(chuàng)始人、執(zhí)行董事、首席科學(xué)家林達(dá)華認(rèn)為,多模態(tài)是邁向AGI的必經(jīng)之路。因此,只有能夠同時(shí)“讀文本、看世界、動(dòng)手腳”,AI才可能真正理解并改造物理環(huán)境。
而且超過十年的行業(yè)落地經(jīng)驗(yàn),包括在自動(dòng)駕駛領(lǐng)域的成功實(shí)踐,也讓商湯在感知、定位、軌跡規(guī)劃和安全冗余等方面累積了大量真實(shí)數(shù)據(jù)與世界模型經(jīng)驗(yàn)。
這些能力遷移到機(jī)器人等具身形態(tài)——相當(dāng)于先在“會(huì)開車的大機(jī)器人”身上練兵,再擴(kuò)展到泛化的移動(dòng)與操作場景。
因此,商湯繼「開悟」世界模型之后,發(fā)布全新「悟能」具身智能平臺(tái)。一端承接日日新多模態(tài)大模型的通用能力,一端擁有打造和使用世界模型進(jìn)行訓(xùn)練的經(jīng)驗(yàn),進(jìn)而打造生態(tài)體系。
「開悟」世界模型背后包括商湯積累的10萬3D資產(chǎn),支持多視角視頻生成,最多可以同時(shí)生成11個(gè)攝像頭角度視頻,并在長達(dá)150s的時(shí)間保持時(shí)空一致。
空間上,它可以理解遮擋、前后層級,讓同一物體在不同視角下呈現(xiàn)一致外觀。
時(shí)間上,它能夠理解時(shí)序和運(yùn)動(dòng)規(guī)律,讓物體在時(shí)間推移中保持自然連貫的變化。
并且支持參數(shù)化編輯,天氣、光照、道路,以及路上的車輛,都支持一鍵變換。
在具身智能場景中,還可以同時(shí)處理人、物、場,構(gòu)建4D的真實(shí)世界。
并且這種世界同時(shí)包含了第一和第三視角。
這樣做的目的,是同時(shí)滿足“機(jī)器人自己看到什么”與“人類示范動(dòng)作長什么樣”這兩類信息的互補(bǔ)需求。
第一視角是機(jī)器人在真實(shí)運(yùn)行時(shí)唯一能獲取的感知流,它決定了模型推理時(shí)的輸入分布;第三視角則能完整捕捉人類或機(jī)器人全身的姿態(tài)骨骼和環(huán)境關(guān)系,為動(dòng)作意圖、路徑規(guī)劃提供清晰標(biāo)簽。
將兩種視角對齊訓(xùn)練,可以讓模型學(xué)會(huì)把外部示范映射成自身可用的感覺?動(dòng)作對,一方面顯著減少昂貴的遙操作數(shù)據(jù)量,另一方面提高跨機(jī)器人、跨場景的泛化能力,使同一個(gè)“大腦”既能看懂人類演示,也能在自己的相機(jī)視角下執(zhí)行,從而加速具身智能落地。
基于「開悟」世界模型,商湯科技推出了「悟能」具身智能平臺(tái)架構(gòu),包含感知、決策與行動(dòng)等多個(gè)層次:
感知層:視覺/語音/觸覺多傳感輸入;決策層:LLM+世界模型協(xié)同規(guī)劃;行動(dòng)層:VLA端到端控制機(jī)械臂、移動(dòng)底盤。
這一大腦,能夠支持自動(dòng)駕駛、機(jī)器人、機(jī)器狗等具身場景中的感知、導(dǎo)航、交互等功能。
在具身智能落地上,商湯選擇“軟硬協(xié)同”路線。目前已與眾多人形機(jī)器人、物流搬運(yùn)底盤廠商、家用陪伴平臺(tái)等伙伴達(dá)成合作,將T模型預(yù)裝進(jìn)不同形態(tài)的機(jī)器人,讓硬件天然具備多模態(tài)感知和推理能力。
未來,隨著硬件越賣越多,回流的視覺、語音和操作數(shù)據(jù)也越豐富,進(jìn)一步反哺模型迭代,形成正向的數(shù)據(jù)飛輪。
破解具身智能行業(yè)難題
除了發(fā)布新產(chǎn)品,商湯還在這次論壇上組織具身智能行業(yè)從業(yè)者以及學(xué)術(shù)界人士,一起探討了具身世界模型發(fā)展的關(guān)鍵問題。
圓桌討論首先聚焦的問題,依然是數(shù)據(jù)稀缺——一個(gè)具身智能從業(yè)者面臨的共同痛點(diǎn)。
北京大學(xué)助理教授、智源學(xué)者、銀河通用創(chuàng)始人兼CTO王鶴介紹了他的解決方案——先在虛擬環(huán)境把pick?and?place做到幾乎與現(xiàn)實(shí)一致,再用少量真機(jī)樣本校正長尾場景。
而商湯“開悟”世界模型恰好承接了“99%”的合成任務(wù),能夠批量生成長時(shí)多攝像一致的視頻。
商湯與傅利葉等伙伴合作推出的超千萬數(shù)量級的機(jī)器人,則源源不斷回流那關(guān)鍵“1%”的真實(shí)視覺、語音和操作日志,二者形成互補(bǔ)閉環(huán),解決了數(shù)據(jù)從量到質(zhì)的難題。
當(dāng)然,數(shù)據(jù)只有“量”還遠(yuǎn)遠(yuǎn)不夠,商湯聯(lián)合創(chuàng)始人、執(zhí)行董事、CTO王曉剛認(rèn)為,僅有機(jī)器人本身攝像頭的第一視角并不夠,上帝俯瞰的第三視角能補(bǔ)全肢體骨骼與全局語義;只有把兩種視角對齊,端到端訓(xùn)練才能兼顧感知與動(dòng)作。
澳大利亞科學(xué)院院士、南洋理工大學(xué)教授陶大程進(jìn)一步指出,第一視角不僅要看圖像,還要疊加深度、慣性、力覺等多傳感器流,才能完整地捕捉“感知—意圖—行動(dòng)”閉環(huán)。
為此,商湯在世界模型中同步生成并標(biāo)定第一和第三視角數(shù)據(jù),確保時(shí)空一致,再映射回端側(cè)傳感器,讓機(jī)器人既“看自己”也“學(xué)別人”,從而縮短仿真與現(xiàn)實(shí)之間的落差。
這一做法也契合圓桌嘉賓關(guān)于“視角一致性決定遷移效果”形成的共識。
關(guān)于模型路線的取舍,同樣引發(fā)了熱議。
上海交通大學(xué)人工智能學(xué)院副院長、上海穹徹智能科技創(chuàng)始人盧策吾認(rèn)為,必須兼顧通用與場景閉環(huán)。
上海市信息投資股份有限公司副總裁、庫帕斯科技董事長山棟明則從投資與供應(yīng)鏈角度呼應(yīng)這一觀點(diǎn)。他認(rèn)為當(dāng)下只要能把設(shè)備鋪出去,真實(shí)數(shù)據(jù)自然會(huì)涌回。
商湯正在驗(yàn)證這條“雙輪”路徑——多模態(tài)大模型日日新V6.5提供跨領(lǐng)域能力,垂直應(yīng)用不斷把真實(shí)反饋?zhàn)⑷牖?,?qū)動(dòng)模型滾動(dòng)升級。
綜合來看,商湯通過世界模型的大規(guī)模仿真、合作硬件的真實(shí)數(shù)據(jù)回流、第一與第三視角的融合標(biāo)注,以及“通用大腦+場景閉環(huán)”的協(xié)同演進(jìn),把數(shù)據(jù)、算法與硬件生態(tài)織成了一條自循環(huán)鏈。
商湯的數(shù)據(jù)飛輪已起步,正全速領(lǐng)跑未來賽道,將通過多模態(tài)與硬件協(xié)同,共筑具身智能護(hù)城河。
從工業(yè)到家庭,千萬數(shù)量級機(jī)器人將承載這顆具身大腦。
從身上不到1000元,到身家過億,馮侖:人生在世,扛住就是本事!
有了這筆錢,他們遷往北京,并將公司名稱更改為萬通。在馮侖的領(lǐng)導(dǎo)下,到1997年,萬通業(yè)務(wù)已經(jīng)覆蓋了七個(gè)省份和五大行業(yè),資產(chǎn)達(dá)到了70億_。這一年,馮侖僅僅38歲。他的創(chuàng)業(yè)經(jīng)歷充滿了傳奇色彩,盡管無法復(fù)制,但我們可以從中學(xué)習(xí)到許多東西。馮侖的一大特點(diǎn)就是能夠承受壓力,經(jīng)得住艱苦。他說:“承受壓力就是熬,就是 提起馮侖,可能很多人,并不是很清楚_??墒翘崞鹚麉⑴c創(chuàng)辦的地產(chǎn)集團(tuán)萬通,估計(jì)很多人就會(huì)恍然大悟。馮侖是第一屆正式大學(xué)生,1982年畢業(yè)于西北大學(xué)。1984年畢業(yè)于中央黨校__。表現(xiàn)有益的馮侖輕松地在畢業(yè)后獲得了留校任教的機(jī)會(huì)。但是他居然做了一個(gè)讓當(dāng)時(shí)所有人都覺得離經(jīng)叛道的決定--下海從商。于是,馮侖聯(lián)合6個(gè)志等我繼續(xù)說。稻盛和夫:35歲后體力智力雙下降,做這兩件事,你會(huì)越來越富有??職...