蔡淑依
克雷西發(fā)自凹非寺量子位|公眾號QbitAI
WAIC2025大模型論壇上,商湯科技正式發(fā)布了「悟能」具身智能平臺,官宣入局具身智能。
以此為出發(fā)點,商湯科技在具身智能領(lǐng)域的布局也開始浮出水面。
站在這個具身智能的風(fēng)口之上,商湯選擇此時入局,體現(xiàn)了怎樣的思考,其背后又有著怎樣的積淀?
吸引AI頭部企業(yè)、初創(chuàng)公司和投資者們紛紛踏足,具身智能又究竟發(fā)展到了哪一步?
在這場論壇上,這些問題的答案被一一揭開。
新型多模態(tài)模型亮相WAIC
先來看商湯發(fā)布的日日新V6.5多模態(tài)推理大模型。
日日新6.5獨創(chuàng)了圖文交錯思維鏈,跨模態(tài)推理精度顯著提升。
傳統(tǒng)的多模態(tài)推理模型,在推理之前會將圖像轉(zhuǎn)變成文本解讀,后續(xù)的推理過程就變成了純文本。
而在圖文交錯思維鏈當(dāng)中,圖像會以本體的形式參與到整個推理過程。
在這種圖文混合的思考模式下,日日新6.5的多媒體推理能力在多個數(shù)據(jù)集上都超越了Gemini2.5Pro。
同時依托輕量Vision?Encoder?+和縱深LLM架構(gòu),日日新6.5相比6.0表現(xiàn)提升了6.99%,但推理成本只有日日新6.0的30%,綜合算下來性價比提升了5倍。
隨著模型能力提升,商湯在大模型落地上,就不止做“賣軟件”的生意,還做“賣大腦”的生意。
從多模態(tài)模型到具身智能大腦
其實,商湯能夠高調(diào)切入具身智能,是其從感知視覺、多模態(tài),走向物理世界交互的必然結(jié)果。
商湯科技聯(lián)合創(chuàng)始人、執(zhí)行董事、首席科學(xué)家林達(dá)華認(rèn)為,多模態(tài)是邁向AGI的必經(jīng)之路。因此,只有能夠同時“讀文本、看世界、動手腳”,AI才可能真正理解并改造物理環(huán)境。
而且超過十年的行業(yè)落地經(jīng)驗,包括在自動駕駛領(lǐng)域的成功實踐,也讓商湯在感知、定位、軌跡規(guī)劃和安全冗余等方面累積了大量真實數(shù)據(jù)與世界模型經(jīng)驗。
這些能力遷移到機器人等具身形態(tài)——相當(dāng)于先在“會開車的大機器人”身上練兵,再擴展到泛化的移動與操作場景。
因此,商湯繼「開悟」世界模型之后,發(fā)布全新「悟能」具身智能平臺。一端承接日日新多模態(tài)大模型的通用能力,一端擁有打造和使用世界模型進行訓(xùn)練的經(jīng)驗,進而打造生態(tài)體系。
「開悟」世界模型背后包括商湯積累的10萬3D資產(chǎn),支持多視角視頻生成,最多可以同時生成11個攝像頭角度視頻,并在長達(dá)150s的時間保持時空一致。
空間上,它可以理解遮擋、前后層級,讓同一物體在不同視角下呈現(xiàn)一致外觀。
時間上,它能夠理解時序和運動規(guī)律,讓物體在時間推移中保持自然連貫的變化。
并且支持參數(shù)化編輯,天氣、光照、道路,以及路上的車輛,都支持一鍵變換。
在具身智能場景中,還可以同時處理人、物、場,構(gòu)建4D的真實世界。
并且這種世界同時包含了第一和第三視角。
這樣做的目的,是同時滿足“機器人自己看到什么”與“人類示范動作長什么樣”這兩類信息的互補需求。
第一視角是機器人在真實運行時唯一能獲取的感知流,它決定了模型推理時的輸入分布;第三視角則能完整捕捉人類或機器人全身的姿態(tài)骨骼和環(huán)境關(guān)系,為動作意圖、路徑規(guī)劃提供清晰標(biāo)簽。
將兩種視角對齊訓(xùn)練,可以讓模型學(xué)會把外部示范映射成自身可用的感覺?動作對,一方面顯著減少昂貴的遙操作數(shù)據(jù)量,另一方面提高跨機器人、跨場景的泛化能力,使同一個“大腦”既能看懂人類演示,也能在自己的相機視角下執(zhí)行,從而加速具身智能落地。
基于「開悟」世界模型,商湯科技推出了「悟能」具身智能平臺架構(gòu),包含感知、決策與行動等多個層次:
感知層:視覺/語音/觸覺多傳感輸入;決策層:LLM+世界模型協(xié)同規(guī)劃;行動層:VLA端到端控制機械臂、移動底盤。
這一大腦,能夠支持自動駕駛、機器人、機器狗等具身場景中的感知、導(dǎo)航、交互等功能。
在具身智能落地上,商湯選擇“軟硬協(xié)同”路線。目前已與眾多人形機器人、物流搬運底盤廠商、家用陪伴平臺等伙伴達(dá)成合作,將T模型預(yù)裝進不同形態(tài)的機器人,讓硬件天然具備多模態(tài)感知和推理能力。
未來,隨著硬件越賣越多,回流的視覺、語音和操作數(shù)據(jù)也越豐富,進一步反哺模型迭代,形成正向的數(shù)據(jù)飛輪。
破解具身智能行業(yè)難題
除了發(fā)布新產(chǎn)品,商湯還在這次論壇上組織具身智能行業(yè)從業(yè)者以及學(xué)術(shù)界人士,一起探討了具身世界模型發(fā)展的關(guān)鍵問題。
圓桌討論首先聚焦的問題,依然是數(shù)據(jù)稀缺——一個具身智能從業(yè)者面臨的共同痛點。
北京大學(xué)助理教授、智源學(xué)者、銀河通用創(chuàng)始人兼CTO王鶴介紹了他的解決方案——先在虛擬環(huán)境把pick?and?place做到幾乎與現(xiàn)實一致,再用少量真機樣本校正長尾場景。
而商湯“開悟”世界模型恰好承接了“99%”的合成任務(wù),能夠批量生成長時多攝像一致的視頻。
商湯與傅利葉等伙伴合作推出的超千萬數(shù)量級的機器人,則源源不斷回流那關(guān)鍵“1%”的真實視覺、語音和操作日志,二者形成互補閉環(huán),解決了數(shù)據(jù)從量到質(zhì)的難題。
當(dāng)然,數(shù)據(jù)只有“量”還遠(yuǎn)遠(yuǎn)不夠,商湯聯(lián)合創(chuàng)始人、執(zhí)行董事、CTO王曉剛認(rèn)為,僅有機器人本身攝像頭的第一視角并不夠,上帝俯瞰的第三視角能補全肢體骨骼與全局語義;只有把兩種視角對齊,端到端訓(xùn)練才能兼顧感知與動作。
澳大利亞科學(xué)院院士、南洋理工大學(xué)教授陶大程進一步指出,第一視角不僅要看圖像,還要疊加深度、慣性、力覺等多傳感器流,才能完整地捕捉“感知—意圖—行動”閉環(huán)。
為此,商湯在世界模型中同步生成并標(biāo)定第一和第三視角數(shù)據(jù),確保時空一致,再映射回端側(cè)傳感器,讓機器人既“看自己”也“學(xué)別人”,從而縮短仿真與現(xiàn)實之間的落差。
這一做法也契合圓桌嘉賓關(guān)于“視角一致性決定遷移效果”形成的共識。
關(guān)于模型路線的取舍,同樣引發(fā)了熱議。
上海交通大學(xué)人工智能學(xué)院副院長、上海穹徹智能科技創(chuàng)始人盧策吾認(rèn)為,必須兼顧通用與場景閉環(huán)。
上海市信息投資股份有限公司副總裁、庫帕斯科技董事長山棟明則從投資與供應(yīng)鏈角度呼應(yīng)這一觀點。他認(rèn)為當(dāng)下只要能把設(shè)備鋪出去,真實數(shù)據(jù)自然會涌回。
商湯正在驗證這條“雙輪”路徑——多模態(tài)大模型日日新V6.5提供跨領(lǐng)域能力,垂直應(yīng)用不斷把真實反饋注入基座,驅(qū)動模型滾動升級。
綜合來看,商湯通過世界模型的大規(guī)模仿真、合作硬件的真實數(shù)據(jù)回流、第一與第三視角的融合標(biāo)注,以及“通用大腦+場景閉環(huán)”的協(xié)同演進,把數(shù)據(jù)、算法與硬件生態(tài)織成了一條自循環(huán)鏈。
商湯的數(shù)據(jù)飛輪已起步,正全速領(lǐng)跑未來賽道,將通過多模態(tài)與硬件協(xié)同,共筑具身智能護城河。
從工業(yè)到家庭,千萬數(shù)量級機器人將承載這顆具身大腦。
《仙王歸來!王令第五季震撼上映,獨家揭秘新劇情》
優(yōu)酷、騰訊視頻等平臺2024年1-2月排播檔期中,2月10日00:00-24:00時段出現(xiàn)連續(xù)12小時動漫專區(qū)的空檔期,系統(tǒng)自動填充的備播片單包含《仙王日?!返谖寮绢A(yù)告片,但已刪除所有關(guān)鍵詞。 (疑問環(huán)節(jié):你準(zhǔn)備好迎接第五季了嗎?在評論區(qū)留下你的入坑時間,點贊最高的三位將獲贈官方新春限定周邊?。?二、第五還有呢?
仙王的日常生活:來自觀眾的疑問,官方能解答這些問題再完結(jié)嗎...
來源:紅網(wǎng)
作者:紀(jì)天
編輯:拱如曼
本文為紅辣椒評論 原創(chuàng)文章,僅系作者個人觀點,不代表紅網(wǎng)立場。轉(zhuǎn)載請附原文出處鏈接和本聲明。