智東西作者ZeR0編輯漠影
智東西7月29日報道,在世界人工智能大會WAIC2025上,商湯科技發(fā)布全新「日日新SenseNovaV6.5」大模型體系、「悟能」具身智能平臺,商湯旗下核心產品商湯小浣熊也完成智能體升級。
日日新V6.5重點升級了強推理、高效率、智能體三大能力,率先突破圖文交錯思維鏈技術,同時改進多模態(tài)模型的融合架構,相比V6.0顯著提升性價比,文本推理能力和多模態(tài)推理能力超越Gemini2.5Pro、Claude-4Sonnet,多模態(tài)交互能力超越Gemini2.5Flash和GPT-4o。
此次發(fā)布的為什么是V6.5,還不是V7?全國工商聯人工智能委員會主席團首任輪值主席、商湯科技董事長兼CEO徐立解釋說,因為多模態(tài)思維鏈構造數據還能做到更大的擴充,所以利用商湯原來視覺感知的能力,再加上視覺和文本之間關系的建立,多模態(tài)思維鏈構造能進一步助力其基模型核心能力提升。
基于日日新V6.5的多模態(tài)數據分析能力,綜合智能助手商湯小浣熊升級,支持多模態(tài)復雜輸入、多模態(tài)融合深入分析、多模態(tài)結果輸出,在數據分析和智能體領域的實測中達到國際標桿Claude4Opus的水平,大幅領先OpenAIo3等模型。
商湯還推出了面向特定場景的商湯小浣熊教育版和商湯小浣熊金融版。截至目前,“商湯小浣熊家族”產品矩陣已廣泛服務多行業(yè)企業(yè),用戶數量實現1000萬+。
面向具身智能領域,商湯提供基于其世界模型的「悟能」具身智能平臺,可為機器人等各種終端硬件提供感知理解能力,并支持嵌入到端側芯片,靈活適配不同場景。
一、日日新V6.5:三大升級,多模態(tài)推理與交互性能大幅提升
商湯「日日新V6.5」多模態(tài)基座大模型帶來三大升級:
強推理:圖文交錯多模態(tài)思維鏈,推理性能比肩Gemini2.5Pro、Claude-4Sonnet;高效率:多模態(tài)架構優(yōu)化,性價比提升3倍以上;智能體:數據分析大幅領先,支持端到端的場景落地,實現價值閉環(huán)。
通過多模態(tài)思維鏈數據進階圖文交錯思維鏈數據合成,商湯「日日新V6.5」多模態(tài)推理與交互性能實現了大幅提升:文本推理能力和多模態(tài)推理大幅提升,超越Gemini2.5Pro、Claude-4Sonnet;多模態(tài)交互能力超越Gemini2.5Flash和GPT-4o,各方面性能突出。
商湯「日日新V6.5」率先突破圖文交錯思維鏈技術,在大模型中引入形象思維,成為國內首個實現圖文交錯思維的商業(yè)級大模型。
在人類的思考中,形象思維和邏輯思維同等重要,兩者有機結合才能形成全面的思維能力。所謂“一圖勝千言”,一幅圖往往比大段文字更能引發(fā)有效思考。當前,主流的多模態(tài)模型雖然已經實現了在輸入端融合多種模態(tài),但思考推理過程依然主要依賴語言推理,圖形和空間推理仍存在短板。
多模態(tài)思維鏈構造的關鍵在于信息的圖形化表達,相比純文本思維鏈更具挑戰(zhàn),不僅要呈現文字思考過程,還需生成作為思考節(jié)點的圖像,難以通過純人工方式大規(guī)模實現。
商湯研發(fā)團隊先基于對思維過程的理解構造種子數據,經監(jiān)督微調(SFT)訓練讓模型初步具備圖文交錯思考能力,再通過多輪強化學習顯著提升多模態(tài)推理能力。
同時,商湯改進了多模態(tài)模型的融合架構,促進跨模態(tài)早期融合。新架構采用了顯著變輕的視覺編碼器,以及深而窄的主干模型,使得視覺表征在前饋計算早期就與語言進行對齊和交融,從而令感知更高效,模態(tài)融合更深。
得益于模型架構的改進,商湯日日新V6.5在實現成本優(yōu)化的同時,預訓練吞吐量提升了20%以上,強化學習效率提升了40%,推理吞吐量提升了35%以上,取得性能和成本的平衡:相較日日新V6.0,日日新V6.5將性價比提升了3倍。
二、綜合智能助手商湯小浣熊升級,要打造“辦公最強智能體”
大語言模型已成為不少人的工作輔助工具,但僅靠大語言模型,不足以讓AI完成從“工具”向“人”的躍升。
人類的日常任務活動,天然涉及對文本、圖像、視頻、網頁等多模態(tài)信息的處理。從生產力工具到生產力,關鍵就在于多模態(tài)信息的輸入、處理與輸出能力。
基于「日日新V6.5」的多模態(tài)數據分析能力,商湯小浣熊全面升級:能夠勝任多模態(tài)復雜輸入,進行多模態(tài)融合深入分析,給出多模態(tài)結果輸出,實現專業(yè)的可視化呈現,打造“辦公場景的AI生產力”。
同時,商湯小浣熊始終保持世界領先的復雜數據分析能力。在客戶場景的綜合測試中,小浣熊達到在數據分析和智能體領域的國際標桿Claude4Opus的水平,大幅領先OpenAIo3等模型,在時序計算、數據匹配、數理計算和異常檢測等任務中,準確率均可接近100%。
現實辦公場景中,數據輸入形式極為復雜。在數據分析場景中,截圖、文檔和PDF等各類文檔樣式屢見不鮮,而其中結構化信息及表格僅占約70%。即便是看似基礎的Excel表格,也常包含合并單元格、缺失值、嵌套子表格及內嵌圖表等復雜元素,大幅提升處理難度。
商湯小浣熊能以多模態(tài)思維實現全局分析,通過思維鏈構造進行多步思考與反思,最終輸出結構化的結果。
一個表格看著簡單,背后的邏輯因果卻非常復雜,如今商湯小浣熊可以讓復雜表格簡單化。
用戶上傳包含合并單元格、缺失值、子表格、內嵌圖表及外部圖片的復雜Excel表格。商湯小浣熊能夠精準解析表格內容,建立子表格間的邏輯關聯,最終生成完整的分析報告。
再比如一個復雜輸入的用戶案例,小商戶在抖音等視頻平臺刷到有用的表格內容,截圖后上傳。商湯小浣熊可以通過圖片信息分解任務并去除干擾,提取表格信息,一鍵導出可編輯的Excel表格供用戶填寫,輸入、分析、輸出全程都有多模態(tài)能力支持順暢進行。
傳統(tǒng)AI工具多扮演輔助角色,核心工作仍依賴用戶主導完成;而商湯小浣熊實現了交互范式的升級——由AI主動承擔核心任務,并通過精準提問和用戶確認關鍵信息,交互邏輯如同同事協(xié)作。
商湯小浣熊任務規(guī)劃功能的新穎交互模式,更利于用戶理解。
以前段時間大火的“蘇超”為例,用戶上傳圖像表格,要求分析“蘇超”TOP球員。商湯小浣熊會自動抓取網上信息,并依托專家知識生成任務清單(如確定“TOP5”標準,分析青訓成績等)進行系統(tǒng)性分析,最終生成高質量分析文檔,還可導出為Excel、PPT、HTML等可編輯格式。
整體流程如下:
放大來看,AI是這么做任務拆解與規(guī)劃的:
當接收任務后,小浣熊會主動梳理任務細節(jié),就關鍵節(jié)點向用戶提出明確問題(如“是否需要按以下1、2、3點推進?”),以確保任務方向準確,真正實現“AI主導干活、用戶決策把關”的高效模式。
接下來就能依據專家知識生成任務清單(如確定“TOP5”標準,分析青訓成績等)進行系統(tǒng)性分析,下一步該做什么、可以怎么商量著做一目了然。
專業(yè)數據+工具調用,實現高質量內容過程:
最終生成高質量分析文檔,還可導出為Excel、PPT、HTML等可編輯格式。
憑借復雜任務處理能力,商湯小浣熊加速向行業(yè)滲透,此次推出了面向兩大具體場景的特制版本——教育版和金融版。
商湯小浣熊教育版可智能分析學生學習表現、課程效果、學習行為模式分析,已覆蓋500+院校、10余種教育場景、25萬+教師和學生,并已在多所學校協(xié)助教研團隊,幫助學生提升學習效率15~30%,降低學業(yè)焦慮發(fā)生率40%,課堂參與度提高2.1倍,資源錯配率降低30%,心理健康干預及時性提升了50%。
商湯小浣熊金融版可為金融業(yè)提供知識助手、智能問數、多模態(tài)智能理賠產品與解決方案,構建金融領域的“人機協(xié)同”智能決策新范式。
三、「悟能」具身智能平臺:讓機器人自然講解PPT,可構建4D真實世界
商湯「悟能」具身智能平臺以商湯具身世界模型為核心引擎,依托商湯大裝置提供端側和云側算力支持,能夠為機器人、智能設備提供強大的感知、視覺導航及多模態(tài)交互能力,推動智能終端向更高層次的自主化與智能化演進。
商湯的世界模型叫“開悟”,“悟能”是“開悟智能”的縮寫。
該平臺可賦能機器人等各種終端硬件,實現對世界萬物的感知理解能力,并支持嵌入到端側芯片,具有強大的場景適配性。
徐立展示了搭載具身世界引擎的人形機器人。它能生動講解“長安的荔枝”PPT的效果,語言自然,風趣幽默,不僅可以自動翻頁,還能回答各類問題,并進行階段性小結。
商湯具身世界模型可生成多視角視頻,并確保良好的時間一致性和空間一致性,讓機器能夠理解、生成、編輯真實世界,在空間層面實現世界交互,讓“在真實的街道場景中玩‘極品飛車’”成為可能。
該模型還能構建面向人、物、場的4D真實世界。用戶僅需要輸入簡單的提示詞,比如“在廚房區(qū)域的架子上找東西”,“進入娛樂室、向右轉,然后打開通往院子的門”等等,具身世界模型就能自主進行位姿、動作骨架和指令的生成。
徐立說,有了這樣的一套模型,有了這樣賦能的一個基礎,「悟能」具身智能平臺最終能幫助各種各樣具身智能企業(yè)實現跟現實世界交互的夢想。
在世界人工智能大會展區(qū),商湯科技的展臺吸引了大量參觀者駐足,一個會解說PPT的人形機器人成為全場焦點。
這臺機器人基于商湯最新的日日新V6.5多模態(tài)大模型,擁有強大的音視頻處理和AI交互能力,能像人一樣,邊翻頁講解PPT,邊應答觀眾提問,即便在嘈雜的環(huán)境中,也能完成實時、流暢的互動。
傅利葉、鈦虎、鹿明、鯨魚AI、帕西尼等多家機器人也亮相商湯展臺。
在商湯聯合生態(tài)伙伴“朋友圈”打造的智能生態(tài)硬件展區(qū),各類基于日日新V6.5多模態(tài)大模型的智能硬件產品琳瑯滿目,有能和人類一樣對弈下棋的元蘿卜AI下棋機器人、能給孩子講解各種知識的靈宇宙隨身學伴、全球首款寵物喂養(yǎng)AI毛絨玩具、芙崽AI養(yǎng)成潮玩等,展現了AI給生活、學習帶來的全新體驗。
商湯還全面展示了AI基礎設施商湯大裝置,“開悟”世界模型,以及商湯商量、辦公小浣熊、代碼小浣熊、咔皮記賬、咔皮action、如影數字人、Seko短片創(chuàng)作Agent等各類AI原生應用,還有面向商業(yè)的金融智腦、AI問客多模態(tài)文旅講解產品、SensePedia企業(yè)級智能知識平臺、面向智慧城市的Monolith新一代感知模型生產平臺等創(chuàng)新成果。
結語:錨定多模態(tài)能力,提升生產力和交互體驗
1950年,圖靈通過“模仿游戲”將AI定義為“類人能力”,但實際的AI一直未能擺脫“工具”的范疇,一度陷入發(fā)展低谷。而在大模型時代,AI憑借多模態(tài)融合能力的突破,逐步觸達AGI邊界,真正開始向“類人”標準靠近。
從學習到陪伴再到服務,大模型正把“智能”搬進現實生活。商湯科技通過日日新V6.5,用多模態(tài)能力來推動生產力和交互體驗提升,與行業(yè)共赴下一階段AI進化的新征程。
“商湯科技始終探尋人工智能本質,以技術創(chuàng)新激發(fā)最大智能,推動AI完成從‘工具’到‘人’的躍遷,成為真正的生產力?!毙炝⒄f。
窮游西湖——閱讀與寫作:在環(huán)境描寫中展示人物活動的場所(下)
《儒林外史》嚴監(jiān)生,是真的守財奴嗎?
戛納爛片之首來了??澎湃在線