網(wǎng)友預(yù)定一餐廳要排隊(duì) 13 年才能吃上,餐廳稱(chēng)每周只接待一桌食客,如何看待這種商業(yè)模式?合理嗎?
再探東北大學(xué)學(xué)生遇難選礦廠:狹窄的參觀通道與脫落的格柵板
父母報(bào)了江浙滬出發(fā) 699 元六天五晚的越南芽莊旅行團(tuán),靠譜嗎?可能會(huì)踩哪些坑?
作者|周一笑郵箱|zhouyixiao@pingwest.com
在今年世界人工智能大會(huì)上,一個(gè)頗為引人注目的場(chǎng)景,主角是一個(gè)人形機(jī)器人。它獨(dú)自站在臺(tái)上,自主講解著一份關(guān)于唐代荔枝運(yùn)輸史的PPT。
根據(jù)商湯科技董事長(zhǎng)兼CEO徐立在“大愛(ài)無(wú)疆·模塑未來(lái)”大模型論壇上的介紹,這個(gè)機(jī)器人不僅語(yǔ)言風(fēng)趣,能自行控制PPT翻頁(yè),甚至可以在回答完臺(tái)下觀眾的提問(wèn)后,無(wú)縫銜接回自己原來(lái)的講稿。這種流暢度,已經(jīng)超出了簡(jiǎn)單程序控制的范疇,更像一個(gè)具備了初步理解和記憶能力的講解員。
這看似輕松的演示,背后恰恰是當(dāng)前AI領(lǐng)域的核心難題,如何讓視覺(jué)理解、語(yǔ)言生成、情境記憶、人機(jī)交互等多種能力無(wú)縫協(xié)作。正是這種對(duì)綜合能力的更高要求,促使行業(yè)開(kāi)始重新審視過(guò)去幾年的主流發(fā)展路徑。
過(guò)去幾年,行業(yè)一度信奉“大力出奇跡”的路徑。但在2025年的今天,這條路正面臨清晰的邊界。正如行業(yè)普遍觀察到的,互聯(lián)網(wǎng)高質(zhì)量文本數(shù)據(jù)將在未來(lái)幾年內(nèi)耗盡,其增速已遠(yuǎn)落后于算力增長(zhǎng);同時(shí),真實(shí)環(huán)境下的主動(dòng)交互數(shù)據(jù)采集成本極高,成為了具身智能發(fā)展的核心瓶頸。單純“堆料”的模式,顯然已不足以支撐AI的持續(xù)進(jìn)化。
這正是商湯這家公司的特殊之處,作為一家在計(jì)算機(jī)視覺(jué)領(lǐng)域深耕了十年的公司,商湯的基因決定了它對(duì)世界的理解始于圖像和視頻。在生成式AI時(shí)代,商湯并未將自己局限在純語(yǔ)言模型的競(jìng)賽中,而是選擇了一條更契合自身歷史基因的道路。根據(jù)其領(lǐng)導(dǎo)層在多個(gè)場(chǎng)合的闡述,商湯當(dāng)下的核心戰(zhàn)略,是利用其深厚的視覺(jué)理解能力,將公司定位在多模態(tài)基礎(chǔ)模型及其在具身智能等領(lǐng)域的應(yīng)用之上。
1
多模態(tài)的新故事:當(dāng)行業(yè)覺(jué)得“卷不動(dòng)”時(shí)
多模態(tài)這個(gè)概念在行業(yè)里已被討論多年,各家都在布局,以至于很多人覺(jué)得這已是一個(gè)重要但缺乏新突破的領(lǐng)域。然而,商湯提出了一個(gè)更具挑戰(zhàn)性的想法:要實(shí)現(xiàn)更高階的智能,AI的多模態(tài)能力需要再往前走一步,從信息的“融合理解”深入到“動(dòng)態(tài)思考”的核心。
在與我們的交流中,商湯科技聯(lián)合創(chuàng)始人、執(zhí)行董事、首席科學(xué)家林達(dá)華闡述了這意味著什么。他認(rèn)為,AI的思考過(guò)程不應(yīng)是純文本的,而是應(yīng)該能不斷生成新的圖像進(jìn)行推演,這便是“圖文交錯(cuò)的思維鏈”。
要走通這條窄門(mén),挑戰(zhàn)巨大。首先是數(shù)據(jù),能體現(xiàn)人類(lèi)思考過(guò)程的數(shù)據(jù)天然是稀缺的。商湯的解法之一,是以少量專(zhuān)家數(shù)據(jù)為種子,用AI為AI造出大量包含推理過(guò)程的合成數(shù)據(jù),以提升訓(xùn)練數(shù)據(jù)的“思維密度”。
其次是成本。為了在控制成本的同時(shí)實(shí)現(xiàn)復(fù)雜推理,商湯在這次發(fā)布的日日新6.5多模態(tài)大模型上,對(duì)架構(gòu)進(jìn)行了創(chuàng)新。其模型體系采用了超過(guò)6000億參數(shù)的混合專(zhuān)家(MoE)架構(gòu)。林達(dá)華在采訪中提到,他們采用了一種“更扁平的視覺(jué)編碼器搭配更縱深的語(yǔ)言模型中樞”的新設(shè)計(jì),讓模型“視覺(jué)上敏捷,思考上有深度”。根據(jù)公布的數(shù)據(jù),新架構(gòu)使得性?xún)r(jià)比提升了三倍,推理成本只有原來(lái)的30%。一個(gè)150億參數(shù)的輕量模型,性能已能在多數(shù)維度上達(dá)到過(guò)去6000億參數(shù)模型的95%。
1
寬路:從Agent到物理伙伴
一個(gè)更強(qiáng)大、更高效的模型,最終要通過(guò)Agent來(lái)體現(xiàn)價(jià)值。商湯的Agent家族小浣熊,其核心應(yīng)用之一便是處理復(fù)雜的數(shù)據(jù)分析任務(wù)。
現(xiàn)實(shí)世界中的Excel表格,往往充滿(mǎn)了合并單元格、多個(gè)子表和混雜的圖文,是典型的多模態(tài)難題。在一個(gè)頭部客戶(hù)的實(shí)際測(cè)試中,面對(duì)這類(lèi)任務(wù),小浣熊的表現(xiàn)比當(dāng)時(shí)更新的DeepSeek模型,依然有十分左右的優(yōu)勢(shì)。這種在關(guān)鍵應(yīng)用上的性能差異,直接體現(xiàn)了其底層模型在強(qiáng)推理能力上的不同。
小浣熊領(lǐng)先的復(fù)雜數(shù)據(jù)分析能力
商湯對(duì)Agent的構(gòu)想,并不局限于小浣熊這樣的數(shù)字Agent形態(tài)。在今年的WAIC展區(qū),商湯展示了一個(gè)由眾多硬件伙伴構(gòu)成的應(yīng)用生態(tài),包括元蘿卜下棋機(jī)器人、小米AI眼鏡,以及來(lái)自鈦虎、傅利葉等公司的人形機(jī)器人。
當(dāng)然,打造一個(gè)開(kāi)放的硬件生態(tài)也并非易事。相比蘋(píng)果或特斯拉那種軟硬一體、高度垂直整合的模式,平臺(tái)賦能的路線需要解決生態(tài)伙伴技術(shù)水平參差不齊、最終用戶(hù)體驗(yàn)難以完全統(tǒng)一等問(wèn)題。
商湯在其中扮演的是核心技術(shù)提供者的角色。林達(dá)華在采訪中解釋了硬件廠商選擇合作的原因:大部分硬件廠商,特別是智能玩具等消費(fèi)電子公司,對(duì)成本高度敏感,因此并不具備自研頂尖交互模型的能力。商湯提供了一個(gè)它們亟需的、開(kāi)箱即用的智能大腦。至此,商湯的Agent戰(zhàn)略版圖變得清晰:以小浣熊這樣的數(shù)字Agent深入企業(yè)的生產(chǎn)流程,再以賦能硬件的物理形態(tài)進(jìn)入人們的日常生活。
1
一場(chǎng)需要“沿途下蛋”的馬拉松
從Agent到機(jī)器人,再到讓它們與物理世界交互,商湯的布局也自然地延展到了具身智能這一前沿領(lǐng)域。這次WAIC上,商湯正式發(fā)布了“悟能”具身智能平臺(tái)。該平臺(tái)以商湯的具身世界模型為核心,旨在為機(jī)器人等終端提供強(qiáng)大的感知、導(dǎo)航和交互能力。徐立展示的“在真實(shí)世界開(kāi)極品飛車(chē)”的Demo,就展示了其“開(kāi)悟”世界模型在生成高保真、可交互場(chǎng)景方面的能力。
對(duì)未來(lái)的想象和布局上,也讓我們看到了AI巨頭們理解上的差異。谷歌DeepMind的領(lǐng)導(dǎo)者德米斯·哈薩比斯在近期一次廣為流傳的播客訪談中構(gòu)想,AGI的終極體現(xiàn)是破解聚變能源、模擬完整細(xì)胞,解決人類(lèi)最根本的科學(xué)挑戰(zhàn)。
在林達(dá)華看來(lái),真正意義上的Intelligence——智能的定義,就是一個(gè)智能體或者“人”它跟這個(gè)世界自主交互的能力。而這里面包括很多不同的維度,比如感知、推理、決策等等。商湯的路徑,是先讓AI成為能讀懂財(cái)報(bào)、看懂圖紙、幫你規(guī)劃旅行的得力助手。一個(gè)看似仰望星空,一個(gè)似乎腳踏實(shí)地。但后者的路徑,恰恰是離當(dāng)前企業(yè)和用戶(hù)的真實(shí)痛點(diǎn)最近,也是最快能創(chuàng)造商業(yè)價(jià)值的領(lǐng)域。
在中長(zhǎng)期戰(zhàn)略上,商湯的思考傾向于在把基礎(chǔ)模型做好的同時(shí),打造很多個(gè)能深入場(chǎng)景變革生產(chǎn)力、重塑工作范式的專(zhuān)業(yè)Agent,互相形成組合,最終實(shí)現(xiàn)可持續(xù)的商業(yè)閉環(huán),而非一個(gè)什么都能干的“超級(jí)智能體”。因?yàn)楹笳叩某杀驹谡鎸?shí)商業(yè)場(chǎng)景中可能難以承受。另一個(gè),就是與合作伙伴一起推動(dòng)像具身智能的發(fā)展。
這種選擇的背后,是商湯對(duì)AGI發(fā)展路徑的核心判斷,它不是一場(chǎng)百米沖刺,而是需要付出很長(zhǎng)時(shí)間和努力的長(zhǎng)跑。
在這場(chǎng)艱苦的競(jìng)賽中,一時(shí)的技術(shù)突破固然重要,但能否跑到最后,更在于能否建立一個(gè)可持續(xù)的商業(yè)閉環(huán)。商湯的策略,被林達(dá)華在采訪中概括為“沿途下蛋”。即在追求AGI這個(gè)遠(yuǎn)大目標(biāo)的過(guò)程中,必須在沿途不斷創(chuàng)造出能自我造血的商業(yè)價(jià)值。無(wú)論是小浣熊,還是硬件生態(tài),都是商湯在長(zhǎng)跑路上“生下的蛋”。它們不僅能為研發(fā)提供資金反哺,更能讓技術(shù)在真實(shí)應(yīng)用中獲得最寶貴的反饋。
這種務(wù)實(shí)的哲學(xué),并非憑空而來(lái),而是源于商湯過(guò)去十年在AI浪潮起伏中的經(jīng)驗(yàn)沉淀。一家經(jīng)歷過(guò)技術(shù)hype與現(xiàn)實(shí)挑戰(zhàn)的公司,對(duì)什么是真正有價(jià)值的東西,會(huì)形成自己的判斷。林達(dá)華在采訪結(jié)尾的一句話,或許能作為注腳:“AI行業(yè)之所以曾出現(xiàn)過(guò)冬天,就是因?yàn)榧夹g(shù)無(wú)法落地,人們用不上,它就失去了價(jià)值”。
從WAIC上那個(gè)會(huì)講PPT的機(jī)器人開(kāi)始,我們所看到的,是一個(gè)多層戰(zhàn)略的物理體現(xiàn),一條對(duì)多模態(tài)認(rèn)知的技術(shù)窄路,一個(gè)軟硬一體的商業(yè)寬路,以及一個(gè)為跑贏AGI馬拉松而設(shè)計(jì)的、可持續(xù)的發(fā)展哲學(xué)。
點(diǎn)個(gè)愛(ài)心,再走吧
4本架空歷史小說(shuō)《梟臣》:一朝穿越卷入爭(zhēng)奪漩渦不甘心做太平犬
經(jīng)典歷史小說(shuō)大盤(pán)點(diǎn):歷史背景與豐富情節(jié)的完美結(jié)合
4部好看的歷史小說(shuō):每一本都堪稱(chēng)經(jīng)典神作,書(shū)荒者的福音!