機(jī)器人開始成為今年世界人工智能大會(huì)(WAIC2025)的主角,這是WAIC自2018年首次舉辦以來的第一次。
包括智元、宇樹科技、銀河通用、靈初等在內(nèi)的幾乎所有人形機(jī)器人公司都有在上海世博展覽館設(shè)立展臺(tái),展示它們的機(jī)器人在過去一年中取得的進(jìn)展。與一年前比,這些機(jī)器人的本體,即身體硬件變化并不大,形態(tài)依然以雙足人形、輪式人形為主,但軟件部分開始出現(xiàn)范式變化——讓機(jī)器人可以從遙控進(jìn)化到自主行走。
包括智元、騰訊、商湯、生數(shù)科技等在內(nèi)的公司,都推出了應(yīng)用于指導(dǎo)機(jī)器人行動(dòng)的感知行動(dòng)模型,或用于預(yù)測(cè)下一步環(huán)境狀態(tài)的世界模型,這些模型都意在解決機(jī)器人與環(huán)境的交互問題,幫助機(jī)器人決定如何在真實(shí)物理世界中行走和執(zhí)行動(dòng)作。其中騰訊的加入可能是今年機(jī)器人領(lǐng)域的最大變量,它已在該領(lǐng)域投入7年,比現(xiàn)有多數(shù)人形機(jī)器人公司都久。
相較而言,大模型公司則低調(diào)很多。百川智能和零一萬物都沒有參加這次大會(huì);MiniMax和智譜除了設(shè)展臺(tái),沒有新品發(fā)布或產(chǎn)品進(jìn)度更新;月之暗面則與另一家公司共用展位——只占據(jù)了整個(gè)展臺(tái)的一個(gè)側(cè)面;只有階躍星辰在展會(huì)期間推出了新一代多模態(tài)模型Step3。
參與WAIC2025的模型類公司中,有一半公司在展示其模型對(duì)構(gòu)建agent類產(chǎn)品的支持能力,阿里巴巴、騰訊、百度、亞馬遜都給出了它們的agent開發(fā)平臺(tái),以及可以幫助普通用戶低代碼地開發(fā)一個(gè)應(yīng)用程序的AICoding工具。另一半,就是在為機(jī)器人提供具身智能模型。
大模型公司的低調(diào)與這個(gè)領(lǐng)域的節(jié)奏有關(guān)——它們基本都在今年上半年交出了追趕DeepSeek的成果。就在WAIC2025舉辦前一個(gè)月,國(guó)內(nèi)估值最高的兩家大模型公司MiniMax和月之暗面都剛剛才發(fā)布其類DeepSeek的模型。其中MiniMax一步到位發(fā)布了類DeepSeekR1的推理模型M1,月之暗面則發(fā)布了類DeepSeekR1前身——DeepSeekV3——的模型K2。在DeepSeek的模型矩陣中,V3是個(gè)普通的預(yù)訓(xùn)練模型,而R1是基于V3進(jìn)行強(qiáng)化學(xué)習(xí)后得到的有推理能力的模型。月之暗面內(nèi)部人士對(duì)第一財(cái)經(jīng)「新皮層」稱,月之暗面將在接下來的某個(gè)時(shí)間推出類R1的推理模型。
MiniMax和月之暗面目前正在爭(zhēng)奪開源模型社區(qū)的第一名。兩家公司分別聲稱,它們?cè)陂_源社區(qū)取得了優(yōu)異成績(jī),接近或超越DeepSeek。其中,MiniMax稱其M1模型目前在ArtificialAnalysis榜單的開源模型中排名第二,僅次于DeepSeekR1。而月之暗面稱,其K2模型的綜合表現(xiàn)在另一個(gè)名為L(zhǎng)MArena的榜單中已經(jīng)超過DeepSeekR1,成為開源模型的首位。
目前階段,大模型領(lǐng)域最具代表性的兩家公司的精力都在爭(zhēng)奪P(Professional)端專業(yè)開發(fā)者的注意力,而非C端。這可以解釋大模型公司為什么在WAIC2025上沒那么高調(diào),簡(jiǎn)單說,大模型競(jìng)賽沒有熄火,只是戰(zhàn)場(chǎng)轉(zhuǎn)移了。
以下是我們認(rèn)為WAIC2025期間值得一聽的行業(yè)洞察:
具身智能
星動(dòng)紀(jì)元?jiǎng)?chuàng)始人兼CEO陳建宇
人形機(jī)器人真正做到大規(guī)模、高產(chǎn)值的商業(yè)化,差不多在今明兩年。規(guī)?;a(chǎn)的標(biāo)準(zhǔn)線是萬臺(tái),這不是指整個(gè)行業(yè),是指我們一家,(達(dá)到)這個(gè)數(shù)量級(jí)基本上就是頭部的工業(yè)機(jī)器人公司。
宇樹推出了3.99萬元的人形機(jī)器人,這是因?yàn)樗嫦蛉瓝?、文娛等用戶找到了商業(yè)化場(chǎng)景,它的降價(jià)不會(huì)對(duì)整個(gè)行業(yè)普遍產(chǎn)生壓力。星動(dòng)紀(jì)元正往工業(yè)方向探索,我們跟宇樹做的不算同一類事情,我們是全尺寸,更大,性能更強(qiáng),有雙手雙腳,需要它真的干活,能夠做靈巧的操作。
智元機(jī)器人合伙人、具身業(yè)務(wù)部總裁姚卯青
過去一年,我們?cè)趯?shí)踐中得到了很多苦澀的教訓(xùn):
第一點(diǎn),機(jī)器人還是要回歸到執(zhí)行器本身,高頻跟隨、高精度跟隨以及低延遲的執(zhí)行器至關(guān)重要。我們還需要高精度高分辨率的力控,實(shí)現(xiàn)工業(yè)場(chǎng)景里的作業(yè)。
第二點(diǎn),傳感器不僅需要在多維度信息上有效融合,在標(biāo)定、時(shí)間同步以及多機(jī)之間的一致性也非常關(guān)鍵。
第三點(diǎn),本體的構(gòu)型很重要。算法與模型再?gòu)?qiáng),也無法替代一個(gè)高自由度靈活本體帶來的優(yōu)勢(shì),我們希望本體將越來越逼近人類的構(gòu)型,同時(shí)提供更靈活的自由度。最后,機(jī)器人本體中傳感器、軟件鏈路上的各種誤差會(huì)層層疊加、不斷放大,最終變成算法難以承受的痛點(diǎn)。
這正是我們?cè)谶~向大規(guī)模應(yīng)用的過程中,必須直面的核心挑戰(zhàn)之一,也是我們?yōu)槭裁匆獔?zhí)著追求量產(chǎn)一致性的根本原因。
前騰訊混元大模型技術(shù)負(fù)責(zé)人、VideoRebirthCEO劉威
世界模型需具備模擬、預(yù)測(cè)和探索三大核心能力。世界模型和多模態(tài)模型的區(qū)別在于:
第一,多模態(tài)模型擅長(zhǎng)理解和生成內(nèi)容,但缺乏對(duì)環(huán)境的整體建模與預(yù)測(cè)能力,屬于感知智能,世界模型則追求對(duì)環(huán)境更深的因果認(rèn)知與推演;
第二,多模態(tài)模型的交互是被動(dòng)響應(yīng),需要由用戶觸發(fā),世界模型可在內(nèi)部生成交互式環(huán)境,主動(dòng)預(yù)測(cè)變化;
第三,多模態(tài)模型為一問一答的單步輸出交互,世界模型則支持長(zhǎng)序列的行動(dòng)規(guī)劃。
亞馬遜應(yīng)用科學(xué)、前沿人工智能與機(jī)器人部門負(fù)責(zé)人陳曦
得益于最近一輪AI與機(jī)器人熱潮,愿意在機(jī)器人硬件上投入資源的公司變多了,我們有了更多可用的實(shí)體機(jī)器人平臺(tái),可以在上面運(yùn)行模型、采集數(shù)據(jù)。但歸根結(jié)底,沒有什么比讓機(jī)器人在真實(shí)環(huán)境中自主運(yùn)行、親自采集的數(shù)據(jù)更有價(jià)值。
PhysicalIntelligence(Pl)聯(lián)合創(chuàng)始人、UCBerkeley副教授SergeyLevine
未來我們可以將強(qiáng)化學(xué)習(xí)技術(shù)融入到VLA模型中,以提升魯棒性與性能。VLA模型擁有廣泛的泛化能力,而基于強(qiáng)化學(xué)習(xí)的專家系統(tǒng)能在特定任務(wù)上達(dá)到極高的熟練度。通過將高效的強(qiáng)化學(xué)習(xí)方法生成的數(shù)據(jù)「蒸餾」進(jìn)通用模型,我們有希望推出更可靠、性能更強(qiáng)的機(jī)器人系統(tǒng)。這類研究仍處于早期階段,但我認(rèn)為它非常有前景。
Intrinsic(Alphabet)科學(xué)與Al事務(wù)負(fù)責(zé)人StefanSchaal
機(jī)器人發(fā)展的關(guān)鍵在于路徑選擇:是追求快速落地的專用機(jī)器人,還是深耕通用型機(jī)器人的長(zhǎng)遠(yuǎn)目標(biāo)?
現(xiàn)在,在工業(yè)領(lǐng)域?qū)W⒂谔囟ㄈ蝿?wù),會(huì)越來越頻繁地應(yīng)對(duì)所謂高混合、低產(chǎn)量(HighMix,LowVolumeProduction)的生產(chǎn)挑戰(zhàn),頻繁的變化要求模型快速適應(yīng),在半個(gè)小時(shí)內(nèi)重新訓(xùn)練模型勉強(qiáng)可以接受,但如果需要數(shù)小時(shí)甚至數(shù)天,就難以忍受。短期內(nèi)的泛化與基礎(chǔ)模型構(gòu)建至關(guān)重要,關(guān)鍵在于權(quán)衡要走哪條路。我認(rèn)為所有方法都合理,多元并行的路徑探索要優(yōu)于單一模式。
藍(lán)馳創(chuàng)投合伙人曹巍
我們走訪海外機(jī)器人團(tuán)隊(duì)的時(shí)候,發(fā)現(xiàn)他們的產(chǎn)品迭代速度比國(guó)內(nèi)的平均速度慢50%左右。中國(guó)跑出來的具身智能團(tuán)隊(duì)很有可能是全球最好的企業(yè)。
美團(tuán)龍珠合伙人王新宇
中國(guó)具身智能領(lǐng)域不是泡沫太大了,反而是泡沫太小了,我們投的錢太少了。中國(guó)有硬件優(yōu)勢(shì),有望引領(lǐng)這個(gè)產(chǎn)業(yè)的發(fā)展,我們應(yīng)當(dāng)投入更多的錢。
光源資本創(chuàng)始人、CEO鄭烜樂
未來一年左右的時(shí)間,整個(gè)具身智能行業(yè)都要回答一個(gè)問題:形成單位泛化能力所需要的成本,是不是符合規(guī)模經(jīng)濟(jì)的特征?你多長(zhǎng)時(shí)間可以完成產(chǎn)業(yè)端落地?
Agent
Flowith市場(chǎng)負(fù)責(zé)人拐子
首先我認(rèn)為一個(gè)合格的Agent要在技術(shù)定義上滿足四個(gè)要素:主動(dòng)思考、規(guī)劃路徑、調(diào)用工具、長(zhǎng)期記憶——用戶可以通過這幾點(diǎn)判斷一個(gè)所謂的「Agent」是否符合標(biāo)準(zhǔn)。通用Agent在這個(gè)基礎(chǔ)上更進(jìn)一步,能處理各種事情,甚至要能感知自然環(huán)境、和物理世界交互。
Flowith最終想做的是一個(gè)AI時(shí)代的終極創(chuàng)作工具,Agent、畫布、知識(shí)庫(kù),其實(shí)都是我們產(chǎn)品當(dāng)中的一環(huán)。單就Agent而言,我們想做的是創(chuàng)作領(lǐng)域的Agent,并非通用Agent。通用Agent要有和物理世界交互的能力,比如你讓它給你點(diǎn)外賣,它不僅要幫你下單,還要送到你面前來,在理想情況下,就像《鋼鐵俠》里的賈維斯一樣。而我們所定義的「創(chuàng)作」領(lǐng)域,既包括用AI撰寫研報(bào)、制作PPT、制作網(wǎng)頁(yè)、拍攝短片等專業(yè)場(chǎng)景,也包括發(fā)朋友圈和小紅書、日常聊天等生活化的文字表達(dá),還涉及跨模態(tài)創(chuàng)作。用戶可以在移動(dòng)端、Web端、PC端完成這些事情。
騰訊云副總裁、騰訊云智能及騰訊優(yōu)圖實(shí)驗(yàn)室負(fù)責(zé)人吳運(yùn)聲
toB和toC的智能體開發(fā)平臺(tái)差異很大。toB在于它有非常多嚴(yán)肅的場(chǎng)景,我們需要用非常多的手段保證嚴(yán)肅問答的準(zhǔn)確率以及引用的正確性;toC的特點(diǎn)是要讓用戶使用起來很方便,即便能力差一點(diǎn)。
關(guān)于Agent的記憶機(jī)制,如果僅機(jī)械存儲(chǔ)用戶過往(如一周或一個(gè)月)的全部聊天記錄,并在后續(xù)交互中全盤調(diào)用,會(huì)因大量一次性、臨時(shí)或無關(guān)信息的干擾而影響效果。因此,如何從長(zhǎng)期記錄中提煉出對(duì)后續(xù)問答真正有價(jià)值的內(nèi)容,是當(dāng)前短期與長(zhǎng)期記憶研究中需要不斷攻克的關(guān)鍵方向。
LovartCTO陳志博
生成式AI會(huì)大幅擴(kuò)展個(gè)人能力邊界,形成「超級(jí)個(gè)體」,讓普通人無需設(shè)計(jì)、編程等專業(yè)背景,也能完成高質(zhì)量創(chuàng)作。
阿里巴巴國(guó)際數(shù)字商業(yè)集團(tuán)AI業(yè)務(wù)副總裁駱衛(wèi)華
面向生產(chǎn)環(huán)境的AlAgent對(duì)輸出質(zhì)量有很高要求,通用Agent幾乎無法滿足。垂直場(chǎng)景對(duì)特定關(guān)鍵數(shù)據(jù)識(shí)別和分析精度的要求遠(yuǎn)超頭部模型直出結(jié)果。除模型能力,Agent的可用性對(duì)工程框架、底層AlInfra的要求也很高。
大模型
生數(shù)科技CEO駱怡航
視頻生成需要保持生成效果的一致性,這一訴求與應(yīng)用場(chǎng)景深度相關(guān)。對(duì)大眾而言,用手機(jī)拍攝的視頻多為日常記錄或自?shī)首詷?,?duì)畫面連貫性、元素穩(wěn)定性的要求較低。但在廣告、動(dòng)漫、影視等商業(yè)與專業(yè)創(chuàng)作中,一致性是不可妥協(xié)的基礎(chǔ)——人物形象、核心道具、場(chǎng)景氛圍等要素必須在全片所有鏡頭、所有時(shí)長(zhǎng)里保持連貫,甚至每一幀的細(xì)節(jié)都需符合設(shè)定邏輯。一致性是實(shí)現(xiàn)視頻生成商用的前提,若無法滿足,相關(guān)技術(shù)便難以在產(chǎn)業(yè)級(jí)場(chǎng)景中落地。
視頻生成的爆點(diǎn)不會(huì)突然出現(xiàn)。在廣告和動(dòng)漫行業(yè),AI視頻的滲透率在逐步提高,2到3年后可以實(shí)現(xiàn)全流程AI化;影視行業(yè)到明年可能有30%至50%的AI滲透率。長(zhǎng)期來看,在5到10年后,所有內(nèi)容和文化相關(guān)產(chǎn)業(yè)可能會(huì)完全實(shí)現(xiàn)「生成式AI化」,到那時(shí),AI將成為創(chuàng)作的常規(guī)工具,「內(nèi)容是否由AI生成」不再是關(guān)注的焦點(diǎn)。
可靈AI產(chǎn)品及運(yùn)營(yíng)負(fù)責(zé)人李楊
當(dāng)前視頻模型還正處于快速迭代階段,3個(gè)月或半年后,模型性能和當(dāng)下相比會(huì)有明顯差異。AI工具產(chǎn)品需要在模型能力和用戶需求之間找到平衡,既要不斷探索模型能力的邊界,也要滿足用戶的實(shí)際需求。
AI產(chǎn)業(yè)
光源資本創(chuàng)始人、CEO鄭烜樂
創(chuàng)業(yè)公司最大的機(jī)會(huì)是在模型的水面上。如果你是礁石,可能會(huì)被淹沒,但是如果是船,模型能力上漲,你也會(huì)上漲。怎么變成船?我認(rèn)為有很多的方法,有專業(yè)數(shù)據(jù)的循環(huán)、對(duì)場(chǎng)景的理解(指對(duì)工作流的拆解)、獨(dú)特的交付方式等等。在大廠的射程外也是非常重要的。
2025年上半年,中國(guó)的AI投資熱度在大幅度提升,融資額同比增加45.3%,投資事件數(shù)同比增加59.9%,財(cái)務(wù)投資人占比58.6%,又回到了主流。大家開年以后都在跑,很多項(xiàng)目都在搶,很多人開始要抬估值了,跟去年完全不一樣?,F(xiàn)在這個(gè)市場(chǎng)給我們的感覺是非常像移動(dòng)互聯(lián)網(wǎng)09到14年的時(shí)候。
九合創(chuàng)投創(chuàng)始人王嘯
在中國(guó)做AI應(yīng)用要有閉環(huán)的數(shù)據(jù),這樣才能產(chǎn)生獨(dú)立應(yīng)用的機(jī)會(huì)。在一些相對(duì)垂直但又不太垂直的行業(yè),形成大量自有數(shù)據(jù),而且這個(gè)數(shù)據(jù)隨著用戶的增長(zhǎng)對(duì)基模能力的提升是顯著的,就能建立壁壘,也不會(huì)被基模公司吃掉。編程的數(shù)據(jù)太公開了,你能做,別人也能做,大模型公司做的更有優(yōu)勢(shì)。
云啟資本合伙人陳昱
目前國(guó)內(nèi)比較確定的機(jī)會(huì)還是在視頻領(lǐng)域。還有就是上一代SaaS的重新洗牌——在中國(guó)大模型的加持下用AI全部重新做一次,更便宜、更智能、效率更高。
通用型的AI應(yīng)用特別火熱,問題在于最后基模公司肯定會(huì)自己下場(chǎng)做,而且它們有巨大優(yōu)勢(shì),因?yàn)橐坏┥狭?,總的token成本會(huì)非??膳?。我聽說Cursor的毛利是負(fù)的,別看它現(xiàn)在這么厲害,到后面也會(huì)面臨盈利的挑戰(zhàn)。
美團(tuán)龍珠合伙人王新宇
AI應(yīng)用的口子,我個(gè)人體感首先是太難了,比具身要難。這個(gè)行業(yè)難投,我們希望創(chuàng)始人懂技術(shù),此外也要懂產(chǎn)品、懂年輕人,或者懂新的地域(現(xiàn)在更多是面向海外市場(chǎng)做AI應(yīng)用)。
君聯(lián)資本聯(lián)席首席投資官葛新宇
我們要換一個(gè)思維來看,AI發(fā)展中的一些「臟活苦活」不是大廠和基模公司會(huì)下場(chǎng)做的,比如數(shù)據(jù)標(biāo)注,適合一些沒有太多產(chǎn)業(yè)背景、大額資金投入的創(chuàng)業(yè)者。如果還能結(jié)合具體的細(xì)分場(chǎng)景,再跟上技術(shù)發(fā)展的節(jié)奏,是更好的。
藍(lán)馳創(chuàng)投合伙人曹巍
國(guó)內(nèi)做大B生意,核心成功要素的構(gòu)成是非常復(fù)合的,不是一個(gè)純產(chǎn)品、純技術(shù)驅(qū)動(dòng)的生意;反而一些非常工具類導(dǎo)向的小B生意更好做,這也是國(guó)內(nèi)最市場(chǎng)化的生意。我們也嘗試著做了一些AI應(yīng)用方面的投資,應(yīng)該講做國(guó)內(nèi)市場(chǎng)的都活得很苦,賣掉的基本也是成本價(jià)賣掉的。我們也有一些賣掉的公司,創(chuàng)始人去了某大廠做戰(zhàn)略規(guī)劃。此外我還認(rèn)為,當(dāng)下模型側(cè)還有很多能力沒有被挖掘出來,模型還要再迭代一波。
藍(lán)色光標(biāo)CEO潘飛
目前,營(yíng)銷行業(yè)正在從工具效率革命走向生產(chǎn)模式革命。最終,可批量化的內(nèi)容將實(shí)現(xiàn)AI全自動(dòng)生產(chǎn),而有人性洞見的內(nèi)容會(huì)更有稀缺價(jià)值。AI發(fā)展當(dāng)前的進(jìn)度僅加載10%到15%,未來將誕生AI時(shí)代原生的營(yíng)銷公司。
無問芯穹發(fā)起人汪玉
AI基礎(chǔ)設(shè)施的能效評(píng)價(jià)指標(biāo)已隨技術(shù)演進(jìn)發(fā)生變化:在AI1.0時(shí)代,核心指標(biāo)是「算力」(TOPS),通過垂類數(shù)據(jù)訓(xùn)練垂類模型,即可支撐簡(jiǎn)單任務(wù);而進(jìn)入AI2.0時(shí)代,「token」成為核心生產(chǎn)要素。目前,端側(cè)應(yīng)用的算力需求與現(xiàn)有能力之間仍存在10倍左右的差距,云端的算力使用效率也有進(jìn)一步提升的空間。
俠之大者 為國(guó)為民 俠之小者, 裝逼護(hù)花 五年兵王歸來, 一身無雙國(guó)術(shù), 江十七如猛虎出籠, 馳騁花都, 風(fēng)靡萬千。 他可霸氣凌絕頂, 力挽狂瀾壯我國(guó)威; 他能一劍西斜去, 血流成河萬象俱滅 延伸閱讀:與 7月的FOMC 會(huì)議就像一場(chǎng)狼人殺8(月資金面)關(guān):注!!什么 的相關(guān)文章