迮穎初
“又一個(gè)登月時(shí)刻?”
這一期的主題是2025年中的AI復(fù)盤與展望。
節(jié)目分成了兩次錄制。第一次是在7月18日,真格基金管理合伙人戴雨森與晚點(diǎn)科技報(bào)道負(fù)責(zé)人程曼祺,圍繞月之暗面剛發(fā)布的KimiK2、AI應(yīng)用普及的新動(dòng)向,以及近幾個(gè)月持續(xù)升溫的搶人大戰(zhàn),做了一次中場(chǎng)回顧。
第二次是在7月21日,我們補(bǔ)充聊了剛剛發(fā)生的新進(jìn)展:7月18日,OpenAI發(fā)布了ChatGPTAgent;7月19日,OpenAI又宣布,一個(gè)尚未公開的通用大語(yǔ)言模型,首次達(dá)到了IMO國(guó)際數(shù)學(xué)奧林匹克金牌水準(zhǔn);7月22日,GoogleDeepMind也宣布,他們的GeminiDeepThink模型取得了同樣成績(jī)。這之前,只有GoogleDeepMind曾用為數(shù)學(xué)調(diào)優(yōu)的模型達(dá)到銀牌。
兩年半前,曾寫下《通用人工智能的火花》的現(xiàn)OpenAI研究員SébastienBubeck形容,通用大語(yǔ)言模型拿下IMO金牌,或許會(huì)成為AI的一個(gè)「登月時(shí)刻」。
這場(chǎng)已持續(xù)兩年多的AI競(jìng)速?gòu)奈捶啪彛P湍芰εc應(yīng)用創(chuàng)新交替上升,而兩者的進(jìn)化速度,可能都在被低估。
全球的AI社區(qū)仍處于EarlyAdopter(早期采用者)階段。他們?cè)敢庠囧e(cuò)、愿意反饋。當(dāng)你拿出一個(gè)好產(chǎn)品,并以開放的態(tài)度對(duì)待用戶時(shí),無(wú)論是DeepSeek、Kimi、Manus還是Genspark,都已經(jīng)證明:來自各地的用戶不僅會(huì)欣賞、支持你,甚至?xí)鲃?dòng)幫你改進(jìn)產(chǎn)品。
回看KimiK2的故事,也能看到「投人」這件事在AI時(shí)代被重新認(rèn)識(shí)的過程。Kimi從一開始就是一個(gè)以技術(shù)視野和技術(shù)能力為底的團(tuán)隊(duì)。2023年,AI風(fēng)向幾乎月月在變,但楊植麟的團(tuán)隊(duì)押中了長(zhǎng)文本這個(gè)方向,并基于此做出了第一個(gè)具備搜索能力的版本。這是一場(chǎng)面向未來的下注。
AI正在讓人們?nèi)L試那些原本不會(huì)做的事。這次IMO金牌事件更讓我們看清AGI即將到來的信號(hào)。如果說過去我們只是遠(yuǎn)遠(yuǎn)望見一輛冒煙的火車,如今,已經(jīng)能清楚地聽見它的轟鳴聲了。
2025年,屬于各行各業(yè)的「李世石時(shí)刻」,可能才剛剛開始。
OpenAI拿下IMO金牌,又一個(gè)李世石時(shí)刻
晚點(diǎn):最近有哪幾件重要的事值得展開聊聊?
戴雨森:確實(shí)過去這個(gè)周末發(fā)生了很多事情。我覺得最重要的一件是OpenAI的一個(gè)新模型,在IMO(國(guó)際數(shù)學(xué)奧林匹克)2025年的題目上獲得了金牌級(jí)別的成績(jī)。具體來說是六道題做對(duì)了五道。
這個(gè)為什么重要呢?因?yàn)榘凑誒penAI的描述,這是一個(gè)沒有聯(lián)網(wǎng)的通用大語(yǔ)言模型,并且沒有針對(duì)數(shù)學(xué)做特別優(yōu)化,也沒有用任何CodeInterpreter一類的工具。它完成的是IMO的證明題,而且OpenAI找了三位IMO的金牌得主來交叉驗(yàn)證,確認(rèn)這些解答是對(duì)的。
當(dāng)然,這個(gè)結(jié)果也引發(fā)了一些爭(zhēng)議。比如有些人指出它還沒有經(jīng)過官方認(rèn)證,因此不一定有效。陶哲軒也說,IMO題目的解法路徑會(huì)有很多不同,最終得分也會(huì)不一樣。
注:7月22日當(dāng)晚,GoogleDeepMindCEODemisHassabis在X上發(fā)帖強(qiáng)調(diào),這一結(jié)果已經(jīng)獲得了奧賽組委會(huì)官方認(rèn)定。
但不管怎樣,這個(gè)結(jié)果是一個(gè)劃時(shí)代的進(jìn)展。語(yǔ)言模型沒有經(jīng)過特別的數(shù)學(xué)優(yōu)化,只在離線環(huán)境中就能解出IMO級(jí)別的證明題。像之前Google用AlphaGeometry是為數(shù)學(xué)專門設(shè)計(jì)的模型,還借助了形式化驗(yàn)證方法,并不具備泛化能力。
晚點(diǎn):這剛好是一年前的事,2024年7月Google的AlphaGeometry達(dá)到了IMO銀牌的水準(zhǔn),當(dāng)時(shí)差一點(diǎn)到金牌。但那不是通用大語(yǔ)言模型,而這次OpenAI說是通用大模型。
戴雨森:對(duì),而且今年這個(gè)時(shí)間點(diǎn)正好是IMO出題的時(shí)間,OpenAI是題目一出就做了,所以也不存在模型訓(xùn)練時(shí)提前見過這些題的情況。
雖然過去一年語(yǔ)言模型已經(jīng)有很多進(jìn)展,但像數(shù)學(xué)證明這樣的任務(wù),尤其是IMO這類題,屬于hardtoverify的問題類型。驗(yàn)證一個(gè)答案是否正確本身就非常難。
這類問題一直以來都被認(rèn)為是當(dāng)前語(yǔ)言模型難以勝任的任務(wù)。并且現(xiàn)實(shí)中世界上大部分真正的問題,事先都是沒有標(biāo)準(zhǔn)答案和解法的。所以當(dāng)一個(gè)語(yǔ)言模型可以在沒有任何特別調(diào)教的前提下,解出這類高難度的題,達(dá)到人類頂尖水平時(shí),這意味著它的思考能力確實(shí)上了一個(gè)臺(tái)階。
OpenAI也提到,這種能力可以通過延長(zhǎng)思考時(shí)間進(jìn)一步提升,這也驗(yàn)證了inferencescalinglaw(推理擴(kuò)展定律)。
我們以前聊過,除了pre-training,還有post-training和inferencescalinglaw。這次的結(jié)果說明:
LLM的泛化能力很強(qiáng),能解決我們?cè)瓉碚J(rèn)為解決不了的問題;
模型能力越強(qiáng),可應(yīng)用的場(chǎng)景越多,所創(chuàng)造的價(jià)值也越大;
IMO的證明題和現(xiàn)實(shí)中的某些理科的問題在形式邏輯上很相似,都是證明題。LLM既然能做前者,也許說明它離發(fā)現(xiàn)新知識(shí)的能力也不遠(yuǎn)了。
目前它肯定還不能解決像哥德爾猜想這種超難問題,但發(fā)現(xiàn)理科新知識(shí)這件事,可能已經(jīng)是一步之遙了。
還有一個(gè)八卦:據(jù)說這次OpenAI使用的模型和GPT-4o是同一個(gè)底層模型。也就是說,取得這個(gè)成績(jī)并不是因?yàn)榈讓幽P陀泻艽筇嵘窃趐ost-training和inference階段做出了優(yōu)化。后續(xù)的優(yōu)化空間給整個(gè)AI發(fā)展帶來了很多想象。
晚點(diǎn):你是從一些技術(shù)人員那聽來的描述是嗎?
戴雨森:對(duì),簡(jiǎn)單打聽了一下。這事情也就24小時(shí)之內(nèi)發(fā)生的,但我感受非常強(qiáng)烈。
這讓我想到2023年3月微軟那篇論文《SparksofAGI》,當(dāng)時(shí)他們測(cè)試GPT-4的預(yù)發(fā)布版本,感嘆從中看到了AGI的火花。那篇文章也就兩年半前,而現(xiàn)在我們已經(jīng)走到了能解IMO的地步。兩年半在科技進(jìn)步史中是很短的時(shí)間,甚至比很多創(chuàng)業(yè)公司從種子輪到產(chǎn)品發(fā)布還短。
那篇文章的作者后來加入了OpenAI,他在看到這次OpenAI模型獲得IMO金牌成績(jī)后說,這是「AI的登月時(shí)刻」。
一個(gè)「只是預(yù)測(cè)下一個(gè)詞」的語(yǔ)言模型,在沒有任何工具輔助的情況下,能夠完成一個(gè)只有極少數(shù)天才人類才能做出的有創(chuàng)造性的數(shù)學(xué)證明。這確實(shí)說明AI的能力已經(jīng)到了一個(gè)新的高度。
我們年初錄節(jié)目《和戴雨森長(zhǎng)聊AIAgent》時(shí)也說過:2024年會(huì)是很多行業(yè)迎來「李世石時(shí)刻」的一年。所謂「李世石時(shí)刻」,就是AI在某個(gè)領(lǐng)域超越了人類最強(qiáng)水平。
我們已經(jīng)在圍棋、編程、數(shù)學(xué)推理等領(lǐng)域看到這種情況不斷出現(xiàn)。接下來還會(huì)有更多這樣的時(shí)刻等待著我們,解決我們?cè)疽詾檫€很難、很遠(yuǎn)的問題。
晚點(diǎn):而且我還看到一個(gè)信息:似乎不止OpenAI做到了。因?yàn)镺penAI發(fā)這個(gè)消息之后,一個(gè)Google的研究員也在X(原Twitter)上發(fā)帖,說OpenAI搶先發(fā)布了。
戴雨森:我們也在拭目以待。好像GoogleDeepMind也做到了金牌,但我們不知道是不是用通用模型實(shí)現(xiàn)的。如果真是通用模型,那就說明這個(gè)能力已經(jīng)不只是一家掌握的。這種技術(shù)一旦擴(kuò)散開來,會(huì)帶來推理能力的大幅提升,不管是哪個(gè)模型廠商都會(huì)從中受益。
注:7月22日,GoogleDeepMind宣布,GeminiDeepThink模型獲得官方認(rèn)證的IMO金牌,并公開了具體解題過程。這一通用模型僅用純自然語(yǔ)言(英語(yǔ))完成了解題。
晚點(diǎn):你和國(guó)內(nèi)一些從業(yè)者交流過,他們對(duì)這個(gè)成果是感到吃驚,還是覺得其實(shí)也在預(yù)期之中?
戴雨森:我覺得方向大家早就知道,是朝著更強(qiáng)reasoning能力去的。誰(shuí)都知道reasoning能力提升了,模型就能解更難的題。但現(xiàn)在就能做到確實(shí)還是讓人很震驚。我聊到一些中國(guó)最頂尖的研究者,他們也表示非常驚訝。但就像原子彈一樣:爆炸那一刻起,大家知道這件事情可以做到,就已經(jīng)離做出來不遠(yuǎn)了。
晚點(diǎn):從技術(shù)進(jìn)展的角度看,圍棋、編程、數(shù)學(xué)是三個(gè)典型的「李世石時(shí)刻」。你怎么看這三個(gè)的不同影響?
戴雨森:數(shù)學(xué)推理其實(shí)比編程更難。
編程屬于好驗(yàn)證的問題。強(qiáng)化學(xué)習(xí)在編程上容易成功,一大原因是因?yàn)樗膔eward清晰。代碼能運(yùn)行、能通過testcase就說明結(jié)果是對(duì)的。
但數(shù)學(xué)證明題的判卷是非常復(fù)雜的。IMO就是典型的「hardtoproduce,hardtoverify」的問題。
圍棋是一個(gè)雙方信息公開且完備、勝負(fù)明確的任務(wù),非常適合強(qiáng)化學(xué)習(xí);編程也是結(jié)構(gòu)化任務(wù),而且很多代碼是已有人寫過的,拼裝比全新創(chuàng)造多。
但數(shù)學(xué)是理工科的基礎(chǔ),它的推理是很多學(xué)科的根基。而且不依賴自然世界實(shí)驗(yàn),只靠邏輯思維。所以AI能解IMO級(jí)別的證明題,意味著理工科很多知識(shí)生成方式可能都要改變,帶來的科學(xué)進(jìn)步可能比編程還大。
晚點(diǎn):你覺得這個(gè)應(yīng)用影響會(huì)更大?
戴雨森:有可能更大。因?yàn)榫幊态F(xiàn)在替代的是一些重復(fù)性較高的初級(jí)工作,比如VibeCoding大部分還是復(fù)制粘貼一些前端代碼。但數(shù)學(xué)推理帶來的是非常強(qiáng)的思考和潛在的新知識(shí)發(fā)現(xiàn)能力。顯然,這是更值錢的部分。
AI會(huì)不斷替代簡(jiǎn)單任務(wù),而人類往更有價(jià)值、更難的方向走。但現(xiàn)在AI正在追著人類解決那些最有價(jià)值的難題。
這就是為什么我說這次IMO金牌事件讓我更清晰地看到了AGI即將到來的信號(hào)。如果以前是遠(yuǎn)處看到一輛冒煙的火車,現(xiàn)在已經(jīng)能聽到它的轟鳴聲了。
晚點(diǎn):有人在X(原Twitter)上說強(qiáng)化學(xué)習(xí)現(xiàn)在也能處理那些獎(jiǎng)勵(lì)反饋不是很直接的領(lǐng)域。這可能是這次進(jìn)展背后更大的突破之一。還有人提到「驗(yàn)證的非對(duì)稱性」,說有些任務(wù)你做出來的時(shí)間可能比驗(yàn)證時(shí)間還短。IMO數(shù)學(xué)題就屬于這種類型。
戴雨森:對(duì),以前很多任務(wù)是「hardtoproduce,easytoverify」,比如寫代碼。但現(xiàn)在變成了「hardtoproduce,hardtoverify」。
晚點(diǎn):不過有人認(rèn)為,在這些驗(yàn)證成本高的任務(wù)上,AI還很難完全替代人,因?yàn)樽罱K還得靠人來判斷。
戴雨森:有可能。但光是給出證明這一點(diǎn),其實(shí)就已經(jīng)是質(zhì)的飛躍。現(xiàn)在我們還不知道所有細(xì)節(jié),但我們期待更多公開信息,或其他模型公司復(fù)刻類似成果。按照目前AI的發(fā)展速度,只要一件事被做到,那它就已經(jīng)不是遙不可及的難題了。
ChatGPTAgent發(fā)布,「殼」的價(jià)值在于context
晚點(diǎn):7月18日凌晨,OpenAI發(fā)布了ChatGPTAgent。不過和Manus不同,這個(gè)Agent讓很多人其實(shí)覺得有點(diǎn)失望,沒有那么驚艷。
戴雨森:我覺得這反映了OpenAI作為AI的領(lǐng)頭羊、最大的AI應(yīng)用公司,他們也把Agent作為重要的方向。就像我們年初就開始討論的:理解目標(biāo)、拆解規(guī)劃、編程使用工具、對(duì)結(jié)果進(jìn)行復(fù)盤和反思。從一開始的構(gòu)想,到Devin、Manus等第一波產(chǎn)品的出現(xiàn),再到ChatGPTAgent的發(fā)布,Agent確實(shí)逐漸成為了AI應(yīng)用的共識(shí),變成了大家聚焦的方向。
晚點(diǎn):有人說「OpenAI發(fā)了一個(gè)Manus」,你怎么看?
戴雨森:我們不會(huì)這么想。我覺得不能低估OpenAI。他們有最多的人、最多的卡、最多的用戶,在安全性上也做了很多考量,加了很多額外約束。其實(shí)ChatGPTAgent的能力是被限制得很死的,這是負(fù)責(zé)任的表現(xiàn)。
這個(gè)產(chǎn)品也是他們第一個(gè)在AI安全性評(píng)估中被列為「高危險(xiǎn)級(jí)別」的,說明他們確實(shí)擔(dān)心這類Agent會(huì)遇到比如釣魚網(wǎng)站、或者生物武器信息等風(fēng)險(xiǎn)(詳見OpenAI發(fā)布的ChatGPTagentSystemCard)。當(dāng)公司變大,就會(huì)變得更謹(jǐn)慎;這也反過來說明了創(chuàng)業(yè)公司的行動(dòng)力快、敢于突破的機(jī)會(huì)所在。
晚點(diǎn):我覺得「發(fā)了個(gè)Manus」的說法也不一定是說效果不好,更多是說產(chǎn)品形態(tài)。它其實(shí)把Operator和DeepResearch結(jié)合起來了,形態(tài)上有點(diǎn)像Manus或Genspark。
戴雨森:是的,Manus確實(shí)探索出了一個(gè)方向:讓AI在做什么可以被直觀看到,讓人理解背景,否則如果只看到最后的結(jié)果,會(huì)很困擾。所以我們看到Manus、Genspark、Kimi,還有MiniMax等中國(guó)團(tuán)隊(duì)也在針對(duì)OpenAI的Task,用自己已經(jīng)發(fā)布的線上Agent做對(duì)比。不得不說,這些公司的產(chǎn)品在很多維度上的表現(xiàn),比如做PPT的任務(wù),確實(shí)比ChatGPTAgent要好。
晚點(diǎn):ChatGPTAgent做出來的PPT真的有點(diǎn)丑。
戴雨森:但這讓我有幾個(gè)啟發(fā):
第一,中國(guó)團(tuán)隊(duì)在產(chǎn)品力上確實(shí)不錯(cuò)。移動(dòng)互聯(lián)網(wǎng)時(shí)代就有很多例子,比如TikTok、Shein、剪映,中國(guó)團(tuán)隊(duì)確實(shí)做出了很多好產(chǎn)品。
第二,所謂的「套殼」產(chǎn)品,也就是調(diào)用API的應(yīng)用,并不會(huì)就一定被modelnative產(chǎn)品吊打。之前大家以為OpenAI下場(chǎng),訓(xùn)練的模型能端到端處理,就能完全替代第三方。但其實(shí)不然,尤其Agent需要更多context和工具,很多都依賴殼和應(yīng)用本身提供的環(huán)境。
Manus分享的那篇關(guān)于ContextEngineering的文章《如何系統(tǒng)性打造AIAgent的上下文工程?》就收到很多好評(píng)。因?yàn)檫@就是一個(gè)大家現(xiàn)在都在解決的問題,里面有很多實(shí)踐是需要時(shí)間和經(jīng)驗(yàn)的。
我理解,ContextEngineering最早是來自于PromptEngineering。PromptEngineering就是給AI一個(gè)命令、一個(gè)任務(wù),然后AI自己去做事。這很像傳統(tǒng)管理方式:老板布置任務(wù),員工去執(zhí)行。而像Netflix、字節(jié)等先進(jìn)公司強(qiáng)調(diào)的「Context,notcontrol」,意味著要給員工更多上下文和授權(quán),才能更好完成任務(wù)。ContextEngineering也是類似的道理:我們要給模型提供的是能夠幫助它更好完成任務(wù)的上下文。
第一個(gè)層面,就是單個(gè)session,看我們?cè)趺刺峁└玫纳舷挛?、更好的?shù)據(jù)、以更適合模型操作的格式去處理它。
第二個(gè)層面,是多session或跨session的個(gè)性化記憶:比如說今天做了什么,明天再做對(duì)應(yīng)的事,用戶的偏好、習(xí)慣、工作經(jīng)驗(yàn),能不能累積?這個(gè)長(zhǎng)期可能成為護(hù)城河。因?yàn)橥瑯拥哪P?,誰(shuí)有更好的上下文,它就更懂我。
第三個(gè)層面,是產(chǎn)品設(shè)計(jì)本身可以提供模型原本獲取不到的上下文。比如大家設(shè)想的一個(gè)還沒做出來的產(chǎn)品:戴個(gè)眼鏡可以實(shí)時(shí)看到周圍世界。這樣的context是模型自己無(wú)法產(chǎn)生的,必須通過好的硬件與軟件設(shè)計(jì)來實(shí)現(xiàn),也說明了產(chǎn)品層的價(jià)值。
晚點(diǎn):你說的眼鏡能看到的數(shù)據(jù),是現(xiàn)在所有互聯(lián)網(wǎng)巨頭都沒有的。
戴雨森:對(duì)。所以從ChatGPTAgent的發(fā)布,我覺得可以看到三點(diǎn):
第一,Agent方向逐漸達(dá)成共識(shí);
第二,創(chuàng)業(yè)公司在模型核心巨頭面前,依然有靈活性、先發(fā)優(yōu)勢(shì)和競(jìng)爭(zhēng)力;
第三,進(jìn)一步印證了我們之前說的兩個(gè)被低估:模型進(jìn)步速度被低估了,產(chǎn)品「殼」的價(jià)值也被低估了。
模型這條線,OpenAI這周剛拿下了IMO金牌,說明它的進(jìn)步速度還是很快。而OpenAI自己做的ChatGPTAgent還有很大提升空間,說明「殼」的價(jià)值也非常重要。所以我覺得模型和應(yīng)用都被低估了。
晚點(diǎn):你剛說的context的價(jià)值特別好。它其實(shí)和管理學(xué)也打通了,比如Netflix的那本書《NoRulesRules》最開始就講了這個(gè)邏輯。AI確實(shí)很像一個(gè)人,你要教它、要給上下文,比起給它具體指令,這可能是更好的方式。
戴雨森:第一階段大家都在寫更好的prompt,就像老板寫brief。后來發(fā)現(xiàn)要加更多示例、更好的上下文、更適合模型工作的環(huán)境。這其中有很多具體技巧。Manus的文章就分享了很多。我想說的是,更多的Context帶來模型能力的提升,也反映出我們對(duì)AI的使用越來越深入,產(chǎn)品本身也越來越完善。以前一句prompt就能跑,現(xiàn)在產(chǎn)品本身要承擔(dān)更多事情,產(chǎn)品公司的價(jià)值也在這里體現(xiàn)。
晚點(diǎn):你覺得這一層的應(yīng)用價(jià)值,什么時(shí)候會(huì)被模型本身做掉?是不是等到模型具備在線學(xué)習(xí)能力、能不斷吸收新的上下文的時(shí)候?
戴雨森:也得看你的產(chǎn)品有沒有用戶input。如果沒有用戶輸入,那模型再怎么學(xué)習(xí)也沒法學(xué)到用戶自己獨(dú)特的東西。
晚點(diǎn):所以是不是又回到一個(gè)曾經(jīng)被否認(rèn)的邏輯?以前移動(dòng)互聯(lián)網(wǎng)時(shí)代,用戶越多,數(shù)據(jù)反饋越多,推薦越準(zhǔn),有一個(gè)數(shù)據(jù)飛輪。但后來大家覺得大模型里用戶輸入對(duì)模型智能提升沒啥幫助。但你剛剛的意思是:用戶輸入對(duì)上下文是有幫助的。
戴雨森:這是兩個(gè)不同的問題。大家說的數(shù)據(jù)飛輪失效,指的是用戶的聊天記錄不能提升模型智能。這我同意。因?yàn)楝F(xiàn)在模型的智能已經(jīng)超過普通人。你跟它聊些日常話題,沒法提升它的能力。
最開始模型通過RLHF(人類反饋強(qiáng)化學(xué)習(xí))來學(xué)習(xí)人類偏好,現(xiàn)在來看普通人反饋意義不大。比如AI都能解IMO的題了,為什么還要在意普通人覺得哪個(gè)答案更好?所以對(duì)于有標(biāo)準(zhǔn)答案的任務(wù),用戶輸入越來越?jīng)]什么價(jià)值。
但如果是完成一個(gè)具體工作,比如Agent在完成人類工作時(shí)、怎么更好達(dá)成目標(biāo),這時(shí)用戶的輸入和喜好當(dāng)然有用。
晚點(diǎn):所以用戶數(shù)據(jù)其實(shí)對(duì)產(chǎn)品體驗(yàn)是有幫助的,但不一定能直接提升模型能力?
戴雨森:是的,尤其是在智能能力或者那種有標(biāo)準(zhǔn)答案的任務(wù)上。最開始大模型可以看作是對(duì)大量人類平均智能的一種壓縮。當(dāng)時(shí)特德·姜(TedChiang)不是就說過,語(yǔ)言模型本質(zhì)上是對(duì)互聯(lián)網(wǎng)的模糊壓縮嗎?但現(xiàn)在,它顯然已經(jīng)超越了普通人的水平,達(dá)到了某種超人水平。在這個(gè)階段,簡(jiǎn)單的數(shù)據(jù)可能就沒那么有用了。
晚點(diǎn):現(xiàn)在這個(gè)時(shí)間點(diǎn),是越早做Agent越好嗎?因?yàn)槟惴e累的用戶上下文越多,價(jià)值也越大。之前大家可能擔(dān)心新的強(qiáng)模型會(huì)把已有產(chǎn)品淹沒掉。
戴雨森:如果你沒有上下文、沒有環(huán)境,最后只是調(diào)模型,那確實(shí)可能被新模型取代。
AI應(yīng)用普及:最重要的、被高估的、被低估的
晚點(diǎn):上次我們聊是二月份,轉(zhuǎn)眼到現(xiàn)在差不多五個(gè)月了。今年已經(jīng)過去一半,回頭看,你覺得2025年上半年AI領(lǐng)域發(fā)生的幾件最重要的事是什么?
戴雨森:整體來說,AI已經(jīng)從一個(gè)偏研究性質(zhì)、看起來很新穎但實(shí)用性有限的技術(shù),進(jìn)入到了主流市場(chǎng)。上半年我認(rèn)為有幾個(gè)重大進(jìn)展。
第一,是AI在編程領(lǐng)域的突破。Coding已經(jīng)成為AI應(yīng)用的重中之重。我今天還聽說OpenAI現(xiàn)在已經(jīng)有三個(gè)業(yè)務(wù)線:GPT、API和Coding。用戶也發(fā)現(xiàn)AIcoding產(chǎn)品非常有用,也愿意為此付費(fèi)。Cursor等AI編程工具的成長(zhǎng)速度就是一個(gè)代表。ClaudeCode也有人稱是L3或Agent級(jí)別的產(chǎn)品,能比人類寫得更快更好,代碼更優(yōu)雅,還能處理更大的代碼庫(kù)。所以AI在編程領(lǐng)域已經(jīng)正式跨越鴻溝,進(jìn)入了主流市場(chǎng)。
第二,是o3在四月的正式發(fā)布,伴隨著ChatGPT用戶的高速增長(zhǎng),這是推理模型的持續(xù)演進(jìn)。從去年下半年開始我們就看到OpenAI推出o1、R1,到今年的o3,它標(biāo)志著推理問答、題解這些能力從科研層面進(jìn)入到了普通用戶可以使用的產(chǎn)品,是真正的落地了。
ChatGPT的用戶增長(zhǎng)還在持續(xù),這一波也受益于o3推理能力的提升。我們也看到年初中國(guó)這邊的突破,比如R1是國(guó)內(nèi)在reasoning上邁出的重要一步,KimiResearcher也是第一個(gè)廣泛可用的deepresearch類產(chǎn)品,用戶反饋很好。AI在這個(gè)領(lǐng)域已經(jīng)比絕大多數(shù)人做得更好了,也是跨越鴻溝。
第三,是Agent應(yīng)用開始普及。比如Devin是第一個(gè)讓人看到L3Agentprototype的產(chǎn)品。Manus和Genspark都是在三月發(fā)布,ClaudeCode也在不斷完善。我們看到隨著模型在推理、編程、工具使用這三大能力的增強(qiáng),出現(xiàn)了第一批具備完整Agent形態(tài)的產(chǎn)品:它們能接收模糊目標(biāo),自主調(diào)用工具,尋找解決方案,評(píng)估任務(wù)進(jìn)度,并最終完成任務(wù)。雖然它們還不算主流,但已經(jīng)進(jìn)入EarlyAdopter階段,部分場(chǎng)景下用戶非常愿意用。盡管還有不少問題,但Agent已經(jīng)變得有用了,這是上半年AI應(yīng)用領(lǐng)域最重要的進(jìn)展之一。
第四,是多模態(tài)能力的快速進(jìn)步,尤其是圖像生成。從早期像玩具一樣的工具,變成了實(shí)實(shí)在在的生產(chǎn)力工具。比如ChatGPT的圖像生成對(duì)語(yǔ)義的跟隨非常好,能準(zhǔn)確理解用戶意圖?,F(xiàn)在很多人用AI來畫漫畫、畫流程圖、做視覺內(nèi)容。這種生成能力的提升已經(jīng)變得非常實(shí)用。
晚點(diǎn):它也能支持Agent做出更豐富的輸出,對(duì)吧?
戴雨森:對(duì),因?yàn)樗闹噶罡S能力越來越強(qiáng),能更好滿足用戶需求。原來是像抽卡那樣的不確定性,現(xiàn)在已經(jīng)越來越好了。直播頭像好多都變成了AI生成的。
Veo3也是一個(gè)很厲害的模型。它加入語(yǔ)音配音后,我發(fā)了個(gè)朋友圈感嘆,它生成的世界已經(jīng)接近真相難辨的虛擬世界了。Veo3第一次讓我有一種跨越恐怖谷的感覺,真假難辨。
第五,是搶人大戰(zhàn)。無(wú)論是Meta的大規(guī)模挖人,還是創(chuàng)業(yè)公司瘋狂融資,再到Windsurf最近收購(gòu)的drama,都說明硅谷對(duì)人才的爭(zhēng)奪和資本競(jìng)爭(zhēng)進(jìn)入了一個(gè)新的階段。我們?cè)趪?guó)內(nèi)也感受到類似熱度:融資額上升、項(xiàng)目搶手、一個(gè)月融資幾輪的情況又出現(xiàn)了。這背后是因?yàn)榇蠹艺娴目吹搅薃I正在落地,不再只是概念,很多已經(jīng)實(shí)實(shí)在在地產(chǎn)生收入了。
晚點(diǎn):你關(guān)注的主線還是圍繞AI的應(yīng)用普及,技術(shù)的變化是原動(dòng)力,對(duì)嗎?
戴雨森:我們認(rèn)為模型基礎(chǔ)能力的提升是解鎖應(yīng)用場(chǎng)景的關(guān)鍵。模型能力配合好的產(chǎn)品設(shè)計(jì),才能真正釋放價(jià)值。一個(gè)真正有價(jià)值的AI應(yīng)用,一定能通過某種方式讓用戶付費(fèi),比如訂閱或按工作交付。所以我們特別關(guān)注AI在提升生產(chǎn)力方面的價(jià)值,尤其是在數(shù)字世界里的應(yīng)用。可以看到我們投的很多是AIAgent或者AI生產(chǎn)力方向的項(xiàng)目,因?yàn)檫@是當(dāng)下最能真正幫用戶解決問題的場(chǎng)景。
晚點(diǎn):除了你說的應(yīng)用這條主線,其實(shí)AI硬件也很熱,比如機(jī)器人,具身智能其實(shí)也在AI產(chǎn)業(yè)鏈上。
戴雨森:是的,但我認(rèn)為上半年有一個(gè)被高估的方向,就是人形機(jī)器人。特斯拉最近下調(diào)了對(duì)Optimus的生產(chǎn)預(yù)期,我覺得很有代表性。
去年我就說過,大家對(duì)Optimus進(jìn)工廠打螺絲的期待值太高了。當(dāng)時(shí)有人說2025年特斯拉就能有一萬(wàn)個(gè)機(jī)器人進(jìn)廠干活,這完全低估了manipulation(操作控制)的難度?,F(xiàn)在我們看到的一些demo確實(shí)越來越好,比如疊衣服,但真的要機(jī)器人做出一杯咖啡,還是非常難的。
當(dāng)然,我認(rèn)為這個(gè)領(lǐng)域還在快速發(fā)展,在未來幾年可能會(huì)看到manipulation的「ChatGPT時(shí)刻」突破,但如果期待2025年就能大規(guī)模落地,我覺得是大大高估了。
技術(shù)的發(fā)展不能拔苗助長(zhǎng),必須經(jīng)歷:方向確定、逐漸放大、形成產(chǎn)品、再到大規(guī)模落地,這幾個(gè)階段,沒法跳過。機(jī)器人目前顯然還處在早期探索階段。
晚點(diǎn):另一方面,你覺得這半年有沒有一些被低估的事情、公司或者現(xiàn)象?
戴雨森:我覺得首先,應(yīng)用的價(jià)值還是在被低估的。一年前,大家還在講模型公司會(huì)顛覆應(yīng)用公司,說「應(yīng)用只是套殼」,這個(gè)業(yè)務(wù)模式不成立。當(dāng)時(shí)不管是Manus、Genspark,還是很多其他公司,都經(jīng)歷了不少質(zhì)疑,說:「你是一個(gè)殼公司,有沒有長(zhǎng)期價(jià)值?是不是模型一升級(jí)你就完了?」
現(xiàn)在這個(gè)爭(zhēng)論雖然還在繼續(xù),但顯然不是模型升級(jí)了應(yīng)用公司就會(huì)完蛋。相反,好的應(yīng)用公司是期待模型升級(jí)的,這樣可以讓用戶享受更強(qiáng)大的體驗(yàn)?!笟ぁ沟膬r(jià)值仍被低估了。
第二,優(yōu)秀團(tuán)隊(duì)的價(jià)值也在被低估。不管是Kimi、Manus,還是Genspark,我們歸根結(jié)底是投人。
大家之前可能不會(huì)料到,肖弘能做出一個(gè)世界級(jí)的AI應(yīng)用。而幾天前發(fā)布的KimiK2,在7月15日這個(gè)時(shí)間點(diǎn),可以說是全球最強(qiáng)的開源大模型,沒有之一。它在coding、Agent工作流和中文寫作等方面的表現(xiàn),確實(shí)優(yōu)于Claude。當(dāng)然,Claude是在年初發(fā)布的,但在AI這個(gè)領(lǐng)域,六個(gè)月就相當(dāng)于很久了。
OpenRouter上的調(diào)用數(shù)據(jù)顯示,K2剛上線沒幾天,昨天還在編程類目里排第13,今天就升到了第10,前面是Claude、Gemini、GPT。這種上升速度是非??斓?,說明用戶反饋非常好。但現(xiàn)在大家其實(shí)已經(jīng)對(duì)benchmark麻木了,對(duì)吧?我們更看重實(shí)際用戶的使用反饋。
比如Perplexity的創(chuàng)始人就在推特上說,他們團(tuán)隊(duì)已經(jīng)開始調(diào)研在Perplexity上引入K2,也明確表示:Kimi做得非常好。
Kimi是最典型的例子,但不是唯一的。我們也討論過DeepSeek后他們團(tuán)隊(duì)的轉(zhuǎn)型問題,Kimi背后的Moonshot也經(jīng)歷了很多復(fù)盤,并集中精力攻堅(jiān)下一代模型。我覺得外界太容易在很早期就下結(jié)論,比如說DeepSeek出來的六小龍公司是不是都不行了。但實(shí)際上,如果一個(gè)團(tuán)隊(duì)足夠穩(wěn)定,有優(yōu)秀人才、有資源、有意志,那他們的主觀能動(dòng)性和突破空間遠(yuǎn)遠(yuǎn)被低估了。
第三,我覺得模型能力進(jìn)化的速度也被低估了。比如現(xiàn)在已經(jīng)有傳言說GPT-5很快就要發(fā),它可能是一個(gè)原生多模態(tài)、推理能力非常強(qiáng)、具備高級(jí)Agent能力的模型。
現(xiàn)在新產(chǎn)品發(fā)布的時(shí)候往往會(huì)被噴,說畫了大餅但實(shí)際上產(chǎn)品體驗(yàn)沒有那么好。但好的應(yīng)用公司需要為6到12個(gè)月后的模型設(shè)計(jì)。比如Cursor一開始發(fā)布的時(shí)候,當(dāng)時(shí)的模型還無(wú)法實(shí)現(xiàn)它的完整愿景,直到Claude3.5Sonnet出來,Cursor才真正成為一個(gè)好用的產(chǎn)品。
Manus在設(shè)計(jì)時(shí)能用的最好模型是Sonnet3.5,發(fā)布時(shí)Sonnet3.7剛上線,Manus因此能夠完成一些更復(fù)雜的任務(wù),之后Claude4,Gemini2.5Pro等新模型的發(fā)布也進(jìn)一步提升了Manus的表現(xiàn)。也許再需要1-2個(gè)模型的大版本迭代,才能夠充分讓主流用戶感受到Agent帶來的生產(chǎn)力提升。
所以我們認(rèn)為,未來模型的能力提升仍然非???,也許很快就會(huì)有讓大家震驚的發(fā)布出現(xiàn)。那時(shí),模型增長(zhǎng)和應(yīng)用價(jià)值可能都將超出市場(chǎng)預(yù)期,整個(gè)AI發(fā)展節(jié)奏也會(huì)再度加快。
晚點(diǎn):這半年還有一個(gè)我之前沒有想到的新變化,就是最近非常激烈的外賣大戰(zhàn)。因?yàn)橥赓u大戰(zhàn)這件事情牽扯了好幾個(gè)巨頭的精力和資源,包括阿里、美團(tuán)和京東。你覺得這個(gè)會(huì)怎么影響中國(guó)的AI的格局,或者說對(duì)創(chuàng)業(yè)公司來說,它可能會(huì)有什么影響?
戴雨森:現(xiàn)在看其實(shí)還是兩個(gè)戰(zhàn)場(chǎng)。從長(zhǎng)期看,可能會(huì)對(duì)資源投入產(chǎn)生一些影響。
但我看阿里云的增速預(yù)期還是挺高的。今天Jensen還宣布可以重新向中國(guó)銷售H100。我們看到,今年美國(guó)這邊的IDC和云服務(wù)增長(zhǎng)得非常快,因?yàn)閼?yīng)用落地之后推理的用量會(huì)大幅增長(zhǎng)。
我認(rèn)為中國(guó)市場(chǎng)的發(fā)展路徑也會(huì)是類似的。當(dāng)Kimi、字節(jié)、DeepSeek等公司推出更好的模型后,更多場(chǎng)景被解鎖,推理的算力需求也會(huì)很快爆發(fā)。知識(shí)工作者在中美其實(shí)都很像,大家都用Office、都要搜索、都用deepresearch工具,在美國(guó)市場(chǎng)已經(jīng)驗(yàn)證的這些需求場(chǎng)景在中國(guó)遲早也會(huì)爆發(fā)。
當(dāng)然這跟外賣大戰(zhàn)沒什么直接關(guān)系。但比如說阿里云、火山云這些中國(guó)云服務(wù)商,可能也會(huì)經(jīng)歷一次美國(guó)那樣的增長(zhǎng)過程。
從DeepSeek出發(fā),不同公司各有演進(jìn)之路
晚點(diǎn):我們接下來圍繞一些具體的方向聊聊,你覺得為什么DeepSeek還沒發(fā)布R2?
戴雨森:哈哈,這個(gè)現(xiàn)在還是挺神秘的,我們也只能通過一些外圍信息去了解。我聽說現(xiàn)在V4還在訓(xùn)練階段。因?yàn)樗麄儺?dāng)時(shí)是先發(fā)了一個(gè)V3,然后再發(fā)R1,那現(xiàn)在V4都還沒補(bǔ)發(fā),聽說還在訓(xùn)練中,那R2的發(fā)布時(shí)間可能就要等到V4之后了。但我相信DeepSeek肯定在做很多有意思的創(chuàng)新。我們也和里面的一些同學(xué)聊過,知道他們的創(chuàng)新能力是非常強(qiáng)的。不過我覺得他們也確實(shí)會(huì)受到算力資源的限制。畢竟卡的總量是有限的,而且他們發(fā)布模型之后,還有大量的算力要用來做推理(inference)。
晚點(diǎn):對(duì),我覺得他們現(xiàn)在可能也在思考模型或者智能未來的演進(jìn)方向,基本上還是不做多模態(tài)。
戴雨森:對(duì),這其實(shí)反映了一個(gè)很現(xiàn)實(shí)的情況:DeepSeek的資源沒有多到可以在所有領(lǐng)域?qū)?biāo)SOTA。所以就像Claude背后的Anthropic一樣,他們要做一些判斷:哪些方向在當(dāng)前階段最重要、最能出結(jié)果,然后集中資源突破;而對(duì)于一些尚不明朗的方向,他們可以等等,等到思路更清晰之后,再利用自己的工程能力和團(tuán)隊(duì)的努力趕上。
而字節(jié)Seed現(xiàn)在可能是在試圖做到全面領(lǐng)先:他們有Edge組去做最前沿的研究,有Focus組去沖擊SOTA,還有Base組去做服務(wù)產(chǎn)品應(yīng)用。這種是全棧型的布局。
相比之下,DeepSeek更有選擇性,比如重點(diǎn)突破模型智能。當(dāng)資源不那么充足時(shí),確實(shí)需要做一些取舍。像Seed這樣的組織結(jié)構(gòu),把Edge、Focus、Base三個(gè)方向明確分開,我覺得是更明確的。
晚點(diǎn):對(duì),他們現(xiàn)在就是這種比較明確的分工結(jié)構(gòu)。Edge一開始列了五個(gè)方向,現(xiàn)在可能已經(jīng)擴(kuò)展到了十幾個(gè)項(xiàng)目,確實(shí)挺厲害的。
戴雨森:我覺得把應(yīng)用和研究分開,再把研究中的SOTA和Frontier部分繼續(xù)細(xì)分,是比較對(duì)的做法。之前大家可能就是分成Frontier和AppliedResearch,但那時(shí)候資源不夠,組織的職責(zé)也不夠明確。普遍的問題是:如果你讓一個(gè)模型團(tuán)隊(duì)既要做前沿研究、追趕SOTA,甚至超越SOTA,同時(shí)又要滿足App的落地需求,這兩個(gè)目標(biāo)是很容易沖突的。
Kimi在過去半年其實(shí)也總結(jié)了很多這方面的經(jīng)驗(yàn)。如果有個(gè)大用戶量的應(yīng)用在線上,需要花大量精力去維護(hù),處理各種cornercase,修bug。但這些工作其實(shí)對(duì)推動(dòng)下一代模型、挑戰(zhàn)SOTA的幫助是有限的。今年就沒有投入太多精力在K1的迭代和應(yīng)用功能上,而是專注于做下一代模型,來拓展模型智能的邊界。
晚點(diǎn):這也是我們以前反復(fù)會(huì)問大模型創(chuàng)業(yè)公司創(chuàng)始人的一個(gè)問題:你一邊做模型,一邊做產(chǎn)品,中間的精力怎么分配?
戴雨森:目前來看,我覺得還是要先把一個(gè)方向做到極致。比如你如果是做應(yīng)用的,那就假設(shè)自己能用上最好的模型,誰(shuí)最強(qiáng)、最合適就用誰(shuí)。但如果你是做模型的,那目標(biāo)就是讓自己的模型保持在SOTA水準(zhǔn),在某個(gè)具體領(lǐng)域做到最強(qiáng)。
投人的價(jià)值,K2如何逆風(fēng)翻盤
晚點(diǎn):我想聊一下KimiK2。今年年初DeepSeek引發(fā)熱潮后,Kimi內(nèi)部也有了一個(gè)比較明確的目標(biāo),就是要追求SOTA。在這個(gè)目標(biāo)下,K2應(yīng)該是他們做出方向調(diào)整后第一個(gè)比較重磅的成果。你對(duì)這個(gè)過程是怎么理解的?
戴雨森:我想先講個(gè)小故事。前幾天,暗涌在良渚組織了一個(gè)圓桌,把投資了Kimi和MiniMax的投資人都請(qǐng)到一塊。我還開玩笑說,這像是一個(gè)「同情局」,仿佛我們投了大模型公司,很慘該被同情。但我覺得,其實(shí)真正體現(xiàn)一個(gè)團(tuán)隊(duì)能力的,是他們面對(duì)挑戰(zhàn)時(shí)的應(yīng)對(duì)方式,以及是否堅(jiān)持自己的路線去做有價(jià)值的創(chuàng)新。
順風(fēng)的時(shí)候有順風(fēng)的打法,逆風(fēng)的時(shí)候也有逆風(fēng)的打法。像MiniMax,他們專注自己的方向,現(xiàn)在也在推進(jìn)上市流程。這就是他們面對(duì)挑戰(zhàn)的方式。當(dāng)然,也有一些公司在逆風(fēng)中內(nèi)部團(tuán)隊(duì)發(fā)生較大變化,甚至業(yè)務(wù)方向都有調(diào)整。但我覺得Kimi特別的一點(diǎn),是他們的團(tuán)隊(duì)非常穩(wěn)定。如果你看他們的創(chuàng)始團(tuán)隊(duì)或核心成員,幾乎沒有大的變動(dòng)。
晚點(diǎn):這其實(shí)就是我第一個(gè)好奇的點(diǎn)?,F(xiàn)在很多公司到了聯(lián)合創(chuàng)始人或核心業(yè)務(wù)負(fù)責(zé)人層面,都會(huì)有一些變化,但Kimi基本沒怎么變。
戴雨森:這可能跟他們的團(tuán)隊(duì)組成有關(guān)。Kimi的創(chuàng)始團(tuán)隊(duì)一直是以植麟為核心,而且成員是清華的老同學(xué),之間合作很多,甚至是室友還一起玩過樂隊(duì)。并不是因?yàn)橐龃竽P凸静排R時(shí)組起來的。
晚點(diǎn):我查閱資料時(shí)發(fā)現(xiàn),當(dāng)年楊植麟去評(píng)特獎(jiǎng)的時(shí)候,有一張照片是他們系的一些同學(xué)舉著橫幅去支持他。幾位他們系的師弟師妹都會(huì)說楊植麟在當(dāng)時(shí)就是一個(gè)讓大家覺得、非常有號(hào)召力的人。
戴雨森:沒錯(cuò),這也是我們從一開始就決定投資他們的重要原因之一。這個(gè)團(tuán)隊(duì)不僅有技術(shù),而是有很長(zhǎng)的共同信任。創(chuàng)業(yè)會(huì)經(jīng)歷很多挑戰(zhàn),如同壓力測(cè)試,在面對(duì)挑戰(zhàn)的時(shí)候,團(tuán)隊(duì)穩(wěn)定和方向聚焦會(huì)很重要。
Kimi這個(gè)團(tuán)隊(duì)從一開始就是以技術(shù)基因和技術(shù)視野作為核心能力的。很多人可能已經(jīng)忘了,在2023年的時(shí)候,AI的變化太快,幾乎每個(gè)月都有新風(fēng)向。當(dāng)時(shí),Kimi就對(duì)長(zhǎng)文本這個(gè)方向做出了很重要的判斷,選擇做了一個(gè)具備長(zhǎng)文本能力的模型,并基于這個(gè)推出了帶搜索能力的Kimi第一個(gè)版本。
那時(shí)大量的AIchatbot其實(shí)是沒有搜索功能的。沒有搜索,模型的用途就會(huì)受到很大限制,比如你隨便問一個(gè)「現(xiàn)在的美國(guó)總統(tǒng)是誰(shuí)」,它都可能答不上來。
Kimi團(tuán)隊(duì)當(dāng)時(shí)對(duì)長(zhǎng)文本技術(shù)方向的判斷就展現(xiàn)了他們非常強(qiáng)的技術(shù)vision。到了2025年,AI更強(qiáng)調(diào)Agent能力、復(fù)雜任務(wù)執(zhí)行、以及處理更大的代碼庫(kù),大家才真正意識(shí)到長(zhǎng)文本的重要性。如果你真的要讓AI做一個(gè)Agent,完成一個(gè)復(fù)雜任務(wù),它不能只是執(zhí)行100步就歇了。回頭看,其實(shí)這也驗(yàn)證了植麟判斷上的準(zhǔn)確。
所以我覺得他們團(tuán)隊(duì)身上,有三個(gè)特別重要的品質(zhì):
第一是團(tuán)隊(duì)的穩(wěn)定性。這來自于成員之間長(zhǎng)期的淵源和信任。
第二是對(duì)技術(shù)方向的堅(jiān)持。他們不是看到哪個(gè)火就往哪兒跟風(fēng),比如陪伴火了去做陪伴,多模態(tài)火了又去做多模態(tài)。很多方向都可以做,但真正有積累的是那些持續(xù)做一件事的團(tuán)隊(duì)。
第三是他們一直保持的技術(shù)敏感度和洞察力。這個(gè)在技術(shù)變化的關(guān)鍵節(jié)點(diǎn)上尤其重要。
當(dāng)然R1的成功也確實(shí)給了行業(yè)很多啟發(fā),這一點(diǎn)毫無(wú)疑問。當(dāng)時(shí)很多人看到R1,有個(gè)流行說法是:「pre-training不重要,post-training才重要?!沟艺J(rèn)為R1的基礎(chǔ)是V3,這恰好說明好的基礎(chǔ)模型很重要,pre-training和整體架構(gòu)優(yōu)化可以帶來模型能力的提升。K2現(xiàn)在還是個(gè)non-reasoning的模型,已經(jīng)呈現(xiàn)出很好的能力,這也說明pre-training依然很重要。
開源也很重要。現(xiàn)在全球AI社區(qū)正處于EarlyAdopter(早期采用者)階段,通過開源優(yōu)秀的模型和產(chǎn)品給社區(qū)提供價(jià)值的團(tuán)隊(duì),很容易得到熱心的回應(yīng)。我們?cè)贒eepSeek、K2,以及我們sponsor的vLLM、ControlNET等開源項(xiàng)目中看到,只要不斷拿出好的產(chǎn)品,保持對(duì)用戶開放交流的態(tài)度,世界各地的用戶都會(huì)欣賞、支持你,甚至主動(dòng)幫你改進(jìn)問題。但只是開源不本質(zhì),本質(zhì)是開源好的東西,不是開源就一定好,社區(qū)覺得好才是核心。
晚點(diǎn):說到開源,因?yàn)镵2是1萬(wàn)億參數(shù),開源社區(qū)里能真正部署的人很少。
戴雨森:K2主要的場(chǎng)景不是在本地機(jī)器部署,事實(shí)上要在本地滿血跑DeepseekR1也不簡(jiǎn)單。開源的核心不在于本地部署,而是讓大家對(duì)模型有更多自主把控。
晚點(diǎn):你能總結(jié)下他們?yōu)槭裁茨茏龀鯧2這種級(jí)別模型?現(xiàn)實(shí)過程中遇到了哪些挑戰(zhàn)?外部輿論把他們放在低谷,是否帶來很大壓力,比如人才流失?我指的不光是核心層,還有一線工程師。
戴雨森:這里肯定有人流失,但Kimi有兩點(diǎn)優(yōu)勢(shì):第一,核心層很穩(wěn)定;第二,很多年輕同事愿意留在Kimi。
我覺得大家留下不只是因?yàn)殄X,更因?yàn)槟軐W(xué)到東西,能干成自己覺得厲害的事。這符合Kimi核心團(tuán)隊(duì)的基因。
之前做投放時(shí)討論過,他們做投放不是強(qiáng)項(xiàng),但現(xiàn)在是回歸了初心,做團(tuán)隊(duì)能力最強(qiáng)的方向。我覺得這很重要。面對(duì)外部市場(chǎng)壓力,首先不要亂,要聚焦自己最擅長(zhǎng)、最能做好、最有意義的事情。知乎上也有好幾位Kimi的研究員寫了參與K2的很多感想。
技術(shù)變化:推理、編程、工具使用
晚點(diǎn):在技術(shù)領(lǐng)域,你會(huì)比較關(guān)注哪些變化?
戴雨森:我們之前聊到過,我認(rèn)為解鎖AI生產(chǎn)力的三大主線是reasoning、coding和tooluse。
在reasoning方面,我們看到了o3、o4mini的發(fā)布,還有后來的o3pro。雖然這些模型在一些榜單上表現(xiàn)進(jìn)展不大,但我們自己的使用體驗(yàn)是,o3相比o1是一個(gè)明顯的大臺(tái)階,o3pro在推理長(zhǎng)度和邏輯連貫性上也越來越好。現(xiàn)在很多模型在reasoning的細(xì)節(jié)上都有進(jìn)步,比如細(xì)節(jié)的幻覺減少,推理結(jié)果更嚴(yán)謹(jǐn)。
同時(shí)我們還看到,一些小一點(diǎn)的模型也開始具備很強(qiáng)的reasoning能力。像GPQA或AIME這些反應(yīng)模型reasoning能力的指標(biāo)都非常高。K2在這方面也表現(xiàn)不錯(cuò)。
晚點(diǎn):我們之前和一些人交流,比如阿里云CTO周靖人,他并不覺得像o系列的更新是特別大的范式變化。他認(rèn)為這還是在大模型原有方法框架內(nèi)的自然延展。
戴雨森:這個(gè)我同意。如果這些模型還是Transformer架構(gòu),那它們就還是在現(xiàn)有范式內(nèi)演進(jìn)。大家現(xiàn)在都在期待下一個(gè)Transformer是什么。
不過有時(shí)候,一個(gè)技術(shù)范式就可以走得很遠(yuǎn)。就像高速公路可以用幾十年,不一定非要每年都有顛覆式的架構(gòu)變化才叫創(chuàng)新,實(shí)際上,如果每年都有顛覆式的技術(shù)發(fā)生,那說明這個(gè)行業(yè)還很不穩(wěn)定,反而不一定適合產(chǎn)業(yè)落地。今年我們?cè)诋a(chǎn)業(yè)上真正能用到的技術(shù),并不是從0到1的變化,更像是從1到10,甚至從5到8的進(jìn)化。像reasoning的進(jìn)步,就是從很好變成非常好。
在coding上,Sonnet3.5已經(jīng)很不錯(cuò)了,但context長(zhǎng)度還不夠,自我糾錯(cuò)能力也一般。Sonnet3.7和4跑在ClaudeCode上效果非常好。對(duì)復(fù)雜代碼、長(zhǎng)代碼段,它們常常一步就能做對(duì)。這不是從0到1,而是從7到10的質(zhì)量提升。
晚點(diǎn):在基礎(chǔ)模型的競(jìng)爭(zhēng)上,Google最近的勢(shì)頭也很強(qiáng)。過去兩年OpenAI橫空出世時(shí),Google給人感覺有點(diǎn)被打懵。但現(xiàn)在Gemini2.5的口碑和實(shí)際使用反饋都很好。
戴雨森:確實(shí),Google技術(shù)積累深厚,人才密度高,又非常有錢,算力也很充沛。所以我們今年明顯感覺到Google的邊際變化是很大的。
模型層面,Google的Gemini2.5表現(xiàn)非常好。云服務(wù)層面,提供同樣的ClaudeAPI推理服務(wù)上,GCP的表現(xiàn)其實(shí)更好,這背后也離不開TPU的支持。Google的實(shí)力很強(qiáng),是現(xiàn)在模型領(lǐng)域前三名中非常有競(jìng)爭(zhēng)力的一家。
但他們現(xiàn)在也有一個(gè)現(xiàn)實(shí)問題,就是Google的搜索主業(yè)正在承壓。因?yàn)閾?dān)心AI對(duì)搜索廣告帶來沖擊,所以它的股價(jià)一直在震蕩。我覺得這就是一個(gè)典型例子:老業(yè)務(wù)在受損,而新業(yè)務(wù)增長(zhǎng)又很快。這最終會(huì)怎么演化,我覺得可能還需要一兩年才能看清。
應(yīng)用的生長(zhǎng),讓AI不止于問答
晚點(diǎn):這也回到了你之前提到的一個(gè)主題:模型和上層應(yīng)用之間的關(guān)系,現(xiàn)在這個(gè)關(guān)系還在演變。
戴雨森:應(yīng)用的價(jià)值首先取決于模型本身,也就是模型廠商固化在權(quán)重里的那些基礎(chǔ)能力。模型的推理能力、編程能力越強(qiáng),應(yīng)用所能釋放的價(jià)值就越大。但權(quán)重一旦固定,內(nèi)容就是死的,而問題是動(dòng)態(tài)的,所以需要引入context,現(xiàn)在流行的contextengineeringvspromptengineering也說明了prompt模型并不夠,還需要更多更好的context。
我認(rèn)為context可以分為三層:
第一層是通用信息,比如「今天的天氣怎么樣?」這類模型本身是沒有的,需要通過搜索等方式動(dòng)態(tài)獲取。雖然現(xiàn)在也有模型能做簡(jiǎn)單的搜索工作,但這需要給模型配備合適的工具。
第二層是組織層面,比如公司內(nèi)部有哪些流程、文檔、已有的知識(shí)積累。這些信息模型本身也不知道,需要通過應(yīng)用層與模型協(xié)作,讓模型指導(dǎo)人去調(diào)用這些信息。比如一個(gè)人和AI的對(duì)話歷史、個(gè)人偏好、背景信息等,這些模型也不具備,必須由應(yīng)用層來提供。
所以context這一層是由應(yīng)用來提供的,它的質(zhì)量會(huì)對(duì)AI應(yīng)用的表現(xiàn)帶來巨大差別。
AI的目標(biāo)不只是成為一個(gè)問答機(jī)器,最終它是要真正幫用戶完成事情。那在做事情的時(shí)候,它能調(diào)用哪些工具、影響什么結(jié)果,這些也是由應(yīng)用層公司提供的。比如產(chǎn)品提供了哪些公有或私有的MCP工具,或者最終AI能把它的輸出結(jié)果部署在什么環(huán)境上。
所以我覺得模型其實(shí)只是最底層的那一塊。只是因?yàn)樵贑hatGPT剛出來的時(shí)候,我們大多數(shù)使用場(chǎng)景都是在「問」模型,也就是提取它通過壓縮已有知識(shí)獲得的回答。比如問一個(gè)事實(shí)類的問題,這種情況下確實(shí)主要靠模型本身。但當(dāng)任務(wù)更復(fù)雜、模型的智力需要與context、甚至environment配合才能發(fā)揮作用時(shí),那就是「殼」的價(jià)值了。
晚點(diǎn):所以你覺得這是一個(gè)很自然的演化路徑?也沒必要非得強(qiáng)化「我們就是做模型」這件事?
戴雨森:對(duì),模型肯定很重要,但只靠模型本身可能不足以真正釋放出全部的價(jià)值。
晚點(diǎn):一年前大家怎么看Google?一個(gè)失意者?
戴雨森:大家那時(shí)候肯定覺得Google有點(diǎn)落后,被OpenAI搶了風(fēng)頭,很多人才也選擇出走。但后來Google的聯(lián)合創(chuàng)始人SergeyBrin回歸公司之后,很多事情發(fā)生了變化。比如有傳聞?wù)fGoogle收購(gòu)的Character.ai創(chuàng)始人NoamShazeer回去后親自改了一個(gè)bug,直接讓模型性能大幅提升。真假不確定,但關(guān)鍵人才確實(shí)能解決問題。
晚點(diǎn):所以Google能快速追趕,可能不僅是技術(shù),也有組織方式、投入強(qiáng)度的變化?
戴雨森:對(duì),他們對(duì)這件事是真的非常重視。我聽說Gemini團(tuán)隊(duì)加班也很厲害,原本大家覺得Google是養(yǎng)老公司,但現(xiàn)在他們也很拼。
晚點(diǎn):模型競(jìng)爭(zhēng)其實(shí)激活了很多聰明人,追求的成就感也回來了。
戴雨森:我覺得是的。這幾家公司的創(chuàng)始人都非常重視AI,現(xiàn)在已經(jīng)不是「AI會(huì)不會(huì)落地」的問題了,而是必須贏。
不管是Zuckerberg、SergeyBrin,還是OpenAI和Anthropic的團(tuán)隊(duì),他們都看到AGI已經(jīng)迫在眉睫,意識(shí)到這件事的重要性,愿意花錢、愿意投入資源。
最近YCombinator的創(chuàng)業(yè)營(yíng)也提到,現(xiàn)在做任何公司,都應(yīng)該以「AGI兩年內(nèi)實(shí)現(xiàn)」為前提假設(shè)。你要思考:假設(shè)AGI兩年內(nèi)實(shí)現(xiàn),那你的公司該怎么做?
當(dāng)然AGI到底是什么還有很多爭(zhēng)議,但毫無(wú)疑問巨大的變化正在發(fā)生,而且是快速發(fā)生。現(xiàn)在硅谷學(xué)計(jì)算機(jī)的學(xué)生找工作都變難了,因?yàn)槌跫?jí)程序員的工作已經(jīng)被AI替代了很多,很多變化是實(shí)實(shí)在在發(fā)生的。
晚點(diǎn):我們回到你說的三條主線。我們講了推理和編程,現(xiàn)在講工具使用。最近像KimiK2和Grok都在訓(xùn)練階段就加入了使用工具的能力。這是新趨勢(shì)嗎?
戴雨森:現(xiàn)在AI使用工具主要有兩條路線:
像MCP這樣,走API接口方式;
通過視覺模擬AI操作已有軟件。
這兩種方式都有人在做,現(xiàn)在像MCP這樣的生態(tài)已經(jīng)建立起來了,越來越多為AI搭建的工具變得可用。又比如Manus和OpenAI的Operator用的是沙盒虛擬機(jī)里面的瀏覽器、通過視覺操作瀏覽器等已有的軟件,模擬人類的使用過程,目的是讓AI更好地調(diào)用已有軟件的功能。
能夠使用人類的工具完成任務(wù),我覺得這是讓AI真正變有用非常重要的一件事。
Agent讓每個(gè)人學(xué)會(huì)當(dāng)好老板
晚點(diǎn):其實(shí)在OpenAI最開始規(guī)劃的五個(gè)階段里面,第三個(gè)階段就是推理之后的Agent。
戴雨森:對(duì),之前張祥雨有個(gè)播客講得特別好,我很認(rèn)同他的分析。第一個(gè)階段是chatbot,對(duì)應(yīng)ChatGPT;第二個(gè)階段是reasoning,對(duì)應(yīng)o系列模型;第三階段的Agent對(duì)應(yīng)的是Agent-native模型,但目前好像還沒有真正出現(xiàn)。
在Agent的定義中,目標(biāo)是AI自己去尋找的,但目前目標(biāo)仍由人給定。Agent是說,我給你一個(gè)目標(biāo)后,它去預(yù)測(cè)使用工具的序列,選擇什么工具完成任務(wù)。它可能還沒做到像給員工完成任務(wù)那樣,自己拆分任務(wù)和定義目標(biāo)。
現(xiàn)在AIAgent這一類產(chǎn)品還處于非常早期階段。比如Manus才剛推出幾個(gè)月,但我覺得一年甚至半年后,隨著模型能力提升,這類產(chǎn)品的能力會(huì)大幅增強(qiáng)。
我想說的是,不同公司因?yàn)橘Y源稟賦不同,解決Agent這個(gè)問題的方式也會(huì)有差異。我們盡量不做預(yù)判,不認(rèn)為我們能夠預(yù)先知曉未來。比如Kimi的看法是ModelasAgent,通過模型訓(xùn)練中加入大量端到端的工具使用數(shù)據(jù),讓模型本身具備強(qiáng)大的工具調(diào)用能力。而同樣是調(diào)用閉源模型API的產(chǎn)品。Manus提出了「lessstructure,moreintelligence」,但有時(shí)結(jié)構(gòu)化也能提升工作效率。Genspark就專門做了針對(duì)PPT場(chǎng)景的slide生成功能,引入了一系列優(yōu)化工作效果的方法。
晚點(diǎn):這兩種角度都對(duì)。對(duì)用戶來說,有些場(chǎng)景有大致流程,結(jié)果更可控,成本也會(huì)更低。
戴雨森:因?yàn)橛脩粢氖亲詈蟮慕Y(jié)果,而不同的公司想實(shí)現(xiàn)這個(gè)結(jié)果,可能有各種不同的路徑。有的靈活但成本高,有的固定但成本低。所以大家解同一道題,用不同方法都合理。
晚點(diǎn):你說的最大趨勢(shì)無(wú)疑還是Agent?
戴雨森:是AI對(duì)生產(chǎn)力的提升,想讓AI把生產(chǎn)力真的提高,就得讓AI承擔(dān)更多工作。像ClaudeCode、Manus等Agent產(chǎn)品,核心理念是人不做事,AI做事。
有人說這是類似自動(dòng)駕駛L3級(jí)別的產(chǎn)品,人不動(dòng)方向盤,車自動(dòng)駕駛。我們發(fā)現(xiàn)寫代碼的工程師一開始喜歡Cursor,因?yàn)樗€是讓你在熟悉的IDE里面寫代碼,但Manus發(fā)現(xiàn)產(chǎn)品經(jīng)理用Cursor去完成任務(wù)不怎么看代碼,只是看右邊的對(duì)話框,所以他們把對(duì)話框放到主要的位置,做出了一個(gè)更加適合非程序員人群使用的Agent。
隨著模型能力的進(jìn)步,ClaudeCode更極致,用戶不能寫代碼,只能告訴AI你要做什么,其他的AI去完成。所以L3或Agent意味著AI去作為執(zhí)行主角,而用戶要學(xué)會(huì)當(dāng)AI的好老板。
晚點(diǎn):這對(duì)很多人來說挺難,是門檻。AI做事不滿意,你讓它做幾次都不行。
戴雨森:以前我創(chuàng)業(yè)時(shí)也這么想,所有事我都親自做。后來發(fā)現(xiàn)這不是好管理方式,我應(yīng)該賦能下屬,讓他們知道我要什么,讓他們有主觀能動(dòng)性。
以后人類指揮AI可能也是這樣,這可能是人類歷史上第一次要培養(yǎng)一個(gè)工具。以前培養(yǎng)人很難,大部分人是被培養(yǎng)的,很少有人有能力或機(jī)會(huì)去培養(yǎng)一個(gè)下屬。但現(xiàn)在每個(gè)人可能都要學(xué)會(huì)如何給AI下命令,如何培養(yǎng)AI去更好完成工作。
晚點(diǎn):你提到Manus、Genspark這類通用Agent的用戶群都比較廣泛。你們?cè)趺从^察垂直場(chǎng)景里的Agent?
戴雨森:通用是因?yàn)楫?dāng)前模型能力偏通用,但肯定會(huì)逐漸涌現(xiàn)某些垂直場(chǎng)景。
我覺得一個(gè)好的產(chǎn)品,最后肯定還是要有清晰的定位,要在某些領(lǐng)域做到絕對(duì)的第一名,才能擁有長(zhǎng)期價(jià)值?;蛘哒f我們目標(biāo)不是追求通用,而是從通用開始,逐漸發(fā)展收斂到一些核心場(chǎng)景。
技術(shù)革命的早期發(fā)展階段,往往大家都在嘗試,也不知道新技術(shù)適合做什么,最后看什么效果最好。例如蒸汽機(jī)剛被發(fā)明時(shí),最開始是用于抽煤礦的水,后來發(fā)現(xiàn)用來驅(qū)動(dòng)火車和紡織機(jī)更好。蒸汽機(jī)也是一個(gè)「通用技術(shù)」,但最后最大的價(jià)值可能來自幾個(gè)具體場(chǎng)景。
我覺得現(xiàn)在coding、做PPT這類的officework、deepresearch三者毋庸置疑是已經(jīng)涌現(xiàn)出來的重要方向。
晚點(diǎn):有個(gè)話題挺有意思。國(guó)內(nèi)大家討論通用產(chǎn)品,覺得這是大公司的必爭(zhēng)之地。但跟國(guó)外投資人聊,他們反而對(duì)SuperApp的可能性更感興趣,關(guān)心怎么打敗OpenAI和Google。
戴雨森:如果你有機(jī)會(huì)挑戰(zhàn)大公司,那是好事,至少有資格參與奧運(yùn)會(huì),比不參與強(qiáng)。
很有意思的一件事是,Manus出現(xiàn)后,有很多人說它沒壁壘,用開源框架一個(gè)周末就能搞出來。但現(xiàn)在過了這么多個(gè)周末,還沒看到任何一個(gè)類似的應(yīng)用能真正做好的。
我覺得在全球市場(chǎng),大家對(duì)真正的創(chuàng)新還是尊重的,不會(huì)直接復(fù)制完全一模一樣的產(chǎn)品??赡軙?huì)借鑒交互或呈現(xiàn)思路,比如AI在干活的表現(xiàn)形式,但不會(huì)直接像素級(jí)復(fù)制。在全球化競(jìng)爭(zhēng)里,先發(fā)優(yōu)勢(shì)會(huì)帶來很多口碑和傳播優(yōu)勢(shì),這也是對(duì)創(chuàng)新者的建獎(jiǎng)勵(lì)。
每月1000美金的AI產(chǎn)品訂閱
晚點(diǎn):你算過現(xiàn)在一個(gè)月在AI產(chǎn)品訂閱上花多少錢嗎?
戴雨森:大概接近1000美金。Manus是200美金,Genspark是200美金,ChatGPT、Gemini、Grok這些也都差不多各200美金。我買的基本上都是高級(jí)方案。
我一直有個(gè)理念,新產(chǎn)品就要多試試,很多時(shí)候花點(diǎn)錢試一試并不過分。很多AI產(chǎn)品的革命之處不能只看報(bào)道,得親身去用。當(dāng)你能看到一個(gè)未來的時(shí)候,你會(huì)產(chǎn)生很多的靈感。
我們?nèi)路菥陀^察到,Manus上線后推理用量暴漲,Agent產(chǎn)品的token用量相比Chatbot是顯著增長(zhǎng)。當(dāng)時(shí)二級(jí)市場(chǎng)很多人還在質(zhì)疑英偉達(dá),覺得哪怕全世界所有人都用chatbot,推理需求也根本沒那么大,用不了那么多算力。
但其實(shí)這就像撥號(hào)上網(wǎng)時(shí)代,一開始所有人都在聊QQ,不需要那么多帶寬。但有了寬帶網(wǎng)之后,大家就要在線上看4K視頻了。模型能力越強(qiáng),可以解鎖的場(chǎng)景越多,token使用就越多。
晚點(diǎn):2023年,黃仁勛在英偉達(dá)內(nèi)部講話中說,他們的市值目標(biāo)是2萬(wàn)億美元。當(dāng)時(shí)英偉達(dá)剛剛突破1萬(wàn)億。我們還在討論他這口氣是不是太大。結(jié)果今年已經(jīng)突破4萬(wàn)億了。
戴雨森:他很快可能會(huì)到5萬(wàn)億。因?yàn)閠oken向生產(chǎn)力的轉(zhuǎn)化趨勢(shì)才剛剛開始。
這就像火車開動(dòng)了,就不會(huì)突然又停下來了。我們現(xiàn)在還在不斷發(fā)現(xiàn)AI新的使用場(chǎng)景。比如說一個(gè)工程師原來一天可以寫100行代碼,現(xiàn)在有了Cursor、ClaudeCode,可能寫的代碼是原來的10x,能解決更多以前沒想過要解決的問題。又比如有了ChatGPT和Manus,你會(huì)問的問題也會(huì)變多。
很多以前不知道該問誰(shuí)的問題,現(xiàn)在可以用AI來解決。給用戶帶來的生產(chǎn)力提升,導(dǎo)致用戶更愿意付費(fèi)。
晚點(diǎn):目前生產(chǎn)力場(chǎng)景的token消耗是非常高的?
戴雨森:生產(chǎn)力可以以10倍,100倍的速度增長(zhǎng)。和AI閑聊再怎么聊,一天就那么多時(shí)間,這是我們以前講的attentionisallyouneed。如果你要的是用戶注意力,它是有限的,并且是和抖音,Tiktok、小紅書一起去爭(zhēng)奪的注意力。
但在生產(chǎn)力場(chǎng)景,用戶需求的上限很高,可以從問一個(gè)問題變成問100個(gè)問題,需要的算力可以漲100倍。
晚點(diǎn):而且單位時(shí)間內(nèi)token消耗的復(fù)雜度也在迅速提升,比如我要消費(fèi)的內(nèi)容、視覺信息可能也變得更復(fù)雜。
戴雨森:在未來你可以問AI之前沒想到的非常復(fù)雜的問題,我給你舉個(gè)很簡(jiǎn)單的例子。比如美股二級(jí)市場(chǎng)的朋友,在財(cái)報(bào)季時(shí)一天可能要關(guān)注五六家公司發(fā)業(yè)績(jī)。凌晨四點(diǎn)起床看財(cái)報(bào)數(shù)據(jù)、代入模型做對(duì)比、聽電話會(huì)議、分析CEO的展望,都是他們的日常。
原來他們不可能同時(shí)聽多個(gè)財(cái)報(bào)會(huì),只能靠招更多人或挑重點(diǎn)去選擇。但現(xiàn)在有了AI,雖然目前還不能完全跑通全流程,但6-12個(gè)月內(nèi)就有可能讓一個(gè)分析師同時(shí)覆蓋50家股票的財(cái)報(bào)。
AI可以幫他們看財(cái)報(bào)、聽電話會(huì)議記筆記、回答事前準(zhǔn)備好的問題、總結(jié)CEO回答、寫報(bào)告。這些原來因?yàn)椤缸霾坏健共艣]放到你的工作時(shí)間表里的事情現(xiàn)在AI能完成了,需求就自然增長(zhǎng)了。
就像飛機(jī)出現(xiàn)之前,沒有人會(huì)說「我今天要飛美國(guó)出差」。但飛機(jī)一旦存在,新的需求就出現(xiàn)了。AI也一樣,它讓你開始做那些你原本不會(huì)想做的事。
晚點(diǎn):時(shí)間是有限的。但單位時(shí)間內(nèi)娛樂內(nèi)容的復(fù)雜度、感官刺激可能會(huì)大幅提升,這也是以前難以想象的。
戴雨森:對(duì),確實(shí)難以想象。但我想說的是,生產(chǎn)力的價(jià)值是直接可衡量的。比如AI幫我賺100塊錢,我為它付1塊或者10塊。
而且我們觀察到一個(gè)很有意思的現(xiàn)象:當(dāng)AI按token用量計(jì)費(fèi)后,很多人是希望用得更多的。因?yàn)樗_實(shí)在幫你完成工作,比如幫你寫了更多代碼。
這本來就是你自己要做、要花時(shí)間花錢雇人做的事,現(xiàn)在AI幫你完成了,它就有價(jià)值。
硅谷Acqui-hire搶人大戰(zhàn)
晚點(diǎn):關(guān)于最近這場(chǎng)「搶人大戰(zhàn)」你有沒有什么看法?
戴雨森:確實(shí)最近有很多人被挖走,也有人接到電話但沒去。大量?jī)?yōu)秀人才被disruptive(顛覆性)級(jí)別的薪資挖走。
這種挖角不管是對(duì)被挖團(tuán)隊(duì),還是Meta自己原有的團(tuán)隊(duì),都是非常大的沖擊。在硅谷幾乎所有頂尖公司都在發(fā)生類似動(dòng)蕩。被挖的人所在團(tuán)隊(duì)軍心難免動(dòng)搖,留下的人也開始質(zhì)疑:是不是自己也該漲薪?
這種高薪挖人當(dāng)然是人才價(jià)值的體現(xiàn),但越是頂級(jí)人才,也越需要時(shí)間和環(huán)境來磨合,才能真正形成合力。歷史上失敗的例子也很多,所以對(duì)于這些組織來說,這既是機(jī)會(huì),也是一場(chǎng)挑戰(zhàn)。
晚點(diǎn):你覺得搶人競(jìng)爭(zhēng)算良心嗎?
戴雨森:我覺得這也是體現(xiàn)了創(chuàng)始人的精神,就是他愿意不惜代價(jià)去爭(zhēng)取人才。如果花錢能解決的事,我就花錢辦。我覺得這也反映了人才確實(shí)很重要。
晚點(diǎn):壓力主要是在硅谷嗎?不過從另一面看,這也給創(chuàng)業(yè)公司提供了不錯(cuò)的退出機(jī)會(huì)。
戴雨森:但是這種退出可能不夠大。有的人覺得公司賣個(gè)幾億美元就挺好,有人則想做千億美元公司。創(chuàng)業(yè)公司也需要更多彈藥去和Meta這樣的大廠競(jìng)爭(zhēng)。比如說Cursor之前融了很多錢,我們一度還覺得融這么多錢做什么,現(xiàn)在看到他們要面對(duì)的是更多錢補(bǔ)貼用戶用token,招人也要更高成本,所以融資更多很合理?,F(xiàn)在競(jìng)爭(zhēng)無(wú)論是補(bǔ)貼還是人才都升級(jí)了。頂級(jí)人才也有很多選擇,對(duì)很多創(chuàng)業(yè)公司來說,加入戰(zhàn)局的門檻和水位都在提升。
晚點(diǎn):硅谷這種人才收購(gòu)(Acqui-hire)很流行,主要是為了繞過反壟斷限制,也反映了競(jìng)爭(zhēng)多激烈。
戴雨森:大家都想加快節(jié)奏,因?yàn)殄X太多了。幾家巨頭賬上都有大量現(xiàn)金,這些錢投下去,如果能用錢換時(shí)間和競(jìng)爭(zhēng)優(yōu)勢(shì),對(duì)他們來說就是簡(jiǎn)單的事情。
Benchmark鈍化,突破智能的邊界
晚點(diǎn):最后這一部分,我想問一些你的感受。從GPT-3到現(xiàn)在,已經(jīng)有兩年半時(shí)間了。你目前對(duì)什么事情還是特別好奇?
戴雨森:我好奇的事情始終還有很多。首先是如何衡量智能的邊界。
你想,ChatGPT剛出來的時(shí)候,人類還能指出它的回答問題所在。但現(xiàn)在無(wú)論是它研究的內(nèi)容本身還是文筆,普通人類越來越難發(fā)現(xiàn)它的缺陷了。當(dāng)人類智能被逐漸接近的時(shí)候,你怎么衡量一個(gè)或許比你更聰明、更深度思考、記憶力更強(qiáng)的存在?
關(guān)于如何衡量智能,我的好朋友姚順雨他寫了篇文章《下半場(chǎng)》提到,未來AI的benchmark會(huì)越來越重要,現(xiàn)在的benchmark已經(jīng)鈍化,不能準(zhǔn)確區(qū)分模型差異。比如說一個(gè)benchmark得85分和90分,真的能反映模型的區(qū)別嗎?Kimi的經(jīng)驗(yàn)也說明,內(nèi)部制定好的benchmark也很重要,模型訓(xùn)練,關(guān)鍵是如何衡量結(jié)果。內(nèi)部benchmark的水平質(zhì)量往往決定了模型的質(zhì)量。
所以我覺得如何衡量智能、如何探索智能邊界依然非常重要?,F(xiàn)在我們還能勉強(qiáng)說用一用模型,「VibeTesting」,能感受到模型的能力好壞,但再過幾年,前五名的模型可能都比你聰明的時(shí)候,你怎么去評(píng)估誰(shuí)更好?
晚點(diǎn):所以怎么去衡量智能的邊界?
戴雨森:第二個(gè)我想說的是,我一直反復(fù)思考生產(chǎn)力這個(gè)邏輯。每個(gè)人擁有大量生產(chǎn)力之后,對(duì)于個(gè)人、組織、乃至世界的影響是什么?
對(duì)個(gè)人來說,超級(jí)個(gè)人。一個(gè)人能做的事情越來越多:從做小貓補(bǔ)光燈這樣的小app,到開發(fā)游戲,甚至到SamAltman預(yù)言的「一個(gè)人的獨(dú)角獸公司」完全可能實(shí)現(xiàn)。當(dāng)年Instagram被收購(gòu)時(shí)只有13個(gè)人,在AI時(shí)代,13個(gè)人到3個(gè)人是完全有可能的。
這意味著人和人之間差距會(huì)變得很大。當(dāng)每個(gè)人都擁有無(wú)限聰明的助手,以及像Manus這種可以日夜無(wú)休幫你打工的「賽博牛馬」時(shí),有人能很好地利用它創(chuàng)造巨大價(jià)值,有人可能沒有產(chǎn)生那么大價(jià)值,所以成長(zhǎng)速度差異會(huì)進(jìn)一步拉大。
對(duì)組織來說,一是小組織可以變得很強(qiáng)大,二是大組織能通過先進(jìn)技術(shù)管理更大、更復(fù)雜的業(yè)務(wù)。比如美團(tuán)管理幾百萬(wàn)騎手,業(yè)務(wù)非常復(fù)雜,如果沒有先進(jìn)互聯(lián)網(wǎng)通信和管理技術(shù),根本無(wú)法實(shí)現(xiàn)。加入AI后,大公司的管理人數(shù)、業(yè)務(wù)復(fù)雜度和深度都會(huì)再升一個(gè)臺(tái)階。
世界是由各種組織驅(qū)動(dòng)的,組織能力邊界的提升對(duì)世界影響巨大。進(jìn)一步來說,當(dāng)整體生產(chǎn)力大幅提升,而人與人、組織與組織之間差距變大時(shí),如何在效率和公平間尋求平衡?AI最初是最聰明的人制作工具給頭部用戶用,但這些精英產(chǎn)生的價(jià)值如何反哺普通大眾?即便一個(gè)普通人不是特別努力學(xué)AI,我們?nèi)绾巫孉I產(chǎn)品越來越易用,讓普通人也能從中獲益?
晚點(diǎn):AI還會(huì)帶來隱私暴露和虛假信息泛濫,讓真實(shí)界限變得模糊。
戴雨森:對(duì),現(xiàn)在你很難區(qū)分什么是真實(shí)的文章。我現(xiàn)在還能讀出DeepSeek的味道,但一年后可能分辨不出,或者說,可能已經(jīng)有很多AI寫的文章我已經(jīng)分辨不出來了,我能分辨出來的只是那些還偽裝得不夠好的。大家都知道AI會(huì)引用虛假內(nèi)容,但關(guān)鍵什么是虛假呢?真假的界限也越來越模糊了。
我一直在想,人類最大的限制是什么?我這邊覺得是大腦的功率,大腦功率大約20瓦,人類智能的上限就是這么多。而AI可以很快接近甚至突破這個(gè)上限。智能越多,我們用它做什么,人與AI的角色分工如何,這些都是我們很快要面對(duì)和調(diào)整的問題。
有時(shí)候我覺得有點(diǎn)可怕,因?yàn)榇蟮淖兓呀?jīng)到來,只是大家還在逐漸感受到它。比如對(duì)程序員影響特別直接,普通初級(jí)程序員如果不用AI,未來兩年后找到工作會(huì)非常困難。但一年的時(shí)間人是很難做出改變的。而更多的職業(yè)可能也會(huì)在很短的時(shí)間內(nèi)受到極大的沖擊。
Talkischeap,Showmetheproduct
晚點(diǎn):你會(huì)對(duì)什么事感到疲倦?
戴雨森:我覺得第一個(gè)疲倦的是過度營(yíng)銷。過去幾年有一個(gè)趨勢(shì),就是很多產(chǎn)品在過度營(yíng)銷,各種「震驚體」,但好的產(chǎn)品比如說Manus,幾乎沒花錢營(yíng)銷,但大家誤以為它花了很多錢。
之前AI的進(jìn)步主要是模型的進(jìn)步,普通用戶還無(wú)法在產(chǎn)品中體驗(yàn),因此研究員和媒體擁有很大的解釋權(quán)。但現(xiàn)在模型已經(jīng)開始轉(zhuǎn)化成應(yīng)用了。那時(shí)候我在即刻發(fā)了一條說:「Talkischeap,showmeyourproduct.」
現(xiàn)在很多AI模型的核心能力最終都要轉(zhuǎn)化成產(chǎn)品,用戶能真正用得起來,AI才有生命力。很多講故事、炒作的公司,不如專注做好產(chǎn)品。我們看到現(xiàn)在發(fā)展好的AI公司大多做到了這一點(diǎn),拿出真正對(duì)客戶有價(jià)值的產(chǎn)品。
晚點(diǎn):你今年內(nèi)想驗(yàn)證的是什么問題?
戴雨森:一個(gè)是AIL3級(jí)別的Agent應(yīng)用能不能快速達(dá)到完成實(shí)際工作的程度。比如Manus我們都在用,用戶也在付費(fèi),但有時(shí)一個(gè)任務(wù)只能完成七八十分,還需人補(bǔ)充到100分。ClaudeCode相比之前的codingagent,逐漸能做到一次完成,不用修改就能上線。
未來幾個(gè)月到年底,我相信Agent的能力還會(huì)有很大提升。到那時(shí),可能你給AI一條指令,它就能埋頭干完,甚至一次就干好了。
晚點(diǎn):我現(xiàn)在用AI感覺是得刻意多用它。因?yàn)榻o它比較復(fù)雜的任務(wù)時(shí),它完成得不完美。
戴雨森:這是普遍現(xiàn)象。好的AI產(chǎn)品一定是為未來的模型設(shè)計(jì)的。Cursor上線兩三年了,但直到Sonnet3.5出來的時(shí)候才開始火,等3.7出來后才爆發(fā)增長(zhǎng)。
Manus也是一樣,剛上線時(shí)很多任務(wù)其實(shí)也做得不好,但6個(gè)月、12個(gè)月后,新一代模型會(huì)讓它表現(xiàn)更好。所以你要為未來設(shè)計(jì),而不是為當(dāng)下就能獲得的模型設(shè)計(jì)。
晚點(diǎn):這對(duì)普通用戶可能反直覺,但我理解,這是快速發(fā)展階段。普及到主流用戶時(shí),大家仍追求開箱即用。
戴雨森:其實(shí)也不一定,比如我們之前發(fā)的《Manus對(duì)談YouTube聯(lián)創(chuàng)陳士駿》,Youtube的聯(lián)合創(chuàng)始人Steve他說YouTube出來時(shí)是為未來寬帶設(shè)計(jì)的,2005年那時(shí)候美國(guó)剛開始普及寬帶,因此一開始的體驗(yàn)并不是那么好。同樣短視頻平臺(tái)如抖音快手上線時(shí),也是為一兩年后的智能手機(jī)和4G普及設(shè)計(jì)的。AI也是這樣,你要永遠(yuǎn)提前走一步,喬布斯曾經(jīng)說過「要去冰球?qū)?huì)前往的地方」。
晚點(diǎn):所以你想驗(yàn)證的是,到年底看產(chǎn)品能否高度自動(dòng)化完成任務(wù),不再需要人參與?
戴雨森:比如現(xiàn)在Agent完成任務(wù)的成功率可能是20%,能不能到70-80%?這會(huì)讓前沿用戶對(duì)工作的定義和AI使用方式發(fā)生巨大變化。
另外我好奇的是,隨著用戶使用AI產(chǎn)品的變多,記憶會(huì)帶來多大變化。AI應(yīng)用長(zhǎng)期壁壘是什么?我覺得很重要的是記憶和個(gè)性化。現(xiàn)在記憶個(gè)性化對(duì)結(jié)果影響有限,但長(zhǎng)期來看,我們希望它像員工或助手,隨著使用時(shí)長(zhǎng)增加,越來越了解你,變得不可替代。這是我們想看到的進(jìn)步。
晚點(diǎn):這個(gè)進(jìn)步不能光靠模型是嗎?記憶需要不斷互動(dòng),給AI個(gè)人層面上下文。
戴雨森:一方面是在線學(xué)習(xí)(onlinelearning),模型在使用中學(xué)習(xí)。另一方面需要你給它更多數(shù)據(jù)、文件、上下文,應(yīng)用設(shè)計(jì)非常重要。模型和應(yīng)用要協(xié)同合作。
我覺得我們對(duì)未來創(chuàng)新要有更多期待和包容,對(duì)中國(guó)團(tuán)隊(duì)的創(chuàng)新和發(fā)展能力要更有信心和支持。
創(chuàng)業(yè)新浪潮的新觀察
晚點(diǎn):你們現(xiàn)在特別關(guān)注的團(tuán)隊(duì)是什么類型的人?還有哪些地方有新創(chuàng)始人在出現(xiàn)?
戴雨森:今年我們看到,想出來創(chuàng)業(yè)的人多了很多。一兩年前大家還在相信未來應(yīng)用會(huì)落地,現(xiàn)在已經(jīng)看到有Manus這個(gè)例子,大家堆的都是金玉在前。所以大家肯定會(huì)想,「那我也許也可以」,這一定是一個(gè)更多的過程。我們看到很多不管是研究員,還是大廠里的年輕人,都蠢蠢欲動(dòng)。
晚點(diǎn):你最近在看什么比較好玩的書,或者有沒有作品想分享?
戴雨森:我想推薦《33號(hào)遠(yuǎn)征隊(duì)》。這是一個(gè)游戲,由一家法國(guó)創(chuàng)業(yè)公司開發(fā)。故事設(shè)定在一個(gè)虛擬世界,有一個(gè)神「繪母」,每年在天邊的一個(gè)石頭上寫下一個(gè)數(shù)字,這塊石頭叫Monolith。
她從一百開始倒計(jì)時(shí),每寫一個(gè)數(shù)字,對(duì)應(yīng)年齡達(dá)到那個(gè)數(shù)字的人就會(huì)死去,全部消失。第一年是100,第二年是99,如此類推,一波一波的人死去。于是人類開始反抗,每年組織剩余年齡差一歲的人組成遠(yuǎn)征隊(duì),想挑戰(zhàn)并打破這個(gè)魔咒,但一直沒有成功。今年繪母寫下了33,33歲的人將在明年此刻死去,于是第33號(hào)遠(yuǎn)征隊(duì)出發(fā)了。
前幾天是Manus創(chuàng)始人肖弘的33歲生日,我就推薦他玩這個(gè)游戲。這個(gè)游戲講述了一個(gè)滿33歲的人如何出海挑戰(zhàn)天命的故事。游戲團(tuán)隊(duì)也是33個(gè)人,是一個(gè)創(chuàng)業(yè)公司開發(fā)的,創(chuàng)始人曾在育碧(Ubisoft)工作。他在那里覺得無(wú)聊,于是出來做了這款游戲。
《黑神話·悟空》是中國(guó)的大IP,結(jié)合中國(guó)的文化積淀和先進(jìn)技術(shù)制作的精品作品。《33號(hào)遠(yuǎn)征隊(duì)》也是一個(gè)法國(guó)浪漫主義設(shè)定,藝術(shù)與先進(jìn)技術(shù)結(jié)合帶來的優(yōu)秀作品,它的情節(jié),畫面,音樂等都非常非常棒,這是我今年非常喜歡玩的游戲,我認(rèn)為非常有希望沖擊年度游戲。
題圖來源:真格基金
長(zhǎng)期不說話,邏輯混亂,沒有觀點(diǎn),每天循環(huán)一個(gè)動(dòng)作
明天我們將會(huì)進(jìn)入《所謂情商高,就是會(huì)說話》的第三天,為你分享面對(duì)與人發(fā)生沖突時(shí)說話的技巧和方法-。這里是梨花聽書《每周共讀一本書》,明天我們將繼續(xù)為你解讀,我是xxx,明天見~今日金句:1.溝通是一種雙向的選擇,所以揣摩對(duì)方的心理是必要的--。2.說話能力,是考察一個(gè)人綜合能力的重要指標(biāo)||。3.主動(dòng)控制好自后面會(huì)介紹。
聽說讀寫全方面的溝通技巧??丁香新語(yǔ)
2012年,隨著喜馬拉雅等移動(dòng)音頻平臺(tái)的興起,聽書成為年輕人的閱讀潮流,清靈就是其中一員————。那年,清靈決定和朋友一起參加線上的普通話交流論壇,“聽了這么多有聲書,我也想試一試-?!鼻屐`說。現(xiàn)場(chǎng)來了許多人,學(xué)表演的、學(xué)播音主持的,大家都等著排序朗讀|。清靈有些緊張,畢竟在這些專業(yè)人士面前,沒有訓(xùn)練過的她等我繼續(xù)說————。
如何在孩子們腦海種下“說話有方”的種子?讀漫畫版《鬼谷子》
由于工作中經(jīng)常會(huì)需要跨部門溝通或者輸出分析報(bào)告,溝通表達(dá)能力在工作中十分重要。但初入職場(chǎng)的我們,總會(huì)遇到各種溝通和表達(dá)的難題。為什么有些同事遇到相關(guān)問題時(shí)可以處理得那么好,其實(shí)背后是有一定的方法和技巧可以學(xué)習(xí)的,因此有了這篇學(xué)習(xí)筆記。通過以閱讀、聽書和看讀書筆記的形式,快速了解了《溝通的藝術(shù)》、《..
來源:紅網(wǎng)
作者:訾新梅
編輯:賴漢白
本文為紅辣椒評(píng)論 原創(chuàng)文章,僅系作者個(gè)人觀點(diǎn),不代表紅網(wǎng)立場(chǎng)。轉(zhuǎn)載請(qǐng)附原文出處鏈接和本聲明。