文|鄧詠儀
編輯|蘇建勛
發(fā)布開源模型K2一周后,Kimi引起的全球熱潮還在繼續(xù)。
7月11日,月之暗面(MoonshotAI)開源了萬億參數(shù)的MoE模型KimiK2。這是一個(gè)參數(shù)高達(dá)1T,激活參數(shù)32B的MoE模型,包括兩款開源模型版本Kimi-Base和Kimi-instruct。
K2是個(gè)“偏科”選手,擅長(zhǎng)編程、智能體類的任務(wù)。在Kimi公布的測(cè)評(píng)結(jié)果中,KimiK2在自主編程、工具調(diào)用和數(shù)學(xué)推理三個(gè)維度的表現(xiàn)上,都超過了同為開源模型的DeepSeek-V3和阿里Qwen3。
△圖源:Kimi
HuggingFace數(shù)據(jù)顯示,開源一周后,K2下載量累計(jì)超過10萬,還在快速攀升中。在大模型權(quán)威競(jìng)技場(chǎng)LMSYS中,K2-Instruct已經(jīng)沖到總榜第四,僅次于GPT-4o、Claude-3.5、Gemini-1.5-Pro。
馬斯克在推特上轉(zhuǎn)發(fā)了的OpenRouter趨勢(shì)數(shù)據(jù)顯示,K2的在一周內(nèi)攀升至全球趨勢(shì)榜第二,僅次于Grok4。
△圖源:Twitter
月之暗面這次沒有選擇大規(guī)模營(yíng)銷,而是在用一種全新的方式開源。
K2發(fā)布后,Kimi的算法工程師、研究員,在推特、小紅書、知乎上積極分享K2的工作和技術(shù),回復(fù)用戶疑問;Kimi的官方推特也在不間斷地刷屏,轉(zhuǎn)發(fā)社區(qū)里對(duì)K2的贊美和建議。
熱情的互動(dòng)引來了更多的“自來水”。HuggingFace聯(lián)合創(chuàng)始人ThomasWolf就對(duì)KimiK2大加贊賞,表示開源模型正在挑戰(zhàn)最新的閉源權(quán)重模型。
發(fā)布熱鬧得像團(tuán)建,與這家公司過去半年的沉默形成鮮明對(duì)比。
過去兩年,Kimi經(jīng)歷了一場(chǎng)過山車般的起伏:幾乎是最后一個(gè)推出ChatBot助手Kimi,但是憑借著長(zhǎng)文本和出圈的策劃一炮而紅,成為最先出圈的大模型應(yīng)用產(chǎn)品。
但2025年,幾乎所有模型廠商,都被橫空出世的DeepSeek打得失語。追逐AGI,證明自己還有技術(shù)實(shí)力,變成了所有廠商要做的證明題。
曾經(jīng)擁有夢(mèng)幻開端的Kimi,在今年來了個(gè)猛轉(zhuǎn)彎:ToC的Kimi應(yīng)用停止投流,專心主攻模型。去年曾經(jīng)試水的Ohai、Noisee等其他C端應(yīng)用,以及Kimi在多模態(tài)上的嘗試也迅速暫停。這也讓它遭受的質(zhì)疑更猛烈——是不是放棄了預(yù)訓(xùn)練?停止投流后,ToC應(yīng)用放棄了嗎?
蟄伏半年,Kimi需要一場(chǎng)翻身仗。K2的發(fā)布,就是回歸AGI主線的一種宣言。
“又一個(gè)DeepSeek時(shí)刻”
K2發(fā)布,已經(jīng)引起了全球開發(fā)者社區(qū)的震動(dòng)。7月16日,著名的《Nature》雜志發(fā)文,表示K2的發(fā)布為“另一個(gè)DeepSeek時(shí)刻”,足見其贊美。
為什么K2的發(fā)布如此重要?簡(jiǎn)單來說,因?yàn)镵2把DeepSeek模式再走了一遍:主打高性能、低成本,而且真開源。最重要的是,端出了真的好東西。
K2是個(gè)性能強(qiáng)悍的模型。它很專注,目標(biāo)清晰——就是為了智能體(AgenticAI)而生。
一位Kimi的算法工程師JustinWong在博客里說:Kimi希望把人與AI的交互方式,從chat-first變成artifact-first,即交付一個(gè)具體的交付物(比如一個(gè)3D模型、一個(gè)表格),而非交付一段聊天上下文。
用大白話說,就是要真能干活,不只是純聊天了。
了解了這點(diǎn),才能理解Kimi在模型訓(xùn)練路線上的諸多選擇。
DeepSeekR1發(fā)布時(shí),更多注重思考、推理能力,在發(fā)布后相當(dāng)長(zhǎng)一段時(shí)間才加入工具調(diào)用功能。而K2并沒有像DeepSeekR1那樣帶上推理模式(如展現(xiàn)思考過程),雖然也著重提升了風(fēng)格化寫作能力,但并沒有過多強(qiáng)調(diào)。
K2最看重的還是Agentic(智能體)能力,把提升“自主使用工具、完成任務(wù)”的能力,放到最高優(yōu)先級(jí)。“這在整個(gè)領(lǐng)域里是一個(gè)非常罕見的選擇。”一位從業(yè)者評(píng)論道。
更具體地說,K2把優(yōu)化的重點(diǎn)放在了:根據(jù)聊天的上下文,調(diào)用外部的工具,要讓調(diào)用速度更快,完成任務(wù)的質(zhì)量更高——比如瀏覽器、PPT、Excel、3D繪畫軟件等等。用戶也可以接入owl、Cline、RooCode等Agent/Coding框架,來自主編程。
所以,在K2的使用案例中,你可以看到,直接輸入Prompt,不用怎么等K2“思考”,K2就迅速生成3D旋轉(zhuǎn)地球模型、生成PPT、生成晝夜循環(huán)的山川峽谷3D景觀、3D粒子星系、交易看盤等等。
△Prompt:Createa3DHTMLmountainscenewithcliffs,rivers,andday-nightlighting.Supportsdrag/zoom,animatedtransitions,realisticgradients,andtoggleablecontourlines...(創(chuàng)建一個(gè)3DHTML山脈場(chǎng)景,包含懸崖、河流和晝夜光照變化。支持拖動(dòng)和縮放、動(dòng)畫過渡、真實(shí)感漸變色,并可切換等高線顯示...)來源:Kimi
把13萬行的原始數(shù)據(jù)丟給KimiK2,可以幫你分析遠(yuǎn)程辦公比例對(duì)薪資的影響,分析顯著差異,自動(dòng)生成統(tǒng)計(jì)圖表與回歸模型解讀等等,用統(tǒng)一色調(diào)做出小提琴圖(violinplot)、箱線圖(boxplot)、散點(diǎn)圖(scatterplot)等專業(yè)圖表,整理成報(bào)告。
K2的另一個(gè)核心貢獻(xiàn)在于,把模型的訓(xùn)練和使用成本又拉到了一個(gè)地板價(jià),同時(shí)還保持著接近Claude主流模型的性能,主打一個(gè)性價(jià)比高。
KimiK2API的定價(jià)是:每百萬輸入tokens4元,每百萬輸出tokens16元;直接和同樣主打編程的Claude4Sonnet(每百萬輸入3美元,每百萬輸出15美元)的API價(jià)格相比,整體成本可以下降超過75%。
別小看這75%,如今AI編程已經(jīng)成為創(chuàng)業(yè)賽道的“明牌”,賽道里包括Cursor等頭部AI編程公司估值已經(jīng)迅速起飛。截至2025年6月,Cursor的ARR(年度經(jīng)常性收入)已突破5億美元大關(guān),相較于4月中旬披露的3億美元,短短兩個(gè)月內(nèi)飆升了60%。
開發(fā)者會(huì)實(shí)實(shí)在在用腳投票。K2一出,HuggingFace的下載量漲得飛快,K2很快就登上了OpenRouter的趨勢(shì)榜周第二,開發(fā)者頻頻吐槽為什么API還這么慢,用不上。
K2現(xiàn)在并不完美,輸出的結(jié)果還是會(huì)有不足之處,比如Token輸出比較啰嗦,代碼質(zhì)量和頂尖的Claude相比還是有差距——但架不住它性價(jià)比高。很多博主的測(cè)試案例中,普通程序員寫一天代碼也就幾塊錢,大大降低了AI編程的算力使用門檻。
性價(jià)比高,也源于Kimi一些原創(chuàng)性的創(chuàng)新。
Kimi從訓(xùn)練階段引入了新的優(yōu)化器Muon,取代了原來主流的AdamW優(yōu)化器,在不同Llama架構(gòu)模型上,Muon的算力需求只有AdamW的52%。
優(yōu)化器是大模型里的一個(gè)核心組件,決定著在訓(xùn)練時(shí)的模型參數(shù)如何調(diào)整。優(yōu)化器優(yōu)化得越好,模型在同樣的硬件環(huán)境下跑得更快、更穩(wěn),換種角度說,也更節(jié)省了算力。
這可以說是一場(chǎng)技術(shù)冒險(xiǎn)。Muon原本是一個(gè)比較前沿的優(yōu)化器方向,甚至沒有發(fā)表正式論文,以前只在小型模型上訓(xùn)練成功過。但Kimi選擇將Muon擴(kuò)大到萬億參數(shù)去嘗試,并且解決了大規(guī)模訓(xùn)練下的很多技術(shù)難點(diǎn),讓Muon成為這次K2發(fā)布最受尊重的工作之一。
在公司門口放鋼琴、公司名字用傳奇搖滾專輯命名,這看起來是很朋克。但在巨大的市場(chǎng)壓力下,專注在一個(gè)方向,把一個(gè)新技術(shù)架構(gòu)直接上到萬億參數(shù)去訓(xùn)練,用真金白銀去試,還成功了。
這才是真的朋克。
六小龍沒有回頭路
從K2發(fā)布的細(xì)節(jié)看,DeepSeek在全球造成的影響仍在持續(xù)。
今年1月發(fā)布的DeepSeekR1是全球AI敘事的分水嶺。在那之前,國(guó)內(nèi)無論是大廠,還是AI初創(chuàng),大家都在卷AI應(yīng)用,搶奪用戶和留存。
Kimi曾經(jīng)在2024年做過一波激進(jìn)投流,和字節(jié)的豆包對(duì)打。但投流、增長(zhǎng)是在大廠舒適區(qū)里的事情,Kimi很快就顯得力不從心。2024年11月,豆包宣布MAU過億,在國(guó)內(nèi)一時(shí)風(fēng)頭無兩。
很快,這些成果都被DeepSeekR1迅速超越。
DeepSeek之后,無論是大廠還是初創(chuàng),大家都形成共識(shí):追求模型能力提升才是最重要的事。國(guó)內(nèi)ToC應(yīng)用的戰(zhàn)場(chǎng)上,幾乎就剩下元寶、夸克和豆包在廝殺。
如今商業(yè)化已經(jīng)是個(gè)有點(diǎn)遙遠(yuǎn),且不是最重要的問題了。面對(duì)在模型和應(yīng)用上都在Allin的大廠,留給大模型初創(chuàng)的路幾乎只有一條:開源,和攻克最難的問題。
前不久的36氪Waves大會(huì)上,真格基金合伙人戴雨森在談到Kimi與Minimax時(shí)曾說:“一年前,大家比投放、比用戶,比投放,其實(shí)是大廠的機(jī)會(huì)?,F(xiàn)在則回到技術(shù)前沿,回到強(qiáng)認(rèn)知,我相信反而更適合以技術(shù)大牛為核心的創(chuàng)業(yè)團(tuán)隊(duì)?!?/p>
六小龍們都做出了自己的選擇。DeepSeekR1的沖擊后,各家呈上的答卷,實(shí)則表明了一種路線的分野:Kimi已經(jīng)有點(diǎn)像Anthropic,主打提升編程、智能體的能力;Minimax和階躍牢牢抓緊多模態(tài);智譜則是走更本土、ToB/ToG的路線;百川選擇繼續(xù)做醫(yī)療模型;01早已宣布不再做超大基礎(chǔ)模型迭代,轉(zhuǎn)而專注在大模型落地上。
此前,Kimi在海外知名度有限,但K2的爆火已經(jīng)帶來實(shí)在的回報(bào):全球開發(fā)者圈子里開始關(guān)注起Kimi,有人開始研究CEO楊植麟的過往經(jīng)歷。開發(fā)者們喜歡這個(gè)充滿朋克文化的團(tuán)隊(duì)——Kimi團(tuán)隊(duì)成員在小紅書、推特展示公司里以傳奇樂隊(duì)命名的會(huì)議室,也會(huì)在Twitter坦承“現(xiàn)在K2還不完美,infra還有很多不足,正在加班加點(diǎn)修復(fù)?!?/p>
而更早之前,在Kimi專注提升模型能力,推出包括深度研究等產(chǎn)品后,其實(shí)也反哺到了產(chǎn)品上:Kimi的Web端數(shù)據(jù)從6月開始反彈,訪問量環(huán)比增長(zhǎng)30%。
某種程度上,開源和朋克有著同樣的精神內(nèi)核,自由、開放、尊重技術(shù),這是現(xiàn)在AI圈子里最強(qiáng)勢(shì)的"注意力貨幣",不僅能建立名聲、展現(xiàn)信仰,還有招攬人才——這才是AI初創(chuàng)現(xiàn)在最著急的事。
K2發(fā)布后,一位Kimi研究員曾經(jīng)在博客里提到:“2025年,智能的上限仍然完全由模型決定,作為一家以AGI為目標(biāo)的公司,如果不去追求智能的上限,那我一天也不會(huì)多呆下去。”
追求AGI看似是一條窄路,對(duì)還在這條路上的初創(chuàng)公司而言,還是一條康莊大道。
只要足夠?qū)Wⅰ?/p>
封面來源|視覺中國(guó)
歡迎交流