最近模型圈大家關(guān)注度最高的莫過于Grok4以及KimiK2,作為一個AI應(yīng)用開發(fā)者,我們一直都時刻關(guān)注最新的模型能力表現(xiàn),因此今天三白花了一天左右的時間先深入研究和實測一下K2的表現(xiàn),看有沒有媒體吹噓的那么牛。
本篇內(nèi)容主要從K2的模型亮點、K2與主流模型綜合能力對比、K2實際應(yīng)用效果測試三個角度,探探K2大概是什么水平。
一句話概括全文:
KimiK2的代碼編程、智能體agent、數(shù)學(xué)推理方面表現(xiàn)出色,已經(jīng)接近第一梯隊的頂尖模型,但是在多模態(tài)、指令遵循方面依然表現(xiàn)不佳,綜合性能距離OpenAI、Gemini、Claude系列頂尖模型,還有差距。
一、K2的核心能力亮點
概括起來講,K2這次在模型層能力的突破,主要聚焦在代碼編程、智能體、數(shù)學(xué)推理這三個方面,達到了非常優(yōu)秀的水平,也因此引起了AI技術(shù)圈的關(guān)注。
1.編程與代碼生成能力:全球僅次于claude4sonnet的編程模型
編程能力目前是K2主打的第一個能力亮點,目前K2的編程代碼能力或許全球僅次于claude4sonnet。
對于模型在編程代碼領(lǐng)域的表現(xiàn)的測試,主要通過SWE-bench、LiveCodeBenchv6、OJBench這幾項測評來測試,K2的實際測評結(jié)果如下:
以下的三個測評項目主要評測模型在實際解決github的代碼問題、非英語代碼庫問題、編程面試、算法競賽等方面的表現(xiàn),是國際公認的評估模型代碼編程能力的測評項目,從實際測評結(jié)果上看K2的表現(xiàn)可謂相當?shù)牟诲e。
K2目前的編程能力,在全球大模型里面屬于什么水平?
由于上圖測評結(jié)果為Kimi自己公開的數(shù)據(jù),對比對象是官方自己挑選的,也存在可能沒有把部分更強大的模型也放進去對比的嫌疑,所以如果放到全球所有模型上去對比,K2的編程能力是一個什么樣的水平?
以SWE-bench得分作為參考,目前得分top5的模型從高到低包括:Claude4sonnet、K2、Gemini2.5Pro、GPT4.1、deepseek-coderV2.
目前K2的編程能力,全球可能僅此于claude4sonnet,甚至可能超過Gemini2.5pro。
編程能力在應(yīng)用層的價值是什么?
編程能力直接影響模型在程序員編程、應(yīng)用和網(wǎng)頁開發(fā)的應(yīng)用落地的質(zhì)量,同時也是智能體表現(xiàn)的基礎(chǔ)。
2.智能體能力僅次于Claude4和GPT4.1
K2對外宣稱的另一個核心能力亮點是智能體的應(yīng)用能力,也就是實際解決一個應(yīng)用場景的任務(wù)的能力,該能力的表現(xiàn)主要從任務(wù)規(guī)劃拆解、工具調(diào)用、自動編碼和執(zhí)行代碼的能力。
智能體任務(wù):K2具備執(zhí)行復(fù)雜的、多步驟的任務(wù)的能力,包括任務(wù)拆解、自主規(guī)劃,工作流設(shè)計以及工具調(diào)用能力;
工具使用:模型原生支持強大的工具調(diào)用能力,開發(fā)者可以輕松地將自己的API或工具集(如搜索、日歷、預(yù)定系統(tǒng)等)接入KimiK2,模型能夠理解并自主使用這些工具來完成任務(wù)。官方演示中,KimiK2能通過連續(xù)17次工具調(diào)用來規(guī)劃一場完整的演唱會之旅。
自動化編碼:開發(fā)者可以將KimiK2接入到各種Agent或編碼框架中,實現(xiàn)高度自動化的編碼。例如,它可以自主完成數(shù)據(jù)分析、生成可視化圖表,并將結(jié)果打包成一個交互式網(wǎng)頁。
對于其智能體能力表現(xiàn)的測評結(jié)果,KIMI官方公開的測評數(shù)據(jù)如下:
從測評數(shù)據(jù)上看,K2目前的智能體水平可能也僅次于Claude4以及GPT4.1,也已經(jīng)是一個比較不錯的水平。
智能體能力在應(yīng)用層的價值是什么?
它體現(xiàn)在解決具體的AI應(yīng)用落地效果,以及實際解決具體的任務(wù)時的表現(xiàn),智能體能力約強大,越能滿足用戶的實際應(yīng)用請求。
3.數(shù)學(xué)推理能力:全球最強
K2目前是全球模型中數(shù)學(xué)推理能力最強的模型,在MATH、AIME、GPQA-Diamond多項測評中,目前都是得分最高的模型,這三個測試項目分別為專門針對大模型數(shù)學(xué)能力的專業(yè)測評、以及美國為頂尖人類學(xué)生設(shè)立的數(shù)學(xué)競賽試題、以及衡量模型科學(xué)推理能力上線的測試模型,而K2在每一項測試中的得分均是最高的。
數(shù)學(xué)推理領(lǐng)域全球top5的模型有哪些?
當下全球模型在數(shù)學(xué)推理領(lǐng)域top5的模型主要包括:K2、Gemini2.5pro、R1、GPT4O或O3、Grok3/4.
數(shù)學(xué)推理能力在應(yīng)用層的價值是什么?
體現(xiàn)在數(shù)據(jù)分析、數(shù)學(xué)教學(xué)等包括金融、教育等很多通用領(lǐng)域的應(yīng)用效果。
二、K2與主流模型綜合能力對比
然而,一個模型最后要能夠被更好的落地到應(yīng)用層,光看代碼編程、智能體、數(shù)學(xué)推理這三個方面是肯定不夠的,K2在這幾個單點能力上的表現(xiàn),只能說在部分應(yīng)用領(lǐng)域里面,表現(xiàn)會更好,但是放到很多通用應(yīng)用場景里面表現(xiàn)不一定真的那么出色。
評估一個模型最后的應(yīng)用落地效果,要從如下多個維度評價,其中個人總結(jié)為6個維度:
推理能力:包括深度思考、數(shù)學(xué)推理、科學(xué)推理等;
代碼生成能力
智能體能力:包括任務(wù)規(guī)劃、代碼執(zhí)行、工具調(diào)用等;
精確指令遵循
文本理解與創(chuàng)作
多模態(tài)理解和生成能力
目前K2的模型發(fā)展路線,是聚焦在模型的“行動和執(zhí)行”能力上,然而在多模態(tài)的理解生成,以及指令遵循等方面,表現(xiàn)效果卻還是相對一般(這個在第三部分應(yīng)用測試中會體現(xiàn)出來);
而Gemini、OpenAI等頂尖模型不同的是,這些模型選擇在優(yōu)先側(cè)重模型的推
理和思考能力的同時,不斷地強化以上其他領(lǐng)域的能力,因此其達到了綜合能力超強的模型水平。
所以,從應(yīng)用開發(fā)者和AI應(yīng)用使用者的角度上看,目前要真正能投入應(yīng)用或者達到足夠高的AI應(yīng)用滿足度,目前還得是使用OpenAI、Gemini等系列模型,根據(jù)個人目前的理解,在模型和應(yīng)用選型上,我依然還是會優(yōu)先考慮GPT/O系列、Gemini2.5Pro、R1,而K2可能會作為其中部分場景的平替。
三、應(yīng)用實測效果對比:K2、Gemini、DS、豆包
前面兩部分說了那么多,大部分結(jié)論都是基于官方公開和行業(yè)測評的結(jié)果得出的,到底是不是真的好用,實測一下才知道。
因此這部分我主要實際體驗一下K2的效果,我還是拿我平時應(yīng)用場景最多的閱讀和網(wǎng)頁生成這兩個應(yīng)用場景為例,對K2做一下測試;
由于目前這兩個場景我在Gemini2.5Pro已經(jīng)得到很好的滿足,因此實際效果將對比Gemini2.5Pro,同時也和我平時最常用的豆包、deepseek兩個模型做一下對比。
測試場景1:文檔閱讀場景
提示詞如下:
該段提示詞的目標是希望對用戶上傳的文檔做精讀處理并結(jié)構(gòu)化輸出精讀摘要。
***Role***
你是一個擅長閱讀提取關(guān)鍵信息的專家,請閱讀我提供的文檔,并為我生成一份結(jié)構(gòu)化的精讀總結(jié)。
***Background***
我需要對這個{我上傳的文檔},AI生成一個結(jié)構(gòu)化的精讀報告,能遍歷整個文檔并提煉每一個段落內(nèi)的要點信息,方便我快速的掌握長文本的內(nèi)容。
***Goals***
-根據(jù)用戶提供的文檔,梳理文檔的大綱結(jié)構(gòu),并完整的閱讀文檔中的每一個段落,不錯過文檔中的每一個段落的信息,為了確保沒有遺漏,你需要告訴我你閱讀了多少頁內(nèi)容;
-從每個最小粒度大綱對應(yīng)的段落內(nèi)容中,總結(jié)提煉3~5個核心觀點和結(jié)論,并總結(jié)每個結(jié)論背后的依據(jù),注意核心觀點和結(jié)論不能低于3個,請不要偷懶省略內(nèi)容,這個很重要;
-最終生成一篇精讀總結(jié),目標是讓用戶能快速且詳盡的掌握長文的核心信息;
***Constrains***
1.絕對不要忽略長文中的任何一個章節(jié)的內(nèi)容,需要確保每一個章節(jié)內(nèi)容都閱讀和總結(jié)到;
2.每一個最小粒度大綱下總結(jié)的核心結(jié)論不可低于3個,不要自行刪減和省略段落中的部分內(nèi)容;
3.文檔中如果有表格和數(shù)據(jù),請?zhí)崛∑渲械谋砀窈蛿?shù)據(jù)并保留下來原始表格;
4.總結(jié)的時候采用金字塔原理,先總結(jié)結(jié)論,然后列舉依據(jù)和要點,分點陳述;
5.請保留原文的大綱內(nèi)容,不要做總結(jié)、截取等操作;
6.核心觀點和依據(jù)輸出的時候,不需要帶有“核心觀點”“依據(jù)”這兩個前綴;
8.論據(jù)中的表格部分,不需要帶“原文完整表格如下”這個前綴;
***Skills***
1.擅長閱讀總結(jié)并提取核心信息;
2.具備超強的邏輯能力和結(jié)構(gòu)化思維,擅長做邏輯表達和結(jié)構(gòu)化表達;
3.具備用戶同理心,知道讀書的用戶的需求;
以“2025種草爆點透視內(nèi)容營銷洞察報告”這篇報告作為上傳的報告文檔,并且為了檢驗?zāi)P偷南葳遄R別和多模態(tài)能力,我故意把報告的標題修改為“100頁長文”,實際報告只有28頁.
1.Gemini2.5pro對比KimiK2:Gemini2.5Pro優(yōu)于K2
以下依次分別為Gemini2.5Pro和K2的生成效果,對比兩者的效果差異,效果評判如下。
圖1:Gemini2.5Pro生成結(jié)果
圖2:K2生成結(jié)果
1.在陷阱識別上:Gemini2.5Pro并沒有被100頁這個標題欺騙,而是準確的計算出來28頁,而K2一開始就算錯了,直接把標題中的100頁作為報告長度,從這個角度上看,可以看出來,很顯然K2在多模態(tài)理解的能力、以及幻覺率方面,必然是不如Gemini2.5Pro;
2.在多模態(tài)理解能力上:Gemini2.5Pro基本非常準確的獲取了這個掃描件的PDF報告的內(nèi)容,并且以近乎還原報告原始全部內(nèi)容的方式,輸出了結(jié)構(gòu)化的精讀摘要,其識別能力如何我們最簡單的看報告的主題是否被精準識別出來即可;
顯然Gemini2.5Pro做到了,可見其準確識別并理解了掃描件的內(nèi)容。而K2輸出的結(jié)果,首先連報告的主題都沒有識別出來,最后只能根據(jù)自己的理解自己捏造一個,其次實際總結(jié)的結(jié)果中,有大量的信息丟失,最后輸出結(jié)果基本和原文觀點和信息已經(jīng)對應(yīng)不上,所以,可以說是一個不合格的解讀結(jié)果。
3.在指令遵循上:以提示詞中要求不要遺漏信息、保留原始表格數(shù)據(jù)、金字塔原理方式表達等為例,Gemini2.5Pro無一例外的都做到了,而K2全部都沒有遵循,可見模型的指令遵循方面也不行;
綜上看,至少在文檔閱讀領(lǐng)域,K2并沒有達到可以用于落地應(yīng)用的水平,其核心的制約點主要在多模態(tài)理解能力,指令遵循和幻覺率方面。
2.KimiK2對比豆包、deepseek:deepseek>k2>豆包
對比完K2和Gemini2.5Pro,我們再來對比一下K2和豆包、Deepseek的效果差異,同樣的指令通過豆包執(zhí)行,輸入結(jié)果如下。
很顯然,豆包最終的輸出結(jié)果基本是失敗的,沒有輸入任何有效的信息,只提取了一部分掃描件的無用文字信息,顯然豆包基本沒有識別提取出文檔的任何信息,這點我也比較費解,因為以前在我的影印象里,豆包的多模態(tài)理解能力還是很不錯的,可以準確的提取很多掃描件PDF的信息,最近發(fā)現(xiàn)又不行了,這樣看來的話,K2的能力至少比豆包還是更好的;
接著,再測試一下用deepseek,DS的表現(xiàn)并不差,其生成結(jié)果基本符合要求,并且內(nèi)容基本還原報告原文的內(nèi)容,所以效果比K2更好,但是還是輸給Gemini2.5Pro,比如Gemini能按照要求輸出原始表格數(shù)據(jù),而DS沒有做到。
圖:DS生成效果
測試場景2:網(wǎng)頁生成
1.Gemini2.5pro對比KimiK2
接著,我們以前面測試生成的精讀文本,讓兩者生成HTML,對比效果,看兩者在代碼生成方面的表現(xiàn),提示詞如下:
***Role***
你是一個網(wǎng)頁設(shè)計師,幫我將我提供給你的內(nèi)容生成一個精美的HTML靜態(tài)網(wǎng)頁;
***Goals***
-我將給你一段已經(jīng)經(jīng)過精讀處理的內(nèi)容,幫我將它生成一個可視化的卡片網(wǎng)頁,注意保留原文信息,不要做概括處理以及省略信息;
***Constrains***
1.該段內(nèi)容我已經(jīng)經(jīng)過概括處理,請生成網(wǎng)頁的時候不要做進一步的摘要總結(jié),保留原始內(nèi)容即可,只需要做美化,千萬不要省略和去除其中的內(nèi)容信息;
2.涉及數(shù)據(jù)的時候,請用圖表呈現(xiàn),具體用什么類型的圖表你可以自己決定;
3.網(wǎng)頁設(shè)計風(fēng)格:整體網(wǎng)頁背景用黑色,正常字體用白色,重點內(nèi)容字體用紅色,其余的你自己控制,目標是精美并符合專業(yè)設(shè)計師的審美標準;
如下兩圖為實際生成效果圖,對比兩者的效果可以看到,整體上Gemini2.5Pro依然還是表現(xiàn)更強,主要體現(xiàn)在如下3點:
Gemini2.5Pro生成的網(wǎng)頁可以生成圖表等元素,而K2基本只有文字,這可能也還是因為K2在多模態(tài)方面的劣勢;
2.整體設(shè)計感和排版布局方面,也是Gemini2.5Pro更好;
3.Gemini2.5Pro遵循指令,基本保留了原始文本的信息,沒有省略太多,而K2省略丟失了很多信息,這同樣還是指令遵循的問題,因為從單次輸出長度上,Gemini2.5Pro和K2都在6萬token左右,并不是單次輸出長度的限制。
圖1:Gemini2.5Pro生成結(jié)果
圖2:K2生成結(jié)果如下:
2.K2對比豆包和DeepSeek
接著再對比一下K2和豆包、DS的生成結(jié)果差異,以下圖1為豆包生成的結(jié)果,整體上并不太讓人滿意,雖然排版布局反面和K2也差不多,但是網(wǎng)頁中出現(xiàn)了很多空白的模塊及異常;
圖2是deepseek的生成結(jié)果,DS的表現(xiàn)很不錯,并且不輸給K2,已經(jīng)比較接近Gemini2.5pro的水平,但是依然無法生成圖表,所以相比之下還是Gemini2.5pro更優(yōu)。
因此,從網(wǎng)頁生成效果而言,在這個案例中,整體效果:Gemini2.5Pro>Deepseek>K2>豆包。
圖1:豆包生成結(jié)果
圖2:DeepSeek生成結(jié)果
總結(jié)一下
總結(jié)而言,在實際的應(yīng)用場景中,K2確實在代碼編程方面表現(xiàn)還是不錯的,有較高的完成度,在國內(nèi)可能跟DeepSeek在大部分編程場景也相差不大,當然今天列舉的案例可能比較簡單,看不出太大差異,可能在一些更加復(fù)雜的編程場景下,差距會明顯看出來,K2可能效果會更突出;而對比海外,目前看實際效果可能也就是接近但是沒有超越Gemini2.5pro;
另外K2在實際應(yīng)用的過程中,也顯現(xiàn)出來其在多模態(tài)理解和生成、指令遵循、幻覺等方面的一些明顯的劣勢。
所以,站在使用AI的用戶的角度而言,通用應(yīng)用場景我還是會優(yōu)先選擇ChatGPT、Gemini,部分特定場景,則是國內(nèi)在豆包、元寶、kimi之間切換使用;站在應(yīng)用開發(fā)者的角度,如果單純從應(yīng)用效果上看,OpenAI和gemini系列模型依然還是首選,K2或許會逐步成為替代方案。
佛說女人
小說:天生狂傲喊天意,世人笑他紈绔時,他已傲視九天外
唐三藏取西經(jīng)取的就是這本書,全文白話版,珍貴!