李榮治
機器之心報道
機器之心編輯部
所有學(xué)科都是博士后水平。
醞釀良久的xAI下一代大模型——Grok4終于發(fā)布了!能力超乎我們想象。
北京時間今天中午12點左右,我們期待已久的xAI發(fā)布會終于開始,馬斯克現(xiàn)身直播間,他上來就說:「這是世界上最好的AI,讓我們來展示一下?!?/p>
馬斯克表示,Grok4每次都能在SAT考試(美國高考)中獲得滿分,無需事先查看題目,它也可以做到GRE任何學(xué)科接近滿分,超過了全世界所有研究生的水平。Grok4最強大的地方是其推理能力,它已經(jīng)實現(xiàn)了超越人類的推理水平。
馬斯克相信,Grok4可以在今年內(nèi)實現(xiàn)科學(xué)新發(fā)現(xiàn)。
得益于計算能力的增強、強化學(xué)習(xí)的訓(xùn)練,Grok4的推理能力相較于前代提升了10倍。從Grok2到Grok4,采用的技術(shù)范式不同,分別為下一個token預(yù)測、預(yù)訓(xùn)練計算、預(yù)訓(xùn)練+RL、RL計算。
其中,Grok2到Grok3預(yù)訓(xùn)練階段的計算量提升了10倍,Grok3reasoning首次引入了RL微調(diào),帶來了深度推理能力。Grok4reasoning的強化學(xué)習(xí)再度提升了10倍的計算量,這意味著顯著的推理能力提升。
另外因為調(diào)用工具能力的提升,Grok4進一步放大了自身智慧。因此可以在各類高難度Benchmark上實現(xiàn)遠超SOTA的成績。
接下來是重頭戲:Grok4的基準測試結(jié)果。
首先是HLE(HumanitiesLastExam,人類最后的考試),包括數(shù)學(xué)、化學(xué)和邏輯學(xué)。在上周六泄露的基準測試結(jié)果中,Grok4在HLE(HumanitiesLastExam,人類最后考試)上的標準得分是35%,使用推理技術(shù)后提高到45%,但多數(shù)網(wǎng)友持質(zhì)疑態(tài)度。
在今天的直播中,xAI研究人員表示,以往的SOTA模型在使用工具(withtool)的情況下,成績最高可以達到41.0%。
如今,Grok4進一步提升了這一基準測試成績。
具體來講,與其他SOTA模型(o3、Gemini2.5Pro)相比,在使用工具的情況下,Grok4的成績?yōu)?8.6%,Grok4Heavy的成績飆升到了44.4%。如果讓大模型在測試時花費更多時間思考,并恰當(dāng)?shù)氖褂酶嗤獠抗ぞ?,則HLE的分數(shù)還能進一步提升到50.7%。
關(guān)于其他更多基準測試結(jié)果,包括GPQA(研究生級別的Google驗證問答基準測試)、AIME25(美國數(shù)學(xué)競賽邀請賽)、LCB(Jan-May)(編程競賽/在線算法競賽)、HMMT25(高中生團隊數(shù)學(xué)競賽)和USAMO25(美國頂級高中生數(shù)學(xué)競賽)。從下圖可以看到,Grok4Heavy均取得了最新SOTA。
相比之下,人類面對HLE測試也幾乎答不上幾個題。馬斯克多遍強調(diào):Grok現(xiàn)在在所有學(xué)科都達到了博士后水平,沒有例外。它沒有發(fā)現(xiàn)新科學(xué)或是新的物理定律,但這只是一個時間問題。
「如果Grok在今年內(nèi)沒有發(fā)現(xiàn)實用的新科學(xué)技術(shù),我會感覺很意外,」馬斯克表示。
大模型性能評估平臺ArtificialAnalysis的全套基準測試成績表明,Grok4已經(jīng)成為當(dāng)前領(lǐng)先的AI模型,總成績達到了73分,領(lǐng)先于o3、Gemini2.5Pro、Claude4Opus、DeepSeekR10528。
想象一下我們現(xiàn)在處在的位置,我們正處于智能發(fā)展的大爆炸過程中,這是人類歷史上前所未見的。是時候看看Grok4具體能做些什么了。
我們來看一兩個demo,比如「基于物理原理的HTML動畫,模擬兩個黑洞碰撞并產(chǎn)生引力波的30秒可視化效果」:
Grok4幾乎完整地呈現(xiàn)了從兩個黑洞接近到最后合并結(jié)束的引力波模擬效果。動圖的一邊是推理過程和計算的步驟和代碼,查閱的論文每一篇都有鏈接。
Grok4的多面手屬性更強了
除了各大語言基準成績的提升,Grok4在其他方面同樣得到了加強。
其中,Grok4的語音能力相較于上代速度快了2倍,端到端延遲更低;支持5種語音;單日用戶總停留時長提升了10倍。
新增的Grok角色Eve和Sal現(xiàn)已可在iOS版Grok中使用,Sal支持多種性格,Eve可以唱歌和低語。
在ARC-AGI基準測試集中,它專門設(shè)計用于評估人工智能系統(tǒng)通用推理能力,被視為通向AGI的重要試金石,旨在檢驗?zāi)P褪欠衲芟袢祟愐粯屿`活解決從未見過的新問題。
在這個直指AGI核心能力的超難基準上,Grok4同樣取得了最新SOTA,其中在ARC-AGI-2上達到15.9%,幾乎將之前的商業(yè)SOTA翻了一番,并超越了當(dāng)前的Kaggle競賽SOTA。
在Vending-Bench基準測試中,它專注于評估智能體在真實物理世界中執(zhí)行復(fù)雜操作任務(wù)的能力,其核心目標是解決傳統(tǒng)模擬環(huán)境(如Habitat、AI2-THOR)與真實世界間的「Sim2RealGap」(仿真到現(xiàn)實的鴻溝),推動機器人技術(shù)在開放場景中的實際應(yīng)用能力。
可以看到,Grok4相較于ClaudeOpus4、Human、Gemini2.5Pro、o3取得了領(lǐng)先。
Grok4可通過API調(diào)用,提供256Ktokens的上下文窗口。目前已經(jīng)開放使用,版本號為grok-4-0709,價格與Grok3相同。
根據(jù)ArtificialAnalysis的測試,xAI的API當(dāng)前以每秒75個token的速度提供Grok4服務(wù),速度雖不及o3(每秒188個token),但優(yōu)于Claude4OpusThinking(每秒66個token)。
最后是游戲體驗,DannyLimanseta在4小時內(nèi)用Grok4制作了一款FPS射擊游戲,Grok不僅可以用于制作游戲,還能實際運行游戲,洞察優(yōu)秀游戲的要素并提出改進建議??粗Ч娴耐Σ诲e。
下一步,xAI預(yù)計還將發(fā)布代碼模型、多模態(tài)智能體以及視頻生成模型,看起來新產(chǎn)品發(fā)布要達到月更的速度。
目前,Grok4已經(jīng)上線,不過需要付費使用,而且價格相當(dāng)昂貴。其付費模式分為年付和月付兩種,其中SuperGrok是每年300美元(折合人民幣約2154元),SuperGrokHeavey則是每年3000美元(折合人民幣21540元)。
官網(wǎng)鏈接:https://grok.com/
她是游戲里的女大神 校園里的大學(xué)渣, 自從迷上網(wǎng)游 一代帝國 后, 高中生活天翻地覆 【校草VS學(xué)渣】他是風(fēng)靡金華中學(xué)的神級人物, 也是游戲1區(qū)的神級玩家, 提前被國外名校錄取, 卻被逼來到她家成為她的私人家教 還霸占了她的房間! *【大叔VS蘿莉】他是她游戲里的緋聞對象, 亦是她心動已久卻素未謀面的網(wǎng)友。 一場意外, 當(dāng)全世界都以為他拋棄了她時, 冰冷的大叔化身為英語老師, 親臨校園, 用盡招數(shù), 只為引她入局。來源:紅網(wǎng)
作者:粘景曜
編輯:那高暢
本文為紅辣椒評論 原創(chuàng)文章,僅系作者個人觀點,不代表紅網(wǎng)立場。轉(zhuǎn)載請附原文出處鏈接和本聲明。