機(jī)器之心報(bào)道
機(jī)器之心編輯部
所有學(xué)科都是博士后水平。
醞釀良久的xAI下一代大模型——Grok4終于發(fā)布了!能力超乎我們想象。
北京時(shí)間今天中午12點(diǎn)左右,我們期待已久的xAI發(fā)布會(huì)終于開始,馬斯克現(xiàn)身直播間,他上來就說:「這是世界上最好的AI,讓我們來展示一下。」
馬斯克表示,Grok4每次都能在SAT考試(美國(guó)高考)中獲得滿分,無需事先查看題目,它也可以做到GRE任何學(xué)科接近滿分,超過了全世界所有研究生的水平。Grok4最強(qiáng)大的地方是其推理能力,它已經(jīng)實(shí)現(xiàn)了超越人類的推理水平。
馬斯克相信,Grok4可以在今年內(nèi)實(shí)現(xiàn)科學(xué)新發(fā)現(xiàn)。
得益于計(jì)算能力的增強(qiáng)、強(qiáng)化學(xué)習(xí)的訓(xùn)練,Grok4的推理能力相較于前代提升了10倍。從Grok2到Grok4,采用的技術(shù)范式不同,分別為下一個(gè)token預(yù)測(cè)、預(yù)訓(xùn)練計(jì)算、預(yù)訓(xùn)練+RL、RL計(jì)算。
其中,Grok2到Grok3預(yù)訓(xùn)練階段的計(jì)算量提升了10倍,Grok3reasoning首次引入了RL微調(diào),帶來了深度推理能力。Grok4reasoning的強(qiáng)化學(xué)習(xí)再度提升了10倍的計(jì)算量,這意味著顯著的推理能力提升。
另外因?yàn)檎{(diào)用工具能力的提升,Grok4進(jìn)一步放大了自身智慧。因此可以在各類高難度Benchmark上實(shí)現(xiàn)遠(yuǎn)超SOTA的成績(jī)。
接下來是重頭戲:Grok4的基準(zhǔn)測(cè)試結(jié)果。
首先是HLE(HumanitiesLastExam,人類最后的考試),包括數(shù)學(xué)、化學(xué)和邏輯學(xué)。在上周六泄露的基準(zhǔn)測(cè)試結(jié)果中,Grok4在HLE(HumanitiesLastExam,人類最后考試)上的標(biāo)準(zhǔn)得分是35%,使用推理技術(shù)后提高到45%,但多數(shù)網(wǎng)友持質(zhì)疑態(tài)度。
在今天的直播中,xAI研究人員表示,以往的SOTA模型在使用工具(withtool)的情況下,成績(jī)最高可以達(dá)到41.0%。
如今,Grok4進(jìn)一步提升了這一基準(zhǔn)測(cè)試成績(jī)。
具體來講,與其他SOTA模型(o3、Gemini2.5Pro)相比,在使用工具的情況下,Grok4的成績(jī)?yōu)?8.6%,Grok4Heavy的成績(jī)飆升到了44.4%。如果讓大模型在測(cè)試時(shí)花費(fèi)更多時(shí)間思考,并恰當(dāng)?shù)氖褂酶嗤獠抗ぞ?,則HLE的分?jǐn)?shù)還能進(jìn)一步提升到50.7%。
關(guān)于其他更多基準(zhǔn)測(cè)試結(jié)果,包括GPQA(研究生級(jí)別的Google驗(yàn)證問答基準(zhǔn)測(cè)試)、AIME25(美國(guó)數(shù)學(xué)競(jìng)賽邀請(qǐng)賽)、LCB(Jan-May)(編程競(jìng)賽/在線算法競(jìng)賽)、HMMT25(高中生團(tuán)隊(duì)數(shù)學(xué)競(jìng)賽)和USAMO25(美國(guó)頂級(jí)高中生數(shù)學(xué)競(jìng)賽)。從下圖可以看到,Grok4Heavy均取得了最新SOTA。
相比之下,人類面對(duì)HLE測(cè)試也幾乎答不上幾個(gè)題。馬斯克多遍強(qiáng)調(diào):Grok現(xiàn)在在所有學(xué)科都達(dá)到了博士后水平,沒有例外。它沒有發(fā)現(xiàn)新科學(xué)或是新的物理定律,但這只是一個(gè)時(shí)間問題。
「如果Grok在今年內(nèi)沒有發(fā)現(xiàn)實(shí)用的新科學(xué)技術(shù),我會(huì)感覺很意外,」馬斯克表示。
大模型性能評(píng)估平臺(tái)ArtificialAnalysis的全套基準(zhǔn)測(cè)試成績(jī)表明,Grok4已經(jīng)成為當(dāng)前領(lǐng)先的AI模型,總成績(jī)達(dá)到了73分,領(lǐng)先于o3、Gemini2.5Pro、Claude4Opus、DeepSeekR10528。
想象一下我們現(xiàn)在處在的位置,我們正處于智能發(fā)展的大爆炸過程中,這是人類歷史上前所未見的。是時(shí)候看看Grok4具體能做些什么了。
我們來看一兩個(gè)demo,比如「基于物理原理的HTML動(dòng)畫,模擬兩個(gè)黑洞碰撞并產(chǎn)生引力波的30秒可視化效果」:
Grok4幾乎完整地呈現(xiàn)了從兩個(gè)黑洞接近到最后合并結(jié)束的引力波模擬效果。動(dòng)圖的一邊是推理過程和計(jì)算的步驟和代碼,查閱的論文每一篇都有鏈接。
Grok4的多面手屬性更強(qiáng)了
除了各大語(yǔ)言基準(zhǔn)成績(jī)的提升,Grok4在其他方面同樣得到了加強(qiáng)。
其中,Grok4的語(yǔ)音能力相較于上代速度快了2倍,端到端延遲更低;支持5種語(yǔ)音;單日用戶總停留時(shí)長(zhǎng)提升了10倍。
新增的Grok角色Eve和Sal現(xiàn)已可在iOS版Grok中使用,Sal支持多種性格,Eve可以唱歌和低語(yǔ)。
在ARC-AGI基準(zhǔn)測(cè)試集中,它專門設(shè)計(jì)用于評(píng)估人工智能系統(tǒng)通用推理能力,被視為通向AGI的重要試金石,旨在檢驗(yàn)?zāi)P褪欠衲芟袢祟愐粯屿`活解決從未見過的新問題。
在這個(gè)直指AGI核心能力的超難基準(zhǔn)上,Grok4同樣取得了最新SOTA,其中在ARC-AGI-2上達(dá)到15.9%,幾乎將之前的商業(yè)SOTA翻了一番,并超越了當(dāng)前的Kaggle競(jìng)賽SOTA。
在Vending-Bench基準(zhǔn)測(cè)試中,它專注于評(píng)估智能體在真實(shí)物理世界中執(zhí)行復(fù)雜操作任務(wù)的能力,其核心目標(biāo)是解決傳統(tǒng)模擬環(huán)境(如Habitat、AI2-THOR)與真實(shí)世界間的「Sim2RealGap」(仿真到現(xiàn)實(shí)的鴻溝),推動(dòng)機(jī)器人技術(shù)在開放場(chǎng)景中的實(shí)際應(yīng)用能力。
可以看到,Grok4相較于ClaudeOpus4、Human、Gemini2.5Pro、o3取得了領(lǐng)先。
Grok4可通過API調(diào)用,提供256Ktokens的上下文窗口。目前已經(jīng)開放使用,版本號(hào)為grok-4-0709,價(jià)格與Grok3相同。
根據(jù)ArtificialAnalysis的測(cè)試,xAI的API當(dāng)前以每秒75個(gè)token的速度提供Grok4服務(wù),速度雖不及o3(每秒188個(gè)token),但優(yōu)于Claude4OpusThinking(每秒66個(gè)token)。
最后是游戲體驗(yàn),DannyLimanseta在4小時(shí)內(nèi)用Grok4制作了一款FPS射擊游戲,Grok不僅可以用于制作游戲,還能實(shí)際運(yùn)行游戲,洞察優(yōu)秀游戲的要素并提出改進(jìn)建議。看著效果真的挺不錯(cuò)。
下一步,xAI預(yù)計(jì)還將發(fā)布代碼模型、多模態(tài)智能體以及視頻生成模型,看起來新產(chǎn)品發(fā)布要達(dá)到月更的速度。
目前,Grok4已經(jīng)上線,不過需要付費(fèi)使用,而且價(jià)格相當(dāng)昂貴。其付費(fèi)模式分為年付和月付兩種,其中SuperGrok是每年300美元(折合人民幣約2154元),SuperGrokHeavey則是每年3000美元(折合人民幣21540元)。
官網(wǎng)鏈接:https://grok.com/
天才變廢材秦飛,憑手鐲逆襲,戰(zhàn)惡霸斗蒼天,終成丹武至尊
小說:天才秦飛因手鐲變廢人,卻戰(zhàn)盡天下,終成丹武至尊