新智元報(bào)道
定慧好困
【新智元導(dǎo)讀】當(dāng)全世界為ChatGPT的成功喝彩時(shí),OpenAI一個(gè)曾不起眼的小組,卻在通過(guò)攻克數(shù)學(xué)難題,秘密鍛造其真正的核心武器:「推理」能力,也就是終極目標(biāo)「AI智能體」的心臟。他們的野望,是打造一個(gè)能為你代勞一切事務(wù)的全能AI。
歷史往往都是由無(wú)數(shù)「意外和巧合」所塑造的。
2022年,當(dāng)研究員HunterLightman加入OpenAI時(shí),他的同事們正忙于引爆全球的ChatGPT——這無(wú)疑是史上用戶增長(zhǎng)最快的現(xiàn)象級(jí)產(chǎn)品。
然而,Lightman卻悄悄投身于一個(gè)看似不起眼的團(tuán)隊(duì):MathGen。
他們的任務(wù)只有一個(gè):訓(xùn)練AI模型去攻克高中級(jí)別的數(shù)學(xué)競(jìng)賽難題。
如今,這個(gè)曾經(jīng)默默無(wú)聞的MathGen團(tuán)隊(duì),竟被視為OpenAI現(xiàn)在能夠問(wèn)鼎行業(yè)的真正原因!
2023年5月31日OpenAI發(fā)布研究博客《ImprovingMathematicalReasoningwithProcess?Supervision》,正式提出過(guò)程監(jiān)督(processsupervision)訓(xùn)練的效果。
并在作者署名中出現(xiàn)HunterLightman等與MathGenteam有關(guān)的研究人員。該博客是首次與MathGen團(tuán)隊(duì)相關(guān)的官方發(fā)布之一。
同日,奧特曼于X發(fā)布祝賀消息——這是首次由OpenAI親口確認(rèn)MathGenTeam的官方存在。
他們鍛造的「AI推理能力」,正是那項(xiàng)終極技術(shù)——AI智能體(AIAgent)的心臟!
這種智能體,將像人類(lèi)一樣,在電腦上獨(dú)立完成你交辦的一切任務(wù)!
「那時(shí)候,AI的數(shù)學(xué)推理能力簡(jiǎn)直一塌糊涂!」Lightman回憶道,「我們的使命,就是讓它學(xué)會(huì)真正的思考?!?/p>
從「笨學(xué)生」到「奧數(shù)金牌」的進(jìn)化!
平心而論,今天的OpenAI模型遠(yuǎn)未完美——它們依然會(huì)「一本正經(jīng)地胡說(shuō)八道」,那些所謂的AI智能體在復(fù)雜任務(wù)面前也常常束手無(wú)策。
但是,一場(chǎng)巨變正在發(fā)生!
OpenAI最頂尖的模型,其數(shù)學(xué)推理能力已實(shí)現(xiàn)驚天逆襲!
就在最近,
OpenAI堅(jiān)信,這種強(qiáng)大的推理能力,將可以復(fù)制到任何領(lǐng)域!
這正是他們構(gòu)建通用AI智能體的基石,是他們從創(chuàng)立之初就魂?duì)繅?mèng)繞的終極夢(mèng)想!
如果說(shuō),ChatGPT的成功是一場(chǎng)「無(wú)心插柳的驚世之作」,一個(gè)本想低調(diào)測(cè)試卻意外引爆全球的奇跡。
那么,AI智能體,則是OpenAI精心布局?jǐn)?shù)年、深思熟慮的戰(zhàn)略結(jié)晶!
「未來(lái),你只需要向電腦下達(dá)指令,它就會(huì)為你搞定一切!」
OpenAI的CEO奧特曼在2023年的開(kāi)發(fā)者大會(huì)上宣告,「這種能力,就是AI智能體。它帶來(lái)的顛覆,將是空前絕后的!」
奧特曼的預(yù)言能否成真?世界還在觀望。但OpenAI已然出手!
2024年秋,其首個(gè)AI推理模型o1橫空出世,一鳴驚人!
不到一年,締造這一神話的21名核心研究員,瞬間成為硅谷瘋搶的頂尖人物!
扎克伯格不惜血本,開(kāi)出上億美元的天價(jià)薪酬,從OpenAI挖走了5名o1團(tuán)隊(duì)的核心成員,組建Meta的「超級(jí)智能」軍團(tuán)。
其中一位,,更是被直接任命為Meta超級(jí)智能實(shí)驗(yàn)室的首席科學(xué)家!
一場(chǎng)圍繞「AI大腦」的人才戰(zhàn)爭(zhēng),已然白熱化!
強(qiáng)化學(xué)習(xí):引爆智能革命的古老技藝
OpenAI這場(chǎng)推理革命的背后,是一種被稱(chēng)為強(qiáng)化學(xué)習(xí)(RL)的古老技術(shù)在煥發(fā)新生。
它就像一個(gè)嚴(yán)厲的教練,在模擬環(huán)境中不斷對(duì)AI的選擇進(jìn)行獎(jiǎng)懲,從而教會(huì)AI何為「正確」。
這項(xiàng)技術(shù)并不新鮮。
早在2016年,谷歌DeepMind的AlphaGo就曾用它擊敗世界圍棋冠軍,名震天下。
彼時(shí),OpenAI的元老級(jí)員工AndrejKarpathy已開(kāi)始構(gòu)想,如何用強(qiáng)化學(xué)習(xí)(RL)打造一個(gè)能熟練操作電腦的AI智能體。
然而,從理想到現(xiàn)實(shí),OpenAI足足走了數(shù)年。
2018年,OpenAI推出了開(kāi)創(chuàng)性的大語(yǔ)言模型GPT系列。
論文地址:https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf
它靠著海量數(shù)據(jù)和GPU集群,成了文本處理的天才,并最終孕育了ChatGPT。
但它的軟肋也同樣致命——連基礎(chǔ)數(shù)學(xué)都搞不定。
直到2023年,石破天驚的突破降臨!
一個(gè)代號(hào)「Q*」(后被稱(chēng)為「Strawberry」)的項(xiàng)目,將大語(yǔ)言模型、強(qiáng)化學(xué)習(xí)(RL)和一種名為「測(cè)試時(shí)計(jì)算」的技術(shù)三位一體,融會(huì)貫通!
它賦予了模型額外的思考時(shí)間,讓AI在給出答案前,能反復(fù)規(guī)劃、推演和驗(yàn)證。
「思維鏈」(CoT)技術(shù)由此誕生!AI在處理聞所未聞的數(shù)學(xué)難題時(shí),表現(xiàn)脫胎換骨!
「我親眼目睹了模型開(kāi)始真正地推理,」研究員ElKishky激動(dòng)地說(shuō),「它會(huì)發(fā)現(xiàn)自己的錯(cuò)誤,然后回溯修正,它甚至?xí)憩F(xiàn)出沮喪。那感覺(jué),就像在閱讀一個(gè)人的思想!」
這些技術(shù)單拎出來(lái),并非首創(chuàng)。
但OpenAI的鬼斧神工之處,在于將它們以前所未有的方式組合,直接催生了后來(lái)的王牌——o1。
那一刻,OpenAI恍然大悟:這種規(guī)劃與事實(shí)核查能力,不正是驅(qū)動(dòng)AI智能體的完美引擎嗎?
「我們攻克了一個(gè)我苦思冥想數(shù)年的難題!」Lightman說(shuō),「那是我科研生涯中,最心潮澎湃的瞬間!」
引爆推理:一場(chǎng)自下而上的豪賭
擁有了AI推理模型,OpenAI的雄心被徹底點(diǎn)燃。
他們發(fā)現(xiàn)了兩條全新的進(jìn)化路徑:
1.在模型訓(xùn)練后期,投入更多的算力!
2.在回答問(wèn)題時(shí),給予模型更多的思考時(shí)間和算力!
「OpenAI這家公司,思考的從來(lái)不只是當(dāng)下,而是未來(lái)如何將優(yōu)勢(shì)無(wú)限擴(kuò)大!」Lightman說(shuō)。
2023年「Strawberry」項(xiàng)目突破后,OpenAI火速組建了一支由研究員DanielSelsam領(lǐng)銜的「AI智能體」特攻隊(duì)。
他們的目標(biāo)只有一個(gè):將這項(xiàng)新能力推向極致!
起初,公司內(nèi)部甚至沒(méi)有嚴(yán)格區(qū)分「推理模型」和「AI智能體」。
共同的目標(biāo)只有一個(gè):打造能完成復(fù)雜任務(wù)的超級(jí)AI!
最終,這支特攻隊(duì)的工作匯入了更宏大的o1模型項(xiàng)目,由聯(lián)合創(chuàng)始人IlyaSutskever等一眾頂級(jí)大佬親自掛帥。
為了打造o1,OpenAI必須押上最寶貴的資源——頂尖人才和GPU。
在OpenAI,資源從不靠論資排輩,而靠實(shí)力說(shuō)話。
研究員必須用驚人的突破來(lái)?yè)Q取公司的全力支持。
「在OpenAI,所有研究創(chuàng)新都源于一線,是自下而上的?!筁ightman解釋道。
「當(dāng)我們把o1的驚人證據(jù)擺在桌上時(shí),整個(gè)公司立刻達(dá)成共識(shí):就是它了,全力沖鋒!」
許多前員工認(rèn)為,正是OpenAI對(duì)通用人工智能(AGI)近乎偏執(zhí)的追求,才催生了這場(chǎng)推理革命。
他們心無(wú)旁騖,不為短期產(chǎn)品所動(dòng),將所有寶押在了打造最強(qiáng)AI大腦上。這種不計(jì)成本的豪賭,在其他AI巨頭那里幾乎不可能。
這個(gè)決策,如今回看,極具遠(yuǎn)見(jiàn)!
到2024年底,許多AI巨頭發(fā)現(xiàn),傳統(tǒng)的「堆數(shù)據(jù)、堆算力」模式,回報(bào)越來(lái)越低。
而AI領(lǐng)域最激動(dòng)人心的脈搏,正源自「AI推理」的進(jìn)步!
AI究竟會(huì)不會(huì)「思考」?一場(chǎng)哲學(xué)的終結(jié)
AI真的在「推理」嗎?它真的擁有了「思想」嗎?
自o1問(wèn)世以來(lái),ChatGPT的界面里充滿了「正在思考」、「正在推理」等擬人化詞匯,仿佛在宣告一個(gè)新紀(jì)元的到來(lái)。
當(dāng)被問(wèn)及這個(gè)問(wèn)題時(shí),研究員Kishky基巧妙地回答:「我們是在教模型如何最高效地利用算力,去找到答案。如果從這個(gè)計(jì)算機(jī)科學(xué)的角度定義,那沒(méi)錯(cuò),它就是在推理。」
Lightman的看法則更加務(wù)實(shí)和「結(jié)果導(dǎo)向」:
「別管它內(nèi)部是怎么運(yùn)作的!如果一個(gè)模型能解決極其困難的問(wèn)題,那它就已經(jīng)掌握了達(dá)成目標(biāo)所必需的、近似于推理的能力?!?/p>
他總結(jié)道,「我們可以稱(chēng)之為推理,因?yàn)樗雌饋?lái)就像那么回事。但這都只是手段,我們真正的目的,是為全人類(lèi)打造強(qiáng)大到不可思議的AI工具!」
OpenAI的科學(xué)家們坦言,人們大可不必認(rèn)同他們對(duì)「推理」的定義。
事實(shí)上,批評(píng)者早已涌現(xiàn)。但他們認(rèn)為,爭(zhēng)論名詞遠(yuǎn)不如模型本身的能力重要。
AI研究員NathanLambert打了個(gè)絕妙的比方:AI推理就像飛機(jī)。
飛機(jī)的靈感來(lái)自飛鳥(niǎo),但其飛行原理與鳥(niǎo)類(lèi)截然不同。
這絲毫不影響飛機(jī)的偉大,它依然能帶我們飛向天空。
AI的「思考」,或許也是如此——靈感源于人腦,機(jī)制卻全然不同,但這并不妨礙它實(shí)現(xiàn)同樣、甚至超越人類(lèi)的結(jié)果。
終極戰(zhàn)場(chǎng):讓AI智能體搞定主觀任務(wù)
今天市場(chǎng)上的AI智能體,在編碼等規(guī)則明確的領(lǐng)域已大顯身手。
OpenAI的Codex能幫程序員處理瑣碎代碼,而Anthropic的模型更是在Cursor等AI編程工具中備受追捧,成為首批讓用戶心甘情愿付費(fèi)的AI智能體。
然而,真正的挑戰(zhàn)在于主觀世界!
當(dāng)你想讓AI幫你網(wǎng)購(gòu)、或找個(gè)長(zhǎng)期停車(chē)位時(shí),通用的AI智能體(如ChatGPTAgent)往往會(huì)讓你失望——它們反應(yīng)遲鈍,還盡犯些低級(jí)錯(cuò)誤。
這正是AI智能體走向普及的最后一道天塹:如何教會(huì)AI處理那些沒(méi)有標(biāo)準(zhǔn)答案、充滿主觀色彩的任務(wù)?
「這本質(zhì)上是個(gè)數(shù)據(jù)問(wèn)題,」Lightman一針見(jiàn)血,「我們當(dāng)前最激動(dòng)人心的研究,就是如何讓模型在不可驗(yàn)證的任務(wù)上進(jìn)行有效訓(xùn)練。我們已經(jīng)找到了一些線索!」
OpenAI的另一位核心研究員NoamBrown透露,他們已掌握全新的通用強(qiáng)化學(xué)習(xí)技術(shù),能教會(huì)AI那些無(wú)法用簡(jiǎn)單對(duì)錯(cuò)來(lái)衡量的技能。
那塊IMO奧數(shù)金牌,正是用這種方法拿下的!
奪金的AI模型,是一種更先進(jìn)的系統(tǒng):它能同時(shí)派出多個(gè)AI智能體,分頭探索不同的解題思路,最后優(yōu)中選優(yōu)。
如今,谷歌和xAI的最新模型也紛紛采用了這種「群體智能」策略。
「AI的數(shù)學(xué)能力會(huì)越來(lái)越強(qiáng),其他推理領(lǐng)域也一樣。」Brown對(duì)此信心爆棚,「進(jìn)步的速度快得令人難以置信,我看不出任何放緩的跡象!」
GPT-5的野望:通往萬(wàn)能AI的終極圖景
這些突飛猛進(jìn)的技術(shù),很可能將在OpenAI即將發(fā)布的GPT-5模型中全面展現(xiàn)。
OpenAI的目標(biāo)只有一個(gè):用GPT-5的絕對(duì)優(yōu)勢(shì),捍衛(wèi)自己在AI智能體領(lǐng)域的王權(quán)!
但他們的野心不止于此。
Kishky基描繪了一幅終極圖景:未來(lái)的AI智能體將能憑直覺(jué)理解你的意圖,無(wú)需你繁瑣地設(shè)置。
它會(huì)自主判斷何時(shí)調(diào)用何種工具、需要投入多少「思考」,就像一個(gè)心有靈犀的超級(jí)助理。
這,才是ChatGPT的最終形態(tài):一個(gè)能為你代勞互聯(lián)網(wǎng)上一切事務(wù),并且懂你心意的全能AI智能體!
這與今天的ChatGPT相比,已是天壤之別。但毫無(wú)疑問(wèn),OpenAI的研究正全速駛向這個(gè)未來(lái)。
然而,賽道已擁擠不堪!
幾年前的絕對(duì)王者,如今已強(qiáng)敵環(huán)伺。DeepSeek、谷歌、Anthropic、xAI、Meta……個(gè)個(gè)虎視眈眈。
問(wèn)題不再是OpenAI能否實(shí)現(xiàn)其智能體的未來(lái),而是——
它能否在群雄逐鹿的血戰(zhàn)中,第一個(gè)沖過(guò)終點(diǎn)。
參考資料:
https://techcrunch.com/2025/08/03/inside-openais-quest-to-make-ai-do-anything-for-you/
重讀老小說(shuō)——《迷失在一六二九》
《迷失在一六二九》或許永遠(yuǎn)等不到結(jié)局,但它的存在本身已構(gòu)成一部“元敘事”:當(dāng)穿越者試圖改寫(xiě)歷史時(shí),他們自己的故事也成了被解讀的歷史_。這種宿命感,恰是快餐式網(wǎng)文難以企及的深度|。若你厭倦了AI生成的套路爽文,不妨翻開(kāi)這部“老古董”——在明末的星空下,與500個(gè)現(xiàn)代人一起,重新思考文明的意義。 “這不是開(kāi)玩笑,明萬(wàn)歷時(shí)期,葡萄牙人——這時(shí)候稱(chēng)之為佛朗機(jī)人奪占澳門(mén),當(dāng)?shù)毓賳T上書(shū)報(bào)告情況詢問(wèn)對(duì)策,直到兩年以后明朝政府才做出反應(yīng)——當(dāng)然這時(shí)候葡萄牙人早在當(dāng)?shù)卣咀∧_了|——。明朝中央政府對(duì)權(quán)力的把持非常緊,樣樣都要親自處理,但這時(shí)代的技術(shù)水平又非常低下,所以他們的反應(yīng)速度非常緩慢-?!薄澳且郧八麄兪窃跤袔椭?qǐng)點(diǎn)贊-。堪稱(chēng)神作的高質(zhì)量小說(shuō)《迷失在一六二九》,對(duì)白扣人心弦放棄思考來(lái)...