新智元報道
定慧好困
【新智元導讀】當全世界為ChatGPT的成功喝彩時,OpenAI一個曾不起眼的小組,卻在通過攻克數(shù)學難題,秘密鍛造其真正的核心武器:「推理」能力,也就是終極目標「AI智能體」的心臟。他們的野望,是打造一個能為你代勞一切事務(wù)的全能AI。
歷史往往都是由無數(shù)「意外和巧合」所塑造的。
2022年,當研究員HunterLightman加入OpenAI時,他的同事們正忙于引爆全球的ChatGPT——這無疑是史上用戶增長最快的現(xiàn)象級產(chǎn)品。
然而,Lightman卻悄悄投身于一個看似不起眼的團隊:MathGen。
他們的任務(wù)只有一個:訓練AI模型去攻克高中級別的數(shù)學競賽難題。
如今,這個曾經(jīng)默默無聞的MathGen團隊,竟被視為OpenAI現(xiàn)在能夠問鼎行業(yè)的真正原因!
2023年5月31日OpenAI發(fā)布研究博客《ImprovingMathematicalReasoningwithProcess?Supervision》,正式提出過程監(jiān)督(processsupervision)訓練的效果。
并在作者署名中出現(xiàn)HunterLightman等與MathGenteam有關(guān)的研究人員。該博客是首次與MathGen團隊相關(guān)的官方發(fā)布之一。
同日,奧特曼于X發(fā)布祝賀消息——這是首次由OpenAI親口確認MathGenTeam的官方存在。
他們鍛造的「AI推理能力」,正是那項終極技術(shù)——AI智能體(AIAgent)的心臟!
這種智能體,將像人類一樣,在電腦上獨立完成你交辦的一切任務(wù)!
「那時候,AI的數(shù)學推理能力簡直一塌糊涂!」Lightman回憶道,「我們的使命,就是讓它學會真正的思考?!?/p>
從「笨學生」到「奧數(shù)金牌」的進化!
平心而論,今天的OpenAI模型遠未完美——它們依然會「一本正經(jīng)地胡說八道」,那些所謂的AI智能體在復雜任務(wù)面前也常常束手無策。
但是,一場巨變正在發(fā)生!
OpenAI最頂尖的模型,其數(shù)學推理能力已實現(xiàn)驚天逆襲!
就在最近,
OpenAI堅信,這種強大的推理能力,將可以復制到任何領(lǐng)域!
這正是他們構(gòu)建通用AI智能體的基石,是他們從創(chuàng)立之初就魂牽夢繞的終極夢想!
如果說,ChatGPT的成功是一場「無心插柳的驚世之作」,一個本想低調(diào)測試卻意外引爆全球的奇跡。
那么,AI智能體,則是OpenAI精心布局數(shù)年、深思熟慮的戰(zhàn)略結(jié)晶!
「未來,你只需要向電腦下達指令,它就會為你搞定一切!」
OpenAI的CEO奧特曼在2023年的開發(fā)者大會上宣告,「這種能力,就是AI智能體。它帶來的顛覆,將是空前絕后的!」
奧特曼的預言能否成真?世界還在觀望。但OpenAI已然出手!
2024年秋,其首個AI推理模型o1橫空出世,一鳴驚人!
不到一年,締造這一神話的21名核心研究員,瞬間成為硅谷瘋搶的頂尖人物!
扎克伯格不惜血本,開出上億美元的天價薪酬,從OpenAI挖走了5名o1團隊的核心成員,組建Meta的「超級智能」軍團。
其中一位,,更是被直接任命為Meta超級智能實驗室的首席科學家!
一場圍繞「AI大腦」的人才戰(zhàn)爭,已然白熱化!
強化學習:引爆智能革命的古老技藝
OpenAI這場推理革命的背后,是一種被稱為強化學習(RL)的古老技術(shù)在煥發(fā)新生。
它就像一個嚴厲的教練,在模擬環(huán)境中不斷對AI的選擇進行獎懲,從而教會AI何為「正確」。
這項技術(shù)并不新鮮。
早在2016年,谷歌DeepMind的AlphaGo就曾用它擊敗世界圍棋冠軍,名震天下。
彼時,OpenAI的元老級員工AndrejKarpathy已開始構(gòu)想,如何用強化學習(RL)打造一個能熟練操作電腦的AI智能體。
然而,從理想到現(xiàn)實,OpenAI足足走了數(shù)年。
2018年,OpenAI推出了開創(chuàng)性的大語言模型GPT系列。
論文地址:https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf
它靠著海量數(shù)據(jù)和GPU集群,成了文本處理的天才,并最終孕育了ChatGPT。
但它的軟肋也同樣致命——連基礎(chǔ)數(shù)學都搞不定。
直到2023年,石破天驚的突破降臨!
一個代號「Q*」(后被稱為「Strawberry」)的項目,將大語言模型、強化學習(RL)和一種名為「測試時計算」的技術(shù)三位一體,融會貫通!
它賦予了模型額外的思考時間,讓AI在給出答案前,能反復規(guī)劃、推演和驗證。
「思維鏈」(CoT)技術(shù)由此誕生!AI在處理聞所未聞的數(shù)學難題時,表現(xiàn)脫胎換骨!
「我親眼目睹了模型開始真正地推理,」研究員ElKishky激動地說,「它會發(fā)現(xiàn)自己的錯誤,然后回溯修正,它甚至會表現(xiàn)出沮喪。那感覺,就像在閱讀一個人的思想!」
這些技術(shù)單拎出來,并非首創(chuàng)。
但OpenAI的鬼斧神工之處,在于將它們以前所未有的方式組合,直接催生了后來的王牌——o1。
那一刻,OpenAI恍然大悟:這種規(guī)劃與事實核查能力,不正是驅(qū)動AI智能體的完美引擎嗎?
「我們攻克了一個我苦思冥想數(shù)年的難題!」Lightman說,「那是我科研生涯中,最心潮澎湃的瞬間!」
引爆推理:一場自下而上的豪賭
擁有了AI推理模型,OpenAI的雄心被徹底點燃。
他們發(fā)現(xiàn)了兩條全新的進化路徑:
1.在模型訓練后期,投入更多的算力!
2.在回答問題時,給予模型更多的思考時間和算力!
「OpenAI這家公司,思考的從來不只是當下,而是未來如何將優(yōu)勢無限擴大!」Lightman說。
2023年「Strawberry」項目突破后,OpenAI火速組建了一支由研究員DanielSelsam領(lǐng)銜的「AI智能體」特攻隊。
他們的目標只有一個:將這項新能力推向極致!
起初,公司內(nèi)部甚至沒有嚴格區(qū)分「推理模型」和「AI智能體」。
共同的目標只有一個:打造能完成復雜任務(wù)的超級AI!
最終,這支特攻隊的工作匯入了更宏大的o1模型項目,由聯(lián)合創(chuàng)始人IlyaSutskever等一眾頂級大佬親自掛帥。
為了打造o1,OpenAI必須押上最寶貴的資源——頂尖人才和GPU。
在OpenAI,資源從不靠論資排輩,而靠實力說話。
研究員必須用驚人的突破來換取公司的全力支持。
「在OpenAI,所有研究創(chuàng)新都源于一線,是自下而上的?!筁ightman解釋道。
「當我們把o1的驚人證據(jù)擺在桌上時,整個公司立刻達成共識:就是它了,全力沖鋒!」
許多前員工認為,正是OpenAI對通用人工智能(AGI)近乎偏執(zhí)的追求,才催生了這場推理革命。
他們心無旁騖,不為短期產(chǎn)品所動,將所有寶押在了打造最強AI大腦上。這種不計成本的豪賭,在其他AI巨頭那里幾乎不可能。
這個決策,如今回看,極具遠見!
到2024年底,許多AI巨頭發(fā)現(xiàn),傳統(tǒng)的「堆數(shù)據(jù)、堆算力」模式,回報越來越低。
而AI領(lǐng)域最激動人心的脈搏,正源自「AI推理」的進步!
AI究竟會不會「思考」?一場哲學的終結(jié)
AI真的在「推理」嗎?它真的擁有了「思想」嗎?
自o1問世以來,ChatGPT的界面里充滿了「正在思考」、「正在推理」等擬人化詞匯,仿佛在宣告一個新紀元的到來。
當被問及這個問題時,研究員Kishky基巧妙地回答:「我們是在教模型如何最高效地利用算力,去找到答案。如果從這個計算機科學的角度定義,那沒錯,它就是在推理?!?/p>
Lightman的看法則更加務(wù)實和「結(jié)果導向」:
「別管它內(nèi)部是怎么運作的!如果一個模型能解決極其困難的問題,那它就已經(jīng)掌握了達成目標所必需的、近似于推理的能力。」
他總結(jié)道,「我們可以稱之為推理,因為它看起來就像那么回事。但這都只是手段,我們真正的目的,是為全人類打造強大到不可思議的AI工具!」
OpenAI的科學家們坦言,人們大可不必認同他們對「推理」的定義。
事實上,批評者早已涌現(xiàn)。但他們認為,爭論名詞遠不如模型本身的能力重要。
AI研究員NathanLambert打了個絕妙的比方:AI推理就像飛機。
飛機的靈感來自飛鳥,但其飛行原理與鳥類截然不同。
這絲毫不影響飛機的偉大,它依然能帶我們飛向天空。
AI的「思考」,或許也是如此——靈感源于人腦,機制卻全然不同,但這并不妨礙它實現(xiàn)同樣、甚至超越人類的結(jié)果。
終極戰(zhàn)場:讓AI智能體搞定主觀任務(wù)
今天市場上的AI智能體,在編碼等規(guī)則明確的領(lǐng)域已大顯身手。
OpenAI的Codex能幫程序員處理瑣碎代碼,而Anthropic的模型更是在Cursor等AI編程工具中備受追捧,成為首批讓用戶心甘情愿付費的AI智能體。
然而,真正的挑戰(zhàn)在于主觀世界!
當你想讓AI幫你網(wǎng)購、或找個長期停車位時,通用的AI智能體(如ChatGPTAgent)往往會讓你失望——它們反應(yīng)遲鈍,還盡犯些低級錯誤。
這正是AI智能體走向普及的最后一道天塹:如何教會AI處理那些沒有標準答案、充滿主觀色彩的任務(wù)?
「這本質(zhì)上是個數(shù)據(jù)問題,」Lightman一針見血,「我們當前最激動人心的研究,就是如何讓模型在不可驗證的任務(wù)上進行有效訓練。我們已經(jīng)找到了一些線索!」
OpenAI的另一位核心研究員NoamBrown透露,他們已掌握全新的通用強化學習技術(shù),能教會AI那些無法用簡單對錯來衡量的技能。
那塊IMO奧數(shù)金牌,正是用這種方法拿下的!
奪金的AI模型,是一種更先進的系統(tǒng):它能同時派出多個AI智能體,分頭探索不同的解題思路,最后優(yōu)中選優(yōu)。
如今,谷歌和xAI的最新模型也紛紛采用了這種「群體智能」策略。
「AI的數(shù)學能力會越來越強,其他推理領(lǐng)域也一樣?!笲rown對此信心爆棚,「進步的速度快得令人難以置信,我看不出任何放緩的跡象!」
GPT-5的野望:通往萬能AI的終極圖景
這些突飛猛進的技術(shù),很可能將在OpenAI即將發(fā)布的GPT-5模型中全面展現(xiàn)。
OpenAI的目標只有一個:用GPT-5的絕對優(yōu)勢,捍衛(wèi)自己在AI智能體領(lǐng)域的王權(quán)!
但他們的野心不止于此。
Kishky基描繪了一幅終極圖景:未來的AI智能體將能憑直覺理解你的意圖,無需你繁瑣地設(shè)置。
它會自主判斷何時調(diào)用何種工具、需要投入多少「思考」,就像一個心有靈犀的超級助理。
這,才是ChatGPT的最終形態(tài):一個能為你代勞互聯(lián)網(wǎng)上一切事務(wù),并且懂你心意的全能AI智能體!
這與今天的ChatGPT相比,已是天壤之別。但毫無疑問,OpenAI的研究正全速駛向這個未來。
然而,賽道已擁擠不堪!
幾年前的絕對王者,如今已強敵環(huán)伺。DeepSeek、谷歌、Anthropic、xAI、Meta……個個虎視眈眈。
問題不再是OpenAI能否實現(xiàn)其智能體的未來,而是——
它能否在群雄逐鹿的血戰(zhàn)中,第一個沖過終點。
參考資料:
https://techcrunch.com/2025/08/03/inside-openais-quest-to-make-ai-do-anything-for-you/
書荒請進《最后一個女玄術(shù)師》吞鬼的女孩 著,全文免費在線閱讀
”葉思媚回過頭,道:“洛大少還有什么事嗎?”洛之御欲言又止,最后拿出了一張名片,道:“這是我的私人電話,你……如果有什么事,隨時可以找我?!比~思媚禮貌地接過來,放進了包內(nèi)??粗谋秤?,洛之御心情有些郁結(jié)-——。奇怪,他在商場縱橫了這么多年,為什么在這個女孩面前卻宛如一個毛頭小子。太詭異了?!按笊贍擾。”秦叔忽然來到還有呢? 幾天之前,洛冰河忽然拿了一雙紅色高跟鞋給他,說這是靈器,再遇到那些異常情況,可以救命|。洛之御聽說過靈器,那可是難得一見的好東西,據(jù)說大川市富豪郭向東家中就是一件靈器,那靈器能鎮(zhèn)宅招財,郭向東之所以有今日的成就全都是因為有它,郭向東把它看得比自己的性命還要重要|——。但洛之御并不相信那雙紅色高跟鞋就后面會介紹。女生修真太帥了!修真文《最后一個女玄術(shù)師》天生艷骨,兩世三生