當(dāng)全世界都在為ChatGPT的橫空出世而狂歡時(shí),你可能不知道,這只是OpenAI一次“無(wú)心插柳”的驚喜??萍济襟wTechcrunch一篇最新的深度文章揭示了,OpenAI從數(shù)學(xué)競(jìng)賽走向“通用AI智能體”(AIAgents)的宏大愿景。這背后,是一個(gè)長(zhǎng)達(dá)數(shù)年的深思熟慮的布局,以及其對(duì)AI“推理”能力的終極探索。
意外的起點(diǎn):數(shù)學(xué)
很多人以為OpenAI的成功故事是從ChatGPT開(kāi)始的,但真正的顛覆性力量,卻源于一個(gè)看似與大眾應(yīng)用相去較遠(yuǎn)的地方——數(shù)學(xué)。
2022年,當(dāng)研究員亨特·萊特曼(HunterLightman)加入OpenAI時(shí),他的同事們正在為ChatGPT的發(fā)布而忙碌。這款產(chǎn)品后來(lái)火遍全球,成為現(xiàn)象級(jí)的消費(fèi)應(yīng)用。但與此同時(shí),萊特曼卻在一個(gè)不起眼的團(tuán)隊(duì)“MathGen”里,默默地教AI模型如何解答高中數(shù)學(xué)競(jìng)賽題。
“我們當(dāng)時(shí)正努力讓模型在數(shù)學(xué)推理上做得更好”,Lightman回憶道。而這場(chǎng)看似偏離主線的探索,恰恰是OpenAI發(fā)展推理模型的起點(diǎn)。
為什么是數(shù)學(xué)?因?yàn)閿?shù)學(xué)是純粹邏輯和推理的試金石。如果一個(gè)模型能真正理解并解決復(fù)雜的數(shù)學(xué)問(wèn)題,意味著它開(kāi)始具備了初步的推理能力。
回過(guò)頭看,ChatGPT的成功更像一個(gè)“美麗的意外”——用內(nèi)部的話說(shuō),這是一個(gè)低調(diào)的研究預(yù)覽版,卻意外引爆了消費(fèi)市場(chǎng)。
但OpenAI的CEO山姆·奧特曼(SamAltman)的目光,早已投向了更遠(yuǎn)的地方。在2023年的首屆開(kāi)發(fā)者大會(huì)上,他清晰地描繪了未來(lái):
最終,你只需告訴計(jì)算機(jī)你需要什么,它就會(huì)為你完成所有這些任務(wù)。這些能力,在AI領(lǐng)域通常被稱為智能體(Agents)。其帶來(lái)的好處將是巨大的。
而那項(xiàng)在當(dāng)年略顯“低調(diào)”的工作,成果斐然。近期,OpenAI的一個(gè)模型在國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽(IMO)中摘得金牌,這是全球頂尖高中生的智慧競(jìng)技場(chǎng)。
OpenAI堅(jiān)信,這種在數(shù)學(xué)領(lǐng)域磨練出的推理能力,完全可以遷移到其他領(lǐng)域,并最終驅(qū)動(dòng)他們夢(mèng)寐以求的通用AI智能體。
“草莓”計(jì)劃:引爆推理革命的關(guān)鍵突破
早期的GPT模型擅長(zhǎng)處理文本,但在基礎(chǔ)數(shù)學(xué)面前卻常常“犯糊涂”。
從基礎(chǔ)的語(yǔ)言處理到復(fù)雜的邏輯推理,OpenAI是如何跨越這道鴻溝的?轉(zhuǎn)機(jī)發(fā)生在2023年,OpenAI通過(guò)一種創(chuàng)新的方法,實(shí)現(xiàn)了推理能力的飛躍。這一突破最初的內(nèi)部代號(hào)為“Q*”,后又被稱為“Strawberry”(草莓)。
其核心,是將三種技術(shù)進(jìn)行了前所未有的結(jié)合:
大語(yǔ)言模型(LLM):提供海量的知識(shí)基礎(chǔ)和語(yǔ)言能力。
強(qiáng)化學(xué)習(xí)(RL):在模擬環(huán)境中,通過(guò)“獎(jiǎng)懲”機(jī)制(即反饋答案是否正確)來(lái)訓(xùn)練模型做出更優(yōu)選擇。這與當(dāng)年AlphaGo擊敗李世石的技術(shù)同源。
測(cè)試時(shí)計(jì)算(Test-timecomputation):給予模型更多的時(shí)間和算力去“思考”,在給出最終答案前,反復(fù)規(guī)劃、驗(yàn)證和檢查自己的步驟。
這個(gè)組合拳催生了一種全新的方法——“思考鏈”(Chain-of-Thought,CoT)。模型不再是直接給出答案,而是像人一樣,會(huì)展現(xiàn)出完整的解題思路。研究員埃爾·基什基(ElKishky)在描述當(dāng)時(shí)的場(chǎng)景時(shí)難掩興奮:
我能看到模型開(kāi)始推理了。它會(huì)注意到錯(cuò)誤并回溯,它會(huì)感到沮喪。這真的就像在閱讀一個(gè)人的思想。
這項(xiàng)突破直接促成了2024年秋天o1推理模型的問(wèn)世。o1的出現(xiàn)震驚了世界,也讓其背后的21名核心研究員成為了硅谷最炙手可熱的人才。Meta的扎克伯格不惜開(kāi)出上億美元的薪酬包,挖走了其中五位,以組建其專注于超級(jí)智能的新部門。
探索AI“推理”的本質(zhì)
AI真的在“推理”嗎?還是只是更高級(jí)的模仿?
面對(duì)這個(gè)問(wèn)題,OpenAI的研究員們表現(xiàn)得相當(dāng)務(wù)實(shí)。ElKishky從計(jì)算機(jī)科學(xué)的角度解釋:“我們正在教模型如何有效地消耗算力來(lái)得到答案。如果這樣定義,那它就是推理?!?/p>
另一位研究員Lightman則更關(guān)注結(jié)果:“如果模型能完成困難的任務(wù),那么它就在進(jìn)行某種必要的、近似于推理的過(guò)程。我們可以稱之為推理,但這只是為了創(chuàng)造出強(qiáng)大、有用工具的一種說(shuō)法?!?/p>
非營(yíng)利組織AI2的研究員NathanLambert用了一個(gè)絕妙的比喻:AI推理之于人類思考,就像飛機(jī)之于鳥類飛行。飛機(jī)并非通過(guò)模仿鳥類扇動(dòng)翅膀來(lái)實(shí)現(xiàn)飛行,但它同樣征服了天空。AI的“推理”機(jī)制與人腦不同,但這并不妨礙它實(shí)現(xiàn)相似甚至更強(qiáng)大的結(jié)果。
這種對(duì)終極目標(biāo)的專注,而非拘泥于形式,恰恰是OpenAI文化的核心。據(jù)前員工透露,公司“一切研究都是自下而上的”,只要團(tuán)隊(duì)能證明其想法的突破性,公司就會(huì)傾斜寶貴的GPU和人才資源。正是這種對(duì)AGI(通用人工智能)使命的執(zhí)著,而非短期產(chǎn)品利益的追求,才讓OpenAI敢于在推理模型上進(jìn)行如此巨大的投入,并最終搶占先機(jī)。
下一個(gè)前沿:從客觀編碼到主觀任務(wù)
如今,AI智能體在一些定義明確、可驗(yàn)證的領(lǐng)域已經(jīng)初顯身手,例如幫助程序員完成編碼任務(wù)。但當(dāng)人們嘗試讓它處理更復(fù)雜、更主觀的任務(wù),比如“幫我找一個(gè)性價(jià)比最高的長(zhǎng)期停車位”或“幫我規(guī)劃一次完美的家庭旅行”時(shí),它們往往會(huì)犯一些低級(jí)錯(cuò)誤,或者耗時(shí)過(guò)長(zhǎng)。
這背后的核心瓶頸是什么?Lightman一針見(jiàn)血地指出:“和機(jī)器學(xué)習(xí)中的許多問(wèn)題一樣,這是一個(gè)數(shù)據(jù)問(wèn)題?!?/p>
如何訓(xùn)練模型處理那些沒(méi)有標(biāo)準(zhǔn)答案、更偏主觀的任務(wù),是當(dāng)前研究的前沿。OpenAI研究員NoamBrown透露,他們已經(jīng)掌握了新的通用強(qiáng)化學(xué)習(xí)技術(shù),可以訓(xùn)練模型學(xué)習(xí)那些不易驗(yàn)證的技能,IMO金牌模型就是基于此誕生的。該模型能生成多個(gè)“智能體分身”,同時(shí)探索不同解題路徑,最后選出最優(yōu)解。
這預(yù)示著AI的未來(lái)演進(jìn)方向:從單一模型到多智能體協(xié)作,從處理客觀事實(shí)到理解主觀意圖。
OpenAI的終極藍(lán)圖,是打造一個(gè)能為你處理互聯(lián)網(wǎng)上任何事情、并能心領(lǐng)神會(huì)你的偏好的超級(jí)智能體。這與今天的ChatGPT形態(tài)迥異,但其所有的研究,都堅(jiān)定地指向這個(gè)方向。
毫無(wú)疑問(wèn),OpenAI曾是AI行業(yè)的絕對(duì)引領(lǐng)者,但如今,它面臨著來(lái)自Google、Anthropic、xAI和Meta等一眾強(qiáng)勁對(duì)手的圍剿。問(wèn)題已經(jīng)不再是OpenAI能否實(shí)現(xiàn)其“智能體未來(lái)”,而是它能否在被對(duì)手超越之前,率先抵達(dá)終點(diǎn)。這場(chǎng)關(guān)乎未來(lái)的競(jìng)賽,才剛剛開(kāi)始。
樂(lè)高套系大盤點(diǎn):孩子各年齡階段的創(chuàng)意指南
孩子學(xué)習(xí)少兒編程的四個(gè)階段,你知道多少?
學(xué)習(xí)少兒編程必須要報(bào)培訓(xùn)班嗎,業(yè)內(nèi)老師告訴你答案
免責(zé)聲明:本文內(nèi)容由開(kāi)放的智能模型自動(dòng)生成,僅供參考。