2022年,亨特?萊特曼以研究員身份加入OpenAI后不久,便見證了同事們推出ChatGPT——這款產(chǎn)品后來成為史上增長最快的產(chǎn)品之一。與此同時,萊特曼則在一個團隊中默默耕耘,致力于教OpenAI的模型解決高中數(shù)學(xué)競賽題。
如今,這個名為MathGen的團隊被視為OpenAI打造AI推理模型這一行業(yè)領(lǐng)先舉措的關(guān)鍵力量,而AI推理模型正是能像人類一樣在電腦上完成任務(wù)的AI代理的核心技術(shù)。
“我們當時試圖讓模型在數(shù)學(xué)推理方面做得更好,因為那時它們在這方面還很薄弱,”萊特曼在描述MathGen早期工作時對TechCrunch表示。
OpenAI的模型如今遠非完美——該公司最新的AI系統(tǒng)仍會出現(xiàn)幻覺,其代理在處理復(fù)雜任務(wù)時也力不從心。
但它的最先進模型在數(shù)學(xué)推理方面已有顯著進步。OpenAI的一款模型最近在國際數(shù)學(xué)奧林匹克競賽(一項面向全球最聰明高中生的數(shù)學(xué)競賽)中斬獲金牌。OpenAI認為,這些推理能力將遷移到其他學(xué)科,最終為該公司一直夢寐以求的通用代理提供動力。
ChatGPT的誕生純屬意外——一次低調(diào)的研究預(yù)覽意外走紅,演變成消費級業(yè)務(wù)——但OpenAI的代理是該公司多年來精心努力的成果。
“最終,你只需向電腦提出需求,它就會為你完成所有這些任務(wù),”O(jiān)penAI首席執(zhí)行官山姆?奧特曼在2023年公司首屆開發(fā)者大會上表示?!斑@些能力在AI領(lǐng)域通常被稱為代理。其帶來的好處將是巨大的?!?/p>
這些代理能否實現(xiàn)奧特曼的愿景仍有待觀察,但OpenAI在2024年秋季推出首個AI推理模型o1時,震驚了世界。不到一年后,促成這一突破的21名基礎(chǔ)研究員成為硅谷最炙手可熱的人才。
馬克?扎克伯格招募了5名參與o1研發(fā)的研究員,讓他們加入Meta新成立的專注于超級智能的部門,并為部分人提供了超過1億美元的薪酬方案。其中之一的趙勝佳最近被任命為Meta超級智能實驗室的首席科學(xué)家。
強化學(xué)習(xí)的復(fù)興
OpenAI推理模型和代理的崛起與一種名為強化學(xué)習(xí)(RL)的機器學(xué)習(xí)訓(xùn)練技術(shù)息息相關(guān)。強化學(xué)習(xí)在模擬環(huán)境中向AI模型反饋其選擇是否正確。
強化學(xué)習(xí)已應(yīng)用數(shù)十年。例如,2016年,在OpenAI于2015年成立約一年后,谷歌DeepMind使用強化學(xué)習(xí)創(chuàng)建的AI系統(tǒng)AlphaGo在圍棋比賽中擊敗世界冠軍,引發(fā)全球關(guān)注。
大約在那時,OpenAI的首批員工之一安德烈?卡帕西開始思考如何利用強化學(xué)習(xí)創(chuàng)建一個能使用電腦的AI代理。但OpenAI花了數(shù)年時間才開發(fā)出必要的模型和訓(xùn)練技術(shù)。
到2018年,OpenAI在GPT系列中率先推出首個大型語言模型,該模型在海量互聯(lián)網(wǎng)數(shù)據(jù)和大型GPU集群上進行預(yù)訓(xùn)練。GPT模型在文本處理方面表現(xiàn)出色,最終催生出ChatGPT,但在基礎(chǔ)數(shù)學(xué)方面卻存在短板。
直到2023年,OpenAI才取得突破,最初將其命名為“Q*”,后又改稱“Strawberry”。這一突破通過結(jié)合大型語言模型、強化學(xué)習(xí)和一種名為測試時計算的技術(shù)實現(xiàn)。后者讓模型在給出答案前,有額外的時間和計算能力來規(guī)劃和解決問題,并驗證每一步驟。
這使得OpenAI能夠引入一種名為“思維鏈”(CoT)的新方法,該方法提高了AI在處理未見過的數(shù)學(xué)問題時的表現(xiàn)。
“我能看到模型開始進行推理,”埃爾?基什基說?!八鼤l(fā)現(xiàn)錯誤并回溯,還會‘感到沮喪’。這真的就像在閱讀一個人的想法。”
盡管這些技術(shù)本身并非新穎,但OpenAI獨特地將它們結(jié)合起來,創(chuàng)建了Strawberry,這直接促成了o1的開發(fā)。OpenAI很快意識到,AI推理模型的規(guī)劃和事實核查能力可用于為AI代理提供動力。
“我們解決了一個我多年來一直冥思苦想的問題,”萊特曼說?!斑@是我研究生涯中最激動人心的時刻之一。”
擴展推理能力
憑借AI推理模型,OpenAI確定了兩個可用于改進AI模型的新方向:在AI模型的后期訓(xùn)練中使用更多計算能力,以及讓AI模型在回答問題時有更多時間和處理能力。
“作為一家公司,OpenAI不僅關(guān)注事物的現(xiàn)狀,還非常關(guān)注它們的擴展方式,”萊特曼說。
兩位消息人士告訴TechCrunch,在2023年Strawberry取得突破后不久,OpenAI成立了一個由研究員丹尼爾?塞爾薩姆領(lǐng)導(dǎo)的“代理”團隊,以在這一新范式上取得進一步進展。盡管該團隊名為“代理”,但OpenAI最初并未像我們?nèi)缃袼氲哪菢訁^(qū)分推理模型和代理。該公司只是想讓AI系統(tǒng)能夠完成復(fù)雜任務(wù)。
最終,塞爾薩姆領(lǐng)導(dǎo)的代理團隊的工作成為開發(fā)o1推理模型這一更大項目的一部分,該項目的負責人包括OpenAI聯(lián)合創(chuàng)始人伊利亞?薩茨凱弗、首席研究官馬克?陳和首席科學(xué)家雅各布?帕喬基。
OpenAI必須投入寶貴的資源——主要是人才和GPU——來開發(fā)o1。縱觀OpenAI的歷史,研究人員必須與公司領(lǐng)導(dǎo)層協(xié)商以獲取資源,而展示突破性成果是確保獲得資源的可靠方法。
“OpenAI的核心特點之一是,研究方面的一切都是自下而上的,”萊特曼說。“當我們展示(o1的)證據(jù)時,公司表示‘這很有意義,讓我們繼續(xù)推進’?!?/p>
一些前員工表示,這家初創(chuàng)公司開發(fā)通用人工智能(AGI)的使命是在AI推理模型方面取得突破的關(guān)鍵因素。通過專注于開發(fā)盡可能智能的AI模型,而非產(chǎn)品,OpenAI能夠?qū)1置于其他工作之上。而在競爭激烈的AI實驗室中,對這類想法進行如此大規(guī)模的投資并非總能實現(xiàn)。
事實證明,嘗試新訓(xùn)練方法的決定是有先見之明的。到2024年底,幾家領(lǐng)先的AI實驗室開始發(fā)現(xiàn),通過傳統(tǒng)預(yù)訓(xùn)練擴展創(chuàng)建的模型回報遞減。如今,AI領(lǐng)域的大部分動力來自推理模型的進步。
AI“推理”意味著什么?
在很多方面,AI研究的目標是用計算機重現(xiàn)人類智能。自o1推出以來,ChatGPT的用戶體驗中充滿了更像人類的功能,如“思考”和“推理”。
當被問及OpenAI的模型是否真正在推理時,埃爾?基什基有所保留,稱他從計算機科學(xué)的角度看待這個概念。
“我們正在教模型如何高效地消耗計算資源來獲取答案。所以如果你從這個角度定義,是的,它正在推理,”埃爾?基什基說。
萊特曼則更關(guān)注模型的結(jié)果,而不太在意其方式或與人類大腦的關(guān)系。
“如果模型正在做困難的事情,那么它正在做完成這件事所必需的任何近似推理,”萊特曼說。“我們可以稱之為推理,因為它看起來像這些推理軌跡,但這一切都只是為了打造對很多人來說真正強大且有用的AI工具的一種替代說法。”
OpenAI的研究人員指出,人們可能不同意他們對推理的命名或定義——當然,批評者已經(jīng)出現(xiàn)——但他們認為,這不如其模型的能力重要。其他AI研究人員也傾向于認同這一點。
非營利組織AI2的AI研究員內(nèi)森?蘭伯特在一篇博文中將AI推理模式比作飛機。他說,兩者都是受自然啟發(fā)的人造系統(tǒng)——分別受人類推理和鳥類飛行啟發(fā)——但它們通過完全不同的機制運作。這并不會降低它們的有用性,也不會削弱它們實現(xiàn)類似結(jié)果的能力。
來自O(shè)penAI、Anthropic和谷歌DeepMind的一群AI研究人員在最近的一份立場文件中一致認為,如今人們對AI推理模型的理解還不夠深入,需要更多的研究?,F(xiàn)在就斷言這些模型內(nèi)部到底在發(fā)生什么,可能還為時過早。
下一個前沿:用于主觀任務(wù)的AI代理
如今市場上的AI代理在定義明確、可驗證的領(lǐng)域(如編碼)表現(xiàn)最佳。OpenAI的Codex代理旨在幫助軟件工程師分擔簡單的編碼任務(wù)。與此同時,Anthropic的模型在Cursor和ClaudeCode等AI編碼工具中特別受歡迎——這些是人們愿意付費使用的首批AI代理中的一部分。
然而,像OpenAI的ChatGPT代理和Perplexity的Comet這樣的通用AI代理,在處理許多人們希望自動化的復(fù)雜、主觀任務(wù)時卻力不從心。我發(fā)現(xiàn),當嘗試使用這些工具進行網(wǎng)上購物或?qū)ふ议L期停車位時,這些代理花費的時間比我預(yù)期的要長,而且還會犯一些愚蠢的錯誤。
當被問及代理在主觀任務(wù)方面的局限性時,萊特曼說:“與機器學(xué)習(xí)中的許多問題一樣,這是一個數(shù)據(jù)問題。我現(xiàn)在真正感到興奮的一些研究是,想辦法在可驗證性較低的任務(wù)上進行訓(xùn)練。我們在如何做這些事情上有了一些線索。”
幫助創(chuàng)建國際數(shù)學(xué)奧林匹克模型和o1的OpenAI研究員諾姆?布朗告訴TechCrunch,OpenAI擁有新的通用強化學(xué)習(xí)技術(shù),這些技術(shù)使他們能夠教授AI模型那些不易驗證的技能。他說,該公司正是通過這種方式構(gòu)建了在國際數(shù)學(xué)奧林匹克競賽中獲得金牌的模型。
OpenAI的國際數(shù)學(xué)奧林匹克模型是一個較新的AI系統(tǒng),它能生成多個代理,這些代理隨后同時探索多個想法,然后選擇最佳答案。這類AI模型正變得越來越受歡迎;谷歌和xAI最近也發(fā)布了使用這種技術(shù)的最先進模型。
“我認為這些模型在數(shù)學(xué)方面的能力會越來越強,而且在其他推理領(lǐng)域也會變得更有能力,”布朗說?!斑M步速度快得驚人。我沒有理由認為它會放緩?!?/p>
這些技術(shù)可能有助于提高OpenAI模型的性能,而這些進步可能會在該公司即將推出的GPT-5模型中體現(xiàn)出來。OpenAI希望通過推出GPT-5來鞏固其對競爭對手的優(yōu)勢,理想情況下,為開發(fā)者和消費者提供最優(yōu)秀的AI模型來驅(qū)動代理。
但該公司也希望使其產(chǎn)品更易于使用。埃爾?基什基表示,OpenAI希望開發(fā)出能直觀理解用戶需求的AI代理,而無需用戶選擇特定設(shè)置。他說,OpenAI的目標是構(gòu)建這樣的AI系統(tǒng):知道何時調(diào)用特定工具,以及需要推理多長時間。
這些想法描繪出ChatGPT終極版本的圖景:一個能在互聯(lián)網(wǎng)上為你做任何事情,并理解你希望如何去做的代理。這與如今的ChatGPT有很大不同,但該公司的研究正朝著這個方向穩(wěn)步前進。
雖然OpenAI無疑在幾年前引領(lǐng)了AI行業(yè),但如今該公司面臨著一大批強勁的對手。問題不再僅僅是OpenAI能否實現(xiàn)其代理化的未來,而是該公司能否在谷歌、Anthropic、xAI或Meta之前做到這一點?
雙男主:荒野求生<我靠荒野求生直播風靡全星際><野外求生直播間>
小說:穿萬界賣垃圾食品,大佬竟搶著要?
羅可歌:文旅融合打造杭州城市美食新名片
免責聲明:本文內(nèi)容由開放的智能模型自動生成,僅供參考。