2022年,亨特?萊特曼以研究員身份加入OpenAI后不久,便見證了同事們推出ChatGPT——這款產品后來成為史上增長最快的產品之一。與此同時,萊特曼則在一個團隊中默默耕耘,致力于教OpenAI的模型解決高中數學競賽題。
如今,這個名為MathGen的團隊被視為OpenAI打造AI推理模型這一行業(yè)領先舉措的關鍵力量,而AI推理模型正是能像人類一樣在電腦上完成任務的AI代理的核心技術。
“我們當時試圖讓模型在數學推理方面做得更好,因為那時它們在這方面還很薄弱,”萊特曼在描述MathGen早期工作時對TechCrunch表示。
OpenAI的模型如今遠非完美——該公司最新的AI系統(tǒng)仍會出現幻覺,其代理在處理復雜任務時也力不從心。
但它的最先進模型在數學推理方面已有顯著進步。OpenAI的一款模型最近在國際數學奧林匹克競賽(一項面向全球最聰明高中生的數學競賽)中斬獲金牌。OpenAI認為,這些推理能力將遷移到其他學科,最終為該公司一直夢寐以求的通用代理提供動力。
ChatGPT的誕生純屬意外——一次低調的研究預覽意外走紅,演變成消費級業(yè)務——但OpenAI的代理是該公司多年來精心努力的成果。
“最終,你只需向電腦提出需求,它就會為你完成所有這些任務,”O(jiān)penAI首席執(zhí)行官山姆?奧特曼在2023年公司首屆開發(fā)者大會上表示?!斑@些能力在AI領域通常被稱為代理。其帶來的好處將是巨大的。”
這些代理能否實現奧特曼的愿景仍有待觀察,但OpenAI在2024年秋季推出首個AI推理模型o1時,震驚了世界。不到一年后,促成這一突破的21名基礎研究員成為硅谷最炙手可熱的人才。
馬克?扎克伯格招募了5名參與o1研發(fā)的研究員,讓他們加入Meta新成立的專注于超級智能的部門,并為部分人提供了超過1億美元的薪酬方案。其中之一的趙勝佳最近被任命為Meta超級智能實驗室的首席科學家。
強化學習的復興
OpenAI推理模型和代理的崛起與一種名為強化學習(RL)的機器學習訓練技術息息相關。強化學習在模擬環(huán)境中向AI模型反饋其選擇是否正確。
強化學習已應用數十年。例如,2016年,在OpenAI于2015年成立約一年后,谷歌DeepMind使用強化學習創(chuàng)建的AI系統(tǒng)AlphaGo在圍棋比賽中擊敗世界冠軍,引發(fā)全球關注。
大約在那時,OpenAI的首批員工之一安德烈?卡帕西開始思考如何利用強化學習創(chuàng)建一個能使用電腦的AI代理。但OpenAI花了數年時間才開發(fā)出必要的模型和訓練技術。
到2018年,OpenAI在GPT系列中率先推出首個大型語言模型,該模型在海量互聯網數據和大型GPU集群上進行預訓練。GPT模型在文本處理方面表現出色,最終催生出ChatGPT,但在基礎數學方面卻存在短板。
直到2023年,OpenAI才取得突破,最初將其命名為“Q*”,后又改稱“Strawberry”。這一突破通過結合大型語言模型、強化學習和一種名為測試時計算的技術實現。后者讓模型在給出答案前,有額外的時間和計算能力來規(guī)劃和解決問題,并驗證每一步驟。
這使得OpenAI能夠引入一種名為“思維鏈”(CoT)的新方法,該方法提高了AI在處理未見過的數學問題時的表現。
“我能看到模型開始進行推理,”埃爾?基什基說。“它會發(fā)現錯誤并回溯,還會‘感到沮喪’。這真的就像在閱讀一個人的想法?!?/p>
盡管這些技術本身并非新穎,但OpenAI獨特地將它們結合起來,創(chuàng)建了Strawberry,這直接促成了o1的開發(fā)。OpenAI很快意識到,AI推理模型的規(guī)劃和事實核查能力可用于為AI代理提供動力。
“我們解決了一個我多年來一直冥思苦想的問題,”萊特曼說?!斑@是我研究生涯中最激動人心的時刻之一。”
擴展推理能力
憑借AI推理模型,OpenAI確定了兩個可用于改進AI模型的新方向:在AI模型的后期訓練中使用更多計算能力,以及讓AI模型在回答問題時有更多時間和處理能力。
“作為一家公司,OpenAI不僅關注事物的現狀,還非常關注它們的擴展方式,”萊特曼說。
兩位消息人士告訴TechCrunch,在2023年Strawberry取得突破后不久,OpenAI成立了一個由研究員丹尼爾?塞爾薩姆領導的“代理”團隊,以在這一新范式上取得進一步進展。盡管該團隊名為“代理”,但OpenAI最初并未像我們如今所想的那樣區(qū)分推理模型和代理。該公司只是想讓AI系統(tǒng)能夠完成復雜任務。
最終,塞爾薩姆領導的代理團隊的工作成為開發(fā)o1推理模型這一更大項目的一部分,該項目的負責人包括OpenAI聯合創(chuàng)始人伊利亞?薩茨凱弗、首席研究官馬克?陳和首席科學家雅各布?帕喬基。
OpenAI必須投入寶貴的資源——主要是人才和GPU——來開發(fā)o1。縱觀OpenAI的歷史,研究人員必須與公司領導層協(xié)商以獲取資源,而展示突破性成果是確保獲得資源的可靠方法。
“OpenAI的核心特點之一是,研究方面的一切都是自下而上的,”萊特曼說?!爱斘覀冋故荆╫1的)證據時,公司表示‘這很有意義,讓我們繼續(xù)推進’?!?/p>
一些前員工表示,這家初創(chuàng)公司開發(fā)通用人工智能(AGI)的使命是在AI推理模型方面取得突破的關鍵因素。通過專注于開發(fā)盡可能智能的AI模型,而非產品,OpenAI能夠將o1置于其他工作之上。而在競爭激烈的AI實驗室中,對這類想法進行如此大規(guī)模的投資并非總能實現。
事實證明,嘗試新訓練方法的決定是有先見之明的。到2024年底,幾家領先的AI實驗室開始發(fā)現,通過傳統(tǒng)預訓練擴展創(chuàng)建的模型回報遞減。如今,AI領域的大部分動力來自推理模型的進步。
AI“推理”意味著什么?
在很多方面,AI研究的目標是用計算機重現人類智能。自o1推出以來,ChatGPT的用戶體驗中充滿了更像人類的功能,如“思考”和“推理”。
當被問及OpenAI的模型是否真正在推理時,埃爾?基什基有所保留,稱他從計算機科學的角度看待這個概念。
“我們正在教模型如何高效地消耗計算資源來獲取答案。所以如果你從這個角度定義,是的,它正在推理,”埃爾?基什基說。
萊特曼則更關注模型的結果,而不太在意其方式或與人類大腦的關系。
“如果模型正在做困難的事情,那么它正在做完成這件事所必需的任何近似推理,”萊特曼說?!拔覀兛梢苑Q之為推理,因為它看起來像這些推理軌跡,但這一切都只是為了打造對很多人來說真正強大且有用的AI工具的一種替代說法?!?/p>
OpenAI的研究人員指出,人們可能不同意他們對推理的命名或定義——當然,批評者已經出現——但他們認為,這不如其模型的能力重要。其他AI研究人員也傾向于認同這一點。
非營利組織AI2的AI研究員內森?蘭伯特在一篇博文中將AI推理模式比作飛機。他說,兩者都是受自然啟發(fā)的人造系統(tǒng)——分別受人類推理和鳥類飛行啟發(fā)——但它們通過完全不同的機制運作。這并不會降低它們的有用性,也不會削弱它們實現類似結果的能力。
來自OpenAI、Anthropic和谷歌DeepMind的一群AI研究人員在最近的一份立場文件中一致認為,如今人們對AI推理模型的理解還不夠深入,需要更多的研究?,F在就斷言這些模型內部到底在發(fā)生什么,可能還為時過早。
下一個前沿:用于主觀任務的AI代理
如今市場上的AI代理在定義明確、可驗證的領域(如編碼)表現最佳。OpenAI的Codex代理旨在幫助軟件工程師分擔簡單的編碼任務。與此同時,Anthropic的模型在Cursor和ClaudeCode等AI編碼工具中特別受歡迎——這些是人們愿意付費使用的首批AI代理中的一部分。
然而,像OpenAI的ChatGPT代理和Perplexity的Comet這樣的通用AI代理,在處理許多人們希望自動化的復雜、主觀任務時卻力不從心。我發(fā)現,當嘗試使用這些工具進行網上購物或尋找長期停車位時,這些代理花費的時間比我預期的要長,而且還會犯一些愚蠢的錯誤。
當被問及代理在主觀任務方面的局限性時,萊特曼說:“與機器學習中的許多問題一樣,這是一個數據問題。我現在真正感到興奮的一些研究是,想辦法在可驗證性較低的任務上進行訓練。我們在如何做這些事情上有了一些線索。”
幫助創(chuàng)建國際數學奧林匹克模型和o1的OpenAI研究員諾姆?布朗告訴TechCrunch,OpenAI擁有新的通用強化學習技術,這些技術使他們能夠教授AI模型那些不易驗證的技能。他說,該公司正是通過這種方式構建了在國際數學奧林匹克競賽中獲得金牌的模型。
OpenAI的國際數學奧林匹克模型是一個較新的AI系統(tǒng),它能生成多個代理,這些代理隨后同時探索多個想法,然后選擇最佳答案。這類AI模型正變得越來越受歡迎;谷歌和xAI最近也發(fā)布了使用這種技術的最先進模型。
“我認為這些模型在數學方面的能力會越來越強,而且在其他推理領域也會變得更有能力,”布朗說?!斑M步速度快得驚人。我沒有理由認為它會放緩?!?/p>
這些技術可能有助于提高OpenAI模型的性能,而這些進步可能會在該公司即將推出的GPT-5模型中體現出來。OpenAI希望通過推出GPT-5來鞏固其對競爭對手的優(yōu)勢,理想情況下,為開發(fā)者和消費者提供最優(yōu)秀的AI模型來驅動代理。
但該公司也希望使其產品更易于使用。埃爾?基什基表示,OpenAI希望開發(fā)出能直觀理解用戶需求的AI代理,而無需用戶選擇特定設置。他說,OpenAI的目標是構建這樣的AI系統(tǒng):知道何時調用特定工具,以及需要推理多長時間。
這些想法描繪出ChatGPT終極版本的圖景:一個能在互聯網上為你做任何事情,并理解你希望如何去做的代理。這與如今的ChatGPT有很大不同,但該公司的研究正朝著這個方向穩(wěn)步前進。
雖然OpenAI無疑在幾年前引領了AI行業(yè),但如今該公司面臨著一大批強勁的對手。問題不再僅僅是OpenAI能否實現其代理化的未來,而是該公司能否在谷歌、Anthropic、xAI或Meta之前做到這一點?
小說:面對末日肆虐和野蠻幸存者,這位小姐姐靠什么活了下來?
《末日:小姐姐沒了我怎么活》,身邊的小伙伴都在討論,看完一章我懂了
精品之作《末日:小姐姐沒了我怎么活》,最出其不意的場面,撐門面的...