機器之心報道
澤南、楊文
贏了的才是「GPT-5」。
GPT-5遲遲未現(xiàn)身,網(wǎng)友們開始制作各種梗圖「吐槽」:
其實,這幾天關(guān)于GPT-5的傳言就沒消停。
先是有網(wǎng)友在macOSChatGPT應(yīng)用中發(fā)現(xiàn)了GPT-5-Auto和GPT-5-Reasoning模型的蹤跡:
再是網(wǎng)友爆料微軟Copilot和Cursor也已經(jīng)悄咪咪接入測試GPT-5。
8月1日,TheInformation更是洋洋灑灑寫了一篇名為《InsideOpenAI’sRockyPathtoGPT-5》的長文,扒出了GPT-5的更多內(nèi)幕。
以下是省流版:
GPT-5將比其前代產(chǎn)品有真正的改進,但無法與早期GPT品牌型號之間的性能飛躍相提并論。OpenAI在今年面臨了一系列技術(shù)問題,這些問題威脅到了o3和其他模型的進展。Meta挖人把OpenAI高管搞「破防」,在Slack中向上司公開抱怨團隊變動。
接下來,我們就詳細來吃個瓜。
GPT-5有改進,但性能飛躍大不如前
去年12月,OpenAI展示了Test-TimeScaling的測試結(jié)果,成為后預(yù)訓練時代大模型能力的關(guān)鍵突破口。該測試表明,當AI擁有更多時間和計算能力來處理任務(wù)時,其性能會持續(xù)增加,這一技術(shù)路徑在OpenAI-o1和DeepSeek-R1的實踐中已經(jīng)初顯威力。看起來,廣大ChatGPT用戶會被新AI的強大功能所震撼。
然而,興奮勁并沒有持續(xù)太久。
據(jù)兩位參與開發(fā)的人透露,當OpenAI的研究人員將這款新AI改造成基于聊天的版本o3,使其能夠響應(yīng)ChatGPT用戶的指令時,之前測試基準上的性能提升基本消失了。
這只是OpenAI今年面臨的大量技術(shù)挑戰(zhàn)的一個例子,越來越多的困難正在減緩AI發(fā)展的步伐,甚至可能影響到AI爆款應(yīng)用ChatGPT業(yè)務(wù)。
在即將發(fā)布的GPT-5上,OpenAI研究人員據(jù)說已經(jīng)找到了方法。
據(jù)消息人士和OpenAI內(nèi)部工程師稱,OpenAI即將發(fā)布的一代旗艦AI模型GPT-5,在編程、數(shù)學等方面的能力有很大提升。
一個消息人士表示,新模型在編寫應(yīng)用程序代碼時,能夠更好地添加功能,使其更易于使用且更美觀。他表示,GPT-5在驅(qū)動AI智能體以極少的人工監(jiān)督處理復雜任務(wù)方面也比其前代產(chǎn)品做得更好。例如它可以遵循復雜的指令,確定自動客服何時應(yīng)該退款的規(guī)則列表,此前的模型需要先測試幾個棘手的客戶案例(即邊緣案例),才能處理此類退款。
另一位知情人士表示,這些改進無法與早期GPT模型的性能飛躍相提并論,例如2020年的GPT-3和2023年的GPT-4之間的改進。OpenAI在過去12個月中經(jīng)歷的性能提升放緩表明,它可能很難超出其最大的競爭對手,至少在AI能力方面是這樣。
OpenAI目前的模型通過ChatGPT和各類應(yīng)用已經(jīng)創(chuàng)造了巨大的商業(yè)價值,即使是漸進式的改進,都會增加客戶需求。這些改進還能讓投資者有信心為OpenAI未來三年半內(nèi)斥資450億美元購買GPU,開發(fā)和運行產(chǎn)品的計劃提供資金。
提升自動化編碼能力成OpenAI首要任務(wù)
最近的進展也幫助解釋了為什么OpenAI高管最近幾周告訴一些投資者,他們認為公司可以實現(xiàn)「GPT-8」這一目標。這一表態(tài)與CEO山姆?奧特曼公開的言論一致,他表示,憑借現(xiàn)有的技術(shù)知識,OpenAI有望創(chuàng)造出與最聰明人類能力相媲美的人工智能技術(shù),即AGI。
雖然距離實現(xiàn)AGI仍有很長的路要走,但即將發(fā)布的GPT-5模型可能具有一些除了更好的編碼和推理之外的其他吸引力。
據(jù)一位知情的微軟員工透露,微軟擁有OpenAI知識產(chǎn)權(quán)的獨家使用權(quán),該公司的一些領(lǐng)導層告訴員工,他們測試該模型的結(jié)果顯示,GPT-5能夠在不消耗更多計算資源的情況下,生成更高質(zhì)量的編碼和其他基于文本的答案。
該人士表示,部分原因是它能夠比之前的模型更好地判斷哪些任務(wù)需要相對更多或更少的計算資源。
OpenAI的內(nèi)部評估顯示,在去年競爭對手Anthropic率先開發(fā)并向軟件開發(fā)人員和Cursor等編碼助手銷售此類模型后,提升人工智能自動執(zhí)行編碼任務(wù)的能力已成為OpenAI的首要任務(wù)。
OpenAI員工認為,自動編碼不僅對公司業(yè)務(wù)至關(guān)重要,對于實現(xiàn)人工智能研究人員自身工作的自動化也至關(guān)重要。
組織重組的壓力
OpenAI的進展并非一帆風順,因為其研究人員和管理層今年都面臨著新的壓力。
首先是和微軟之間微妙的關(guān)系。
盡管微軟是OpenAI最大的外部股東,并且根據(jù)雙方的合同協(xié)議,微軟有權(quán)在2030年之前使用OpenAI的一些技術(shù),但一些OpenAI的高級研究人員并不贊同將他們的創(chuàng)新和發(fā)明交給微軟。
在財務(wù)方面,微軟和OpenAI也有著非常緊密的合作關(guān)系,但在合作的具體條款上存在爭議,雙方都在要求對方做出一些讓步。
OpenAI希望通過重組其營利性部門,來為將來上市做準備。雖然雙方在一些細節(jié)上仍然存在不確定性,但已經(jīng)有一些重要的方面達成了初步的共識,比如微軟可能會在OpenAI重組后獲得約33%的股權(quán)。
其次就是Meta不斷「撬墻角」。
最近,Meta狠砸真金白銀,從OpenAI挖去了十多位研究人員,其中一些還曾參與了OpenAI近期改進技術(shù)的工作。
這些人才流失和隨之而來的人員調(diào)整,給OpenAI的管理層帶來了壓力。
上周,OpenAI的研究副總裁JerryTworek在公司內(nèi)部的Slack中,向他的上司MarkChen抱怨了團隊的變動,而許多同事都看到了他的抱怨。Tworek表示,他必須休息一周來重新評估情況,但后來他并沒有休假。
Orion模型的「失利」
雖然OpenAI在商業(yè)上取得了一些進展,但公司內(nèi)部對能否持續(xù)改進AI并保持領(lǐng)先地位仍然存在一些擔憂,特別是面對像Google、xAI和Anthropic這樣的資金雄厚的競爭對手。
2024年下半年,OpenAI開發(fā)了一個名為Orion的模型,原計劃將其作為GPT-5發(fā)布,并預(yù)計其性能會比現(xiàn)有的GPT-4o模型更強。然而,Orion并未達到預(yù)期的提升效果,因此OpenAI將其發(fā)布為GPT-4.5模型,結(jié)果這個模型的影響力似乎也沒多大。
Orion未能成功的部分原因在于其預(yù)訓練階段的局限性。預(yù)訓練是模型開發(fā)的第一步,模型需要處理大量數(shù)據(jù)以便理解不同概念之間的聯(lián)系。OpenAI在面臨高質(zhì)量數(shù)據(jù)匱乏的同時,還發(fā)現(xiàn)對Orion模型做的優(yōu)化在模型較小的時候有效,但當模型規(guī)模增大時,這些優(yōu)化就不再有效了。
o3實力強勁得益于更多的英偉達芯片
此外,OpenAI的研究人員還面臨其他問題。
去年,OpenAI開發(fā)了推理模型,這些模型在獲得更多計算資源以處理答案時表現(xiàn)得更好。這些模型源自2023年末的一項名為Q*的突破,這一突破震驚了公司的研究人員,因為它能夠解決之前從未見過的數(shù)學問題。到2024年,推理模型似乎幫助公司克服了預(yù)訓練階段性能增長放緩的問題。
去年秋天,OpenAI將第一個主要推理模型變成了o1。此次發(fā)布為OpenAI在AI領(lǐng)域贏得了新的影響力,并為依賴推理模型的AIAgent開發(fā)奠定了基礎(chǔ).
據(jù)參與開發(fā)的人士透露,OpenAI在2024年底之前創(chuàng)建了下一個推理模型o3,其基礎(chǔ)大語言模型與o1相同,都是GPT-4o。盡管o3和o1擁有相同的模型血統(tǒng),但o3的母模型(也稱為教師模型)在理解各種科學領(lǐng)域及其他領(lǐng)域方面,相比o1的母模型取得了顯著的進步。
進步的一個原因是OpenAI決定使用更多的英偉達芯片服務(wù)器來開發(fā)o3的母模型,這本質(zhì)上為模型提供了更強的處理能力,以理解復雜的概念。
另一個原因是,研究人員賦予了o3母模型搜索網(wǎng)絡(luò)或從代碼庫中獲取信息的能力,這也幫助其性能超越了o1的母模型。
兩個月前開發(fā)的模型都稱不上GPT-5
OpenAI公開分享了針對該模型優(yōu)勢的特殊測試結(jié)果,不僅登上了全球頭條,還在社交媒體上引發(fā)了瘋狂的炒作,但隨后現(xiàn)實擺在了面前。
參與開發(fā)的人員表示,當OpenAI將o3母模型轉(zhuǎn)換為能讓人們提問的ChatGPT版本(也稱為學生模型)時,其收益顯著下降,甚至比o1表現(xiàn)好不了多少。他們表示,當OpenAI創(chuàng)建商用API的模型版本時,也出現(xiàn)了同樣的問題。
有知情人士表示,造成這種情況的原因之一與該模型理解概念的獨特方式有關(guān),這可能與人類的溝通方式不同。他表示,創(chuàng)建基于聊天的版本實際上會降低原始模型的水平,因為它需要被迫使用人類語言而不是自己的語言。
我們知道,推理模型在ChatGPT中「思考」如何解決問題時有時會出現(xiàn)的胡言亂語,就反映了一些溝通差異。
據(jù)另一位知情人士透露,該公司也沒有花費太多精力以能與人類更好溝通的目標進行訓練。
盡管有所退步,OpenAI今年公開發(fā)布的o3推理模型仍然幫助核聚變和病原體檢測等領(lǐng)域的科學家提出了新的假設(shè)和實驗進行測試。
然而,大語言模型和ChatGPT中的模型并沒有像OpenAI高管和研究人員預(yù)期的那樣順利。奧特曼告訴員工,o系列模型似乎也讓ChatGPT的客戶感到困惑,因此該公司恢復了原來GPT模型的命名規(guī)律。
據(jù)一位參與GPT-5開發(fā)的人士透露,就在6月份由于技術(shù)問題,OpenAI正在開發(fā)的模型似乎都不足以被貼上GPT-5的標簽。
GPT-5的技術(shù),還有最后的王牌
盡管如此,OpenAI仍有一招:據(jù)一位知情人士透露,他們一直在開發(fā)一種研究人員稱之為「通用驗證器」(universalverifier)的東西,可以自動執(zhí)行確保模型在強化學習過程中生成高質(zhì)量答案的過程。這個過程本質(zhì)上是讓一個大語言模型使用各種來源的研究來檢查和評分另一個模型的答案。
今年夏初,OpenAI的未公開模型實現(xiàn)IMO金牌成績后,高級研究員AlexanderWei在X上表示,其一直在使用的強化學習方法是「通用的」,這意味著它也可以驗證更主觀類別中答案的質(zhì)量。
這些進步似乎也在幫助OpenAI開發(fā)GPT-5,GPT-5在軟件編程等更易驗證的領(lǐng)域和創(chuàng)意寫作等更主觀的領(lǐng)域都表現(xiàn)出了進步。
包括xAI和谷歌在內(nèi)的其他公司也極為重視強化學習,將其視為改進AI模型的有前景的技術(shù)。OpenAI強化學習部門負責人Tworek最近公開表示,他贊同OpenAI模型背后的強化學習系統(tǒng)才是通用人工智能(AGI)的真正構(gòu)成要素。
OpenAI即將發(fā)布的GPT-5被人們寄予厚望。山姆?奧特曼上周在與喜劇演員TheoVon的播客中大肆宣傳GPT-5的功能,并介紹了該模型如何輕松回答他不理解的問題。奧特曼表示,「GPT-5幾乎在所有方面都比我們更聰明?!?/p>
也正是因為前景不錯,OpenAI在最新一輪的融資上進展非常順利。
新一輪融資,風投搶著買單
據(jù)《紐約時報》本周五報道,OpenAI剛剛又融資了83億美元,估值達到3000億美元。這筆交易是OpenAI今年籌集400億美元資金的更廣泛戰(zhàn)略的一部分。
據(jù)報道,這輪融資超額完成,比原計劃提前了幾個月。OpenAI最初在3月份從風投公司籌集了25億美元,當時該公司宣布計劃在由軟銀領(lǐng)投的一輪融資中籌集400億美元。OpenAI原計劃在年底前再融資75億美元,但由于投資者在強勁增長的背景下爭相加入其股權(quán)結(jié)構(gòu),OpenAI最終拿到了便宜。
ChatGPT的每周活躍用戶超過7億,推動了OpenAI的年收入已經(jīng)接近130億美元,預(yù)計到年底將達到200億美元。此外加上美國政府的《AIActionPlan》以及與微軟的談判,這些都可能幫助這家大號初創(chuàng)公司實現(xiàn)年度凈盈利的目標。
本輪融資是由DragoneerInvestmentGroup領(lǐng)投的,其投入金額高達28億美元。許多新投資者也參與了融資,包括私募股權(quán)巨頭黑石集團和TPG,共同基金管理公司普信(T.RowePrice),其他參與者包括AltimeterCapital、AndreessenHorowitz、CoatueManagement、D1CapitalPartners、FidelityManagement、FoundersFund、紅杉資本、老虎環(huán)球基金和ThriveCapital。
據(jù)稱,OpenAI的一些早期投資者還對他們在本輪融資中獲得的資金分配較少感到沮喪。
參考內(nèi)容:
https://www.theinformation.com/articles/inside-openais-rocky-path-gpt-5
https://www.nytimes.com/2025/08/01/business/dealbook/openai-ai-mega-funding-deal.html
免責聲明:本文內(nèi)容由開放的智能模型自動生成,僅供參考。