智東西編譯陳駿達編輯李水青
全網(wǎng)首份GPT-5聊天記錄曝光了!
智東西8月4日報道,今天,OpenAI首席執(zhí)行官SamAltman在X平臺上發(fā)出了GPT-5的對話記錄,提前劇透了GPT-5的使用體驗。
對話中,Altman讓GPT-5給他推薦幾部以AI為主題、最引人深思的電視劇,GPT-5向Altman發(fā)送了一部片單,位列第一的正是Altman發(fā)文推薦的美劇《萬神殿(Pantheon)》。
Altman還發(fā)推稱,軟件即服務(wù)(SaaS)行業(yè)將很快進入“快時尚”時代,這或許意味著,即將發(fā)布的GPT-5會給軟件開發(fā)流程帶來深刻影響,顯著提升軟件的迭代速度,并降低開發(fā)成本。
不過,不少網(wǎng)友們對GPT-5的這一表現(xiàn)并不買賬??梢钥吹剑珿PT-5在其回答中使用了大量破折號,這是廣受用戶詬病的“AI味兒”的來源之一。
此外,GPT-5并沒有進行推理,這導(dǎo)致其反思能力有限,推薦的第二部劇便偏離了一開始的要求,與AI無關(guān),反倒是和量子計算扯上了關(guān)系。
在評論區(qū)中,一條獲得2萬多閱讀量的帖子,或許反映了網(wǎng)友們的集體心聲:“GPT-5看上去也和GPT-4o沒什么區(qū)別啊?!?/p>
這位發(fā)帖的網(wǎng)友還進一步吐槽,GPT-5的用詞毫無必要的夸張、花哨,語言怪癖和GPT-4o一模一樣。
Altman近期已在多個場合高調(diào)宣傳了GPT-5的能力,稱“GPT-5在幾乎每個方面都比我們聰明”。網(wǎng)友清一色的質(zhì)疑,反映出已曝出的GPT-5表現(xiàn)與用戶預(yù)期之間的明顯差距。
近日,外媒TheInformation曝光了GPT-5“難產(chǎn)”背后的諸多細節(jié),揭示了OpenAI在技術(shù)突破、團隊管理及與合作方博弈中所面臨的重重挑戰(zhàn)。
事實上,GPT-5的發(fā)布已經(jīng)嚴重延期。原本這一模型早在數(shù)月前便應(yīng)該發(fā)布,卻因能力提升有限,而被迫降檔為GPT-4.5。研究人員發(fā)現(xiàn),適用于較小模型的微調(diào)技術(shù),并不適用于超大規(guī)模模型;此外,在將推理模型轉(zhuǎn)化為適合聊天、API使用的“學生模型”時,其性能出現(xiàn)明顯下降。
據(jù)知情人士透露,OpenAI下一代旗艦?zāi)P虶PT-5在編程和數(shù)學任務(wù)方面相較現(xiàn)有模型有所提升,GPT-5生成的代碼更注重用戶體驗和美觀性;在支持AI智能體執(zhí)行復(fù)雜任務(wù)時也更加高效,所需的人工干預(yù)更少。
不過,也有知情人士認為,其進步幅度難以與GPT-3到GPT-4那樣的代際飛躍相提并論。
一、GPT-5研發(fā)進展不及預(yù)期,推理模型實際應(yīng)用后“降智”明顯
GPT-5的問題,從2024年底便開始醞釀。
OpenAI彼時正開發(fā)一款內(nèi)部代號為“Orion”的模型,原本計劃將其作為GPT-5發(fā)布。據(jù)參與者透露,Orion原本被寄予厚望,目標是大幅超越2024年5月發(fā)布的GPT-4o。
但Orion未能實現(xiàn)預(yù)期性能,OpenAI最終于2025年2月將其作為GPT-4.5發(fā)布。除了150美元/百萬輸出tokens的驚人定價,這一模型并未給用戶帶來深刻的印象。今年7月,OpenAI決定將GPT-4.5的API服務(wù)下線,原因是成本過高。這一模型,也成為OpenAI史上最短命的模型之一。
部分失敗原因在于預(yù)訓(xùn)練階段的局限性。在這個階段,模型會處理來自網(wǎng)絡(luò)和其它來源的數(shù)據(jù),從而學習概念之間的關(guān)聯(lián)。研究人員發(fā)現(xiàn),高質(zhì)量網(wǎng)頁數(shù)據(jù)的供給正在枯竭,而且,他們對小規(guī)模模型的調(diào)優(yōu)手段在模型變大后不再奏效。
據(jù)參與OpenAI研發(fā)的知情人士透露,截至今年6月,OpenAI還沒有開發(fā)出一款能被稱之為“GPT-5”的模型。
OpenAI的另一大挑戰(zhàn),源自于推理模型范式在實際應(yīng)用中出現(xiàn)的意外情況。
去年秋天,OpenAI推出了第一個推理模型o1,這次發(fā)布使OpenAI在AI領(lǐng)域重新獲得海量關(guān)注,也為后續(xù)發(fā)展能夠處理復(fù)雜任務(wù)的AI智能體奠定了基礎(chǔ)。
到2024年底,OpenAI又基于GPT-4o打造了下一代推理模型o3,與o1屬于同一語言模型家族。但知情人士稱,o3的“教師模型(teachermodel)”在科學和其他專業(yè)領(lǐng)域的理解能力,比o1的教師模型有顯著的飛躍。
這些提升一部分來自于OpenAI給o3教師模型配置了更多的GPU服務(wù)器,從而提供了更強的算力來理解復(fù)雜概念;另一部分則源于讓模型具備搜索網(wǎng)絡(luò)和訪問代碼庫的能力。
OpenAI在全球范圍內(nèi)廣泛宣傳這些推理模型在測試中的強大表現(xiàn),社交媒體上一片沸騰。但現(xiàn)實很快潑了冷水。
據(jù)兩位參與開發(fā)的人士透露,當OpenAI研究人員將o3的教師模型轉(zhuǎn)化為聊天版本(學生模型),以便ChatGPT用戶能與其交互時,其性能大幅下降,與o1相比沒有明顯進步,最初公布的性能提升幾乎消失了,通過API接口供企業(yè)使用的版本也存在同樣問題。
一位人士認為,這是因為這些推理模型理解概念的方式與人類語言有差異。
當被強制用自然語言回答問題時,這種“天才級模型”會被“壓縮”到一個更低的表達水平,失去了原有的推理深度。這種差異也體現(xiàn)在推理模型“思考”過程中的亂碼輸出上。
另一位參與者表示,OpenAI在模型對話能力訓(xùn)練方面投入不足,也導(dǎo)致溝通效果不佳。
盡管存在性能退化,OpenAI今年發(fā)布的o3推理模型仍然幫助了核聚變和病原體檢測等科學研究者提出新的假設(shè)與實驗設(shè)計。
不過,大語言模型和聊天型推理模型的發(fā)展,未能達到OpenAI高層和研究員的預(yù)期。o系列模型也在ChatGPT產(chǎn)品線中引發(fā)用戶的困惑,Altman因此告訴員工,公司將回歸GPT命名體系。
二、研發(fā)通用驗證器,OpenAI稱有望實現(xiàn)GPT-8
推理模型范式受阻后,OpenAI的研究人員采用了一些業(yè)內(nèi)常見的辦法,來維持模型的性能提升。
OpenAI一直在開發(fā)被稱為“通用驗證器”的工具,據(jù)知情人士稱,這項技術(shù)可自動化驗證模型在強化學習過程中的回答質(zhì)量。
通用驗證器的核心是讓一個模型來檢查并評分另一個模型的答案,前者會借助多個來源來查證答案的正確性。
日前,OpenAI資深研究員AlexanderWei在X上發(fā)文稱,OpenAI在IMO競賽中取得所謂的“金牌”成績模型,使用的正是“通用型”的強化學習,這或許意味著,其驗證手段可應(yīng)用于一些沒有標準答案、評判標準主觀的任務(wù)領(lǐng)域。
通用驗證器的進展正在幫助OpenAI開發(fā)GPT-5,不僅在編程等可驗證性強的任務(wù)中有所提升,也在創(chuàng)意寫作等主觀性強的領(lǐng)域展現(xiàn)出進步。
整個行業(yè),包括xAI和谷歌,也都在強化學習上加大投入。負責OpenAI強化學習系統(tǒng)的Tworek公開向外界表態(tài),OpenAI模型背后的強化學習系統(tǒng)實際上就是AGI的核心。
這些新進展也解釋了為何OpenAI高管近期在與部分投資人會面時宣稱,有信心做到“GPT-8”。
盡管GPT-5距離AGI還有明顯差距,但它在編程和推理之外,也具備一些更具吸引力的新特性。據(jù)微軟內(nèi)部測試反饋,GPT-5在不顯著增加計算資源消耗的前提下,生成的代碼和文本質(zhì)量都有提升。
一位微軟員工稱,這是因為GPT-5相比以往的模型更擅長判斷不同任務(wù)所需的算力強度,從而實現(xiàn)更高效的資源分配。
自動化編程已經(jīng)成為OpenAI重點攻克的方向。部分原因在于競爭對手Anthropic去年在向開發(fā)者和工具(如Cursor)提供代碼生成模型方面取得了先機。
OpenAI內(nèi)部也認為,自動化編程不僅對公司未來業(yè)務(wù)至關(guān)重要,更是推動AI研究工作自動化的關(guān)鍵。
三、Meta挖人引發(fā)團隊動蕩,還有員工拒絕與微軟分享新技術(shù)
Altman此前曾公開表態(tài):憑借現(xiàn)有的技術(shù)路徑,OpenAI有望實現(xiàn)具有人類智能水平的AI,也就是通用人工智能(AGI)。
不過,在實現(xiàn)AGI的路上,技術(shù)并不是唯一的挑戰(zhàn)。作為當前最受矚目的AI創(chuàng)企,OpenAI時時刻刻面臨著競爭對手的挖角。
最近,Meta挖走了十多位OpenAI研究員,其中包括參與了OpenAI近期核心技術(shù)進展的人員。Meta給這些研究員開出了“頂級球星”水平的薪酬方案,部分人員的甚至拿到了十幾億美元的薪酬包。
這波離職和隨之而來的人員重組給OpenAI的高級員工帶來了壓力。上周,OpenAI研究副總裁JerryTworek就在公司內(nèi)部Slack中向研究負責人MarkChen表達對團隊調(diào)整的不滿,稱自己需要請一周假來重新評估,但最終并未休假。
此外,還有部分高級研究人員抵制將其技術(shù)發(fā)明交給微軟,盡管根據(jù)OpenAI與微軟的協(xié)議,微軟可以在2030年之前,使用OpenAI的技術(shù)。
OpenAI與其最大外部股東微軟之間財務(wù)關(guān)系緊密,但圍繞合作協(xié)議條款一直存在摩擦,雙方均試圖在OpenAI重組營利部門、為未來上市鋪路的過程中爭取更多讓步。
據(jù)兩位接觸過談判的人士透露,雙方的談判正在朝積極方向推進。一些要點仍在討論中,但也有內(nèi)容趨于明朗,例如微軟預(yù)計將在OpenAI的營利實體中獲得約33%的股權(quán)。
結(jié)語:OpenAI的優(yōu)勢,還能持續(xù)多久?
當GPT-5正式發(fā)布時,它將承載外界極高的期望。上周,Altman在一檔播客節(jié)目中談及GPT-5的能力時表示,他曾提出一個連自己都聽不懂的問題,而GPT-5卻能輕松作答。
然而,過去一年中,OpenAI在模型性能上的進展放緩,加之宣傳與實際能力之間屢次出現(xiàn)明顯落差,也引發(fā)了外界的質(zhì)疑:OpenAI能否在AI能力上繼續(xù)領(lǐng)先谷歌、Anthropic等閉源競爭對手,以及DeepSeek、Qwen、Kimi等頭部開源模型?