新智元報(bào)道
Aeneas
【新智元導(dǎo)讀】GPT-5,曾經(jīng)差點(diǎn)難產(chǎn)?這條誕生路,簡(jiǎn)直是烈火煉真金。一邊是人才出走、小扎截胡、團(tuán)隊(duì)內(nèi)部陷入混亂,另一邊,推理模型魔咒讓研究者苦惱不已,項(xiàng)目甚至一度停擺。外媒曝出這期GPT-5誕生內(nèi)幕,可謂亮點(diǎn)滿滿,干貨十足。
就在剛剛,外媒TheInformation曝出了關(guān)于GPT-5的一大波最新內(nèi)幕,眾多猛料來(lái)了!
比如,GPT-5并未取得技術(shù)突破,不存在GPT-3到GPT-4這種級(jí)別的躍升。
比如,OpenAI正面臨著嚴(yán)重的數(shù)據(jù)瓶頸和技術(shù)難題。
還有一個(gè)勁爆大瓜,OpenAI大波核心研究者一下子被小扎撬走,直接導(dǎo)致了OpenAI內(nèi)部的組織架構(gòu)混亂!
為此,研究副總裁JerryTworek在Slack上公開(kāi)向研究主管MarkChen抱怨,許多同事都看到了。
不過(guò),就在這么一篇唱衰的文章發(fā)布之際,OpenAI同時(shí)又有好消息了。
近日,OpenAI又獲得了一筆巨額融資。據(jù)悉,OpenAI已提前數(shù)月籌集了83億美元資金,這就導(dǎo)致它的估值直接達(dá)到3000億美元,這是今年400億美元融資計(jì)劃的一部分。
參與此輪融資的,有一大波全新投資者,其中Dragoneer投資集團(tuán)以28億美元領(lǐng)投本輪,Blackstone、TPG、Fidelity、FoundersFund、紅杉資本等跟投。
不過(guò),雖說(shuō)Dragoneer是本輪融資的最大出資方,但軟銀仍是整個(gè)400億融資計(jì)劃的牽頭者。
GPT-5還沒(méi)發(fā)布,各方勢(shì)力都下場(chǎng)了,這不免讓人把期待值拉滿,屏息等待下周的盛況了。
Orion隕落真相
GPT-5沒(méi)做出來(lái),降級(jí)成4.5了
去年萬(wàn)眾矚目的Orion,大家應(yīng)該都還記得。
TheInformation爆料說(shuō),2024年下半年的大部分時(shí)間里,OpenAI都在全力開(kāi)發(fā)Orion模型,它被寄予了厚望,原計(jì)劃作為GPT-5推出。
跟5月發(fā)布的旗艦?zāi)P虶PT-4o相比,Orion本該有巨大飛躍。
結(jié)果它的性能令人大失所望,最終只能被降級(jí)成GPT-4.5,在今年2月推出。默默上線后,GPT-4.5迅速淡出公眾視野。
所以,Orion為何會(huì)失?。?/p>
最核心的原因就在于,團(tuán)隊(duì)摸到了預(yù)訓(xùn)練階段的天花板。因?yàn)楦哔|(zhì)量網(wǎng)絡(luò)數(shù)據(jù)已經(jīng)日益枯竭,訓(xùn)練小模型時(shí)還有效的技巧,在大模型身上竟然就會(huì)失效。
這不光導(dǎo)致了GPT-5的延期,也讓OpenAI的團(tuán)隊(duì)內(nèi)部陷入了自我懷疑。
GPT-5,根本沒(méi)有GPT-3到GPT-4級(jí)的躍遷
這個(gè)從神壇跌落的故事,要從去年12月說(shuō)起。
當(dāng)時(shí),OpenAI的研究者完成了一項(xiàng)內(nèi)部測(cè)試,結(jié)果震驚了整個(gè)團(tuán)隊(duì)。
他們發(fā)現(xiàn),當(dāng)給一個(gè)新模型更多算力和思考時(shí)間,它就像開(kāi)了掛一樣,復(fù)雜推理信手拈來(lái),執(zhí)行任務(wù)出色到驚人。
然而,激動(dòng)的工程師們很快發(fā)現(xiàn),這份興奮只是暫時(shí)的。
當(dāng)他們把這個(gè)新模型轉(zhuǎn)化為o3聊天版本時(shí),那種驚人的性能提升消失了。
可以說(shuō),這次事件,正是OpenAI在今年大部分時(shí)間里所面臨技術(shù)挑戰(zhàn)的一個(gè)縮影。這讓OpenAI不僅內(nèi)部技術(shù)進(jìn)展緩慢,大獲成功的ChatGPT業(yè)務(wù)也受到波及。
比如,它的編程和數(shù)學(xué)能力又有了顯著提升。另外,它在驅(qū)動(dòng)AI智能體方面也優(yōu)于前代模型,只需要極少人工監(jiān)督,就能處理復(fù)雜任務(wù)。
它能遵循極其復(fù)雜的指令,比如支持智能體何時(shí)應(yīng)批準(zhǔn)退款的規(guī)則。而在以往,模型需要學(xué)習(xí)多個(gè)棘手的「邊緣案例」,才能處理此類(lèi)退款。
但總的來(lái)說(shuō),這些改進(jìn)根本無(wú)法與2020年GPT-3到2023年的GPT-4之間的性能飛躍相提并論。
也就是說(shuō),我們需要做好對(duì)GPT-5失望的準(zhǔn)備。
不過(guò),OpenAI模型的任何改進(jìn),即便是漸進(jìn)式的,也能刺激客戶需求,以及給投資者信心。這樣才能支持OpenAI未來(lái)三年半燒掉450億的計(jì)劃,畢竟租用服務(wù)器實(shí)在是太昂貴了。
高管為何相信GPT-8?
最近曾有OpenAI高管向投資者透露:沿著目前架構(gòu),他們相信模型有朝一日會(huì)達(dá)到GPT-8的水平。
CEO奧特曼也表示過(guò),利用現(xiàn)有技術(shù),OpenAI有望創(chuàng)造出AGI。
是什么給了他們這樣的信念?
一位了解內(nèi)情的微軟員工透露了玄機(jī):測(cè)試GPT-5后,他們發(fā)現(xiàn)它在不消耗更多算力的情況下,就能生成更高質(zhì)量的代碼和文本。
部分原因在于,它學(xué)會(huì)了精準(zhǔn)判斷出不同任務(wù)所需的計(jì)算資源量。
內(nèi)部「混亂不堪」
不過(guò)OpenAI內(nèi)部,可并非一片和諧。
比如一些高級(jí)研究者,非常抵觸將自己的成果交給微軟,盡管這位最大股東擁有的合同權(quán)利截至到2030年。
雖然兩家公司財(cái)務(wù)緊密,但在具體合作條款上,卻始終爭(zhēng)執(zhí)不休。最新信息是,OpenAI重組營(yíng)利性部門(mén)后,微軟很可能在其中獲得33%的股份。
而小扎以天價(jià)薪酬挖走的團(tuán)隊(duì),也讓OpenAI內(nèi)部陷入了更大的混亂。
走了這么多人,只能緊急進(jìn)行組織架構(gòu)調(diào)整。
上周,OpenAI的研究副總裁JerryTworek在Slack上向上司、研究主管MarkChen抱怨團(tuán)隊(duì)變動(dòng)的事,許多同事都看到了這條信息。
當(dāng)時(shí),Tworek表示需要休假一周來(lái)重新思考,但最終并未休假。
絕境中的轉(zhuǎn)機(jī)
推理模型的意外崛起
總之,直到今年6月,情況依然很?chē)?yán)峻:OpenAI開(kāi)發(fā)的模型中,沒(méi)有一個(gè)能頂?shù)米PT-5的名號(hào)。
好在,「推理模型」成了他們的全新突破口。
23年末一項(xiàng)名為Q*的技術(shù)突破,能解決前所未見(jiàn)的數(shù)學(xué)問(wèn)題,在OpenAI研究者中引發(fā)了巨大震動(dòng)。
基于Q*,OpenAI開(kāi)發(fā)了許多推理模型,在獲得更多算力時(shí),它們就會(huì)表現(xiàn)更佳——看起來(lái),預(yù)訓(xùn)練的性能增長(zhǎng)瓶頸,就要被克服了。
去年秋天,第一個(gè)推理模型正式推出,它就是o1。24年底,OpenAI利用與o1基礎(chǔ)相同的GPT-4o,又推出了推理模型o3。
據(jù)說(shuō),雖然師出同門(mén),但o3的教師模型在理解科學(xué)知識(shí)方面,比o1的教師模型進(jìn)步大得多。
背后原因,就是OpenAI用了更多英偉達(dá)芯片來(lái)開(kāi)發(fā)o3的教師模型,這就讓它理解復(fù)雜概念時(shí)能力更強(qiáng)。
還有一個(gè)原因,就是它被賦予了搜索網(wǎng)絡(luò),以及從代碼庫(kù)中提取信息的能力。
并且,它也同樣受益于強(qiáng)化學(xué)習(xí)。此過(guò)程中,人類(lèi)專(zhuān)家在生物學(xué)、軟件工程和醫(yī)學(xué)上提出刁鉆的問(wèn)題和答案,然后讓模型針對(duì)這些問(wèn)題生成數(shù)千個(gè)自己的回答。
隨后,OpenAI會(huì)利用那些與人類(lèi)專(zhuān)家得出相同答案的AI生成回答(也即「合成數(shù)據(jù)」)來(lái)訓(xùn)練模型。
推理模型
為何總翻車(chē)
o3模型發(fā)布后,一度成為全球頭條,引發(fā)病毒式討論,然而現(xiàn)實(shí)很快給了當(dāng)頭一棒。
當(dāng)o3的教師模型轉(zhuǎn)換為學(xué)生模型,變成一個(gè)可以讓人們提問(wèn)的聊天版本時(shí),它的性能顯著下降,甚至跟o1相比沒(méi)有任何區(qū)別。
同樣,創(chuàng)建讓企業(yè)通過(guò)API購(gòu)買(mǎi)的版本時(shí),同樣的問(wèn)題也出現(xiàn)了。
有知情人分析,原因是這樣的:o3理解概念的方式很獨(dú)特,跟人類(lèi)的交流方式大相徑庭。
因此,如果創(chuàng)建一個(gè)聊天版本,其實(shí)就拉低了這個(gè)原始天才級(jí)模型的智能水平,因?yàn)樗黄扔萌祟?lèi)語(yǔ)言,而非自己的語(yǔ)言去交流。這種情況下,它的推理鏈條就會(huì)被迫壓縮、扭曲。
甚至有開(kāi)發(fā)者在調(diào)試時(shí),偶爾能看到模型輸出「亂碼」般的中間語(yǔ)言——那可能就是它「思考」的原始形態(tài),也就是這個(gè)天才原本的樣子。
還有人認(rèn)為,OpenAI沒(méi)有投入足夠精力來(lái)訓(xùn)練模型在聊天場(chǎng)景中與人類(lèi)進(jìn)行有效溝通。
總之,o系列模型讓ChatGPT的用戶非常困惑,因此公司決定重新回歸GPT的命名體系。
「通用驗(yàn)證器」
好在,OpenAI還有辦法。
據(jù)悉,內(nèi)部正在開(kāi)發(fā)一種「通用驗(yàn)證器」,可以自動(dòng)化地確保模型在RL過(guò)程中產(chǎn)生高質(zhì)量的答案。
本質(zhì)上,這個(gè)過(guò)程是讓一個(gè)LLM承擔(dān)起檢查和評(píng)估另一個(gè)模型答案的任務(wù),并利用各種信息源來(lái)對(duì)答案進(jìn)行研究核實(shí)。
前一陣OpenAI的模型在數(shù)學(xué)競(jìng)賽中拿了金牌后,高級(jí)研究員AlexanderWei在X上表示,他們所使用的強(qiáng)化學(xué)習(xí)方法是「通用」的。
也就是說(shuō),這個(gè)模型不僅能檢查編程這種標(biāo)準(zhǔn)答案清晰的內(nèi)容,甚至還能判斷寫(xiě)作這種主觀性很強(qiáng)的內(nèi)容質(zhì)量。
這就對(duì)GPT-5助力極大!
OpenAI強(qiáng)化學(xué)習(xí)團(tuán)隊(duì)負(fù)責(zé)人Tworek最近也公開(kāi)表示,自己認(rèn)同這個(gè)觀點(diǎn):OpenAI模型背后的強(qiáng)化學(xué)習(xí)系統(tǒng),其實(shí)已經(jīng)具備了通往AGI的潛力。
目前,包括xAI和谷歌在內(nèi)的AI大廠都已加倍押注強(qiáng)化學(xué)習(xí)。
上周,Altman在播客節(jié)目中,描述GPT-5的能力說(shuō),它輕松解決了一個(gè)他根本看不懂的問(wèn)題,直接讓他坐到椅子上,感到暈眩。
這就進(jìn)一步點(diǎn)燃了我們對(duì)GPT-5的狂熱期待。
「在幾乎所有方面,GPT-5都比我們更聰明?!?/p>
究竟什么樣的模型,才配叫作GPT-5?好在,我們要等的時(shí)間不多了。
參考資料:
https://www.theinformation.com/articles/inside-openais-rocky-path-gpt-5?rc=epv9gi
踢歐洲國(guó)家杯還要做功課!16歲為西班牙出征帶家庭作業(yè)
免責(zé)聲明:本文內(nèi)容由開(kāi)放的智能模型自動(dòng)生成,僅供參考。