名柯經(jīng)典案件!觀眾:這絕對是柯南最強(qiáng)最炸裂的一次推理!
【新智元導(dǎo)讀】ChatGPTagent誕生了!奧特曼深夜帶隊(duì)直播,首個統(tǒng)一智能體無縫融合三大AI,自主思考決策,還能上網(wǎng)直出PPT、Excel。2025年,作為全新AI杠桿,ChatGPT正在解鎖「超級個體」新模式。
今晚,ChatGPT和DeepResearch、Operator「三劍客」首度合體!
奧特曼親自帶隊(duì),25分鐘高能直播重磅發(fā)布ChatGPTagent,開啟人類和智能體協(xié)作全新時代。
ChatGPTagent的核心,是一個統(tǒng)一的智能體系統(tǒng)。
簡言之,它融合了此前三大技術(shù)突破的優(yōu)勢:Operator與網(wǎng)站交互的能力,DeepResearch整合信息的技巧,以及ChatGPT智能對話優(yōu)勢。
如今,ChatGPT可以直接使用計(jì)算機(jī),全程自主為你工作。
從智能瀏覽網(wǎng)頁、篩選結(jié)果,在需要時提醒安全登錄、運(yùn)行代碼、進(jìn)行分析,還能直出PPT和Excel匯總發(fā)現(xiàn)結(jié)果。
最最重要的是,一切盡在掌控之中。
人類隨時可以中斷任務(wù)、接管瀏覽器,或是完全停止。
在HLE測試中,ChatGPTagent拿下了41.6%高分;并在數(shù)學(xué)FrontierMath基準(zhǔn)上,同樣刷新SOTA,碾壓o4-mini和o3模型。
順便提一句,ChatGPTAgent在HLE上仍不及馬斯克的Grok4Heavy
誰能想到,上面這張PPT,還是ChatGPTagent自己做的。在基準(zhǔn)測試中,其操作辦公軟件的能力,幾乎沒給人類留下多少余地了。
網(wǎng)友辣評:打工人的好日子到頭了
奧特曼感慨道,ChatGPTagent使用計(jì)算機(jī)執(zhí)行復(fù)雜任務(wù),對自己來說是一個真正「感受AGI」的時刻。
從今天起,Pro、Plus和Team用戶直接可以開啟體驗(yàn),在對話框下拉欄中,選擇「Agentmode」即可。
其中,Pro用戶每月有400次的額度,Plus和Team為每月40次。
太長不看版:(節(jié)選自O(shè)penAI研究員張熙堃的X)
DeepResearch擅長做研究,Operator會執(zhí)行操作,而ChatGPTagent則能同時完成所有這些任務(wù)!
端到端強(qiáng)化學(xué)習(xí)的威力!基于RLScaling,ChatGPTagent的高效性和數(shù)據(jù)利用率非常驚人。
人機(jī)協(xié)作,依舊是核心!任務(wù)過程中可隨時打斷,引導(dǎo)ChatGPT完成新任務(wù)。在支付、刪除文件等操作前,會向人類主動確認(rèn)。只有在必要時,它才會提問以獲取更清晰的指令。
真實(shí)世界表現(xiàn)追逐基準(zhǔn)排名!ChatGPTagent確實(shí)橫掃了很多榜單。但在模型開發(fā)過程中,OpenAI既不會一門心思去刷分,也不太在意最終在排行榜上的位置。
三強(qiáng)首度合體ChatGPTagent正式登場
今年1月,OpenAI發(fā)布了首個智能體Operator,讓AI像人類一樣直接與GUI交互。
緊接著2月初,他們又推出了首個DeepResearch,推理模型直接可以使用工具,開展研究。
這兩個工具各有專長,Operator可以自主上網(wǎng)、點(diǎn)擊和輸入,而DeepResearch則擅長分析和總結(jié)信息。
然而,前者無法開啟深度分析、撰寫詳細(xì)報告;后者無法與網(wǎng)站交互獲得精確結(jié)果。
今天,OpenAI正式將其合二為一——ChatGPTagent,「單一模型」即可解鎖全新能力。
ChatGPTagent配備了一整套工具:
·可視化瀏覽器:用于圖形用戶界面與網(wǎng)頁交互
·文本瀏覽器:用于處理簡單推理和網(wǎng)頁查詢
·終端+直接API訪問權(quán)限:圖像API
agent還能借助ChatGPT連接器,連接Gmail、Github等應(yīng)用,便于根據(jù)提示找到相關(guān)信息并給出回復(fù)。
不僅如此,接管瀏覽器后登錄任何網(wǎng)站,讓ChatGPTagent進(jìn)行更深入、更廣泛的研究和任務(wù)執(zhí)行。
由此,ChatGPT便能選擇最佳路徑,高效地執(zhí)行任務(wù)。
打工人的PPT,ChatGPT代勞了
為了展示ChatGPTagent能力,團(tuán)隊(duì)現(xiàn)場演示了一個真實(shí)場景:為朋友Minnie和Sarah策劃一場婚禮。
根據(jù)提示,這項(xiàng)任務(wù)需要AI依據(jù)著裝要求和天氣情況,推薦精美價格合理的禮服、為參會者預(yù)訂酒店,以及為新人準(zhǔn)備婚禮禮物。
ChatGPTagent在理解提示后,并沒有直出報告,而是再次重述確認(rèn)任務(wù)要求,比如確切的婚禮日期。
當(dāng)一切確認(rèn)之后,接下來,它便自主打開瀏覽器,并在交互頁面上顯示逐步執(zhí)行的每一個過程,即思維鏈。
需要注意的是,agent會在幾秒內(nèi)配置好的虛擬計(jì)算環(huán)境中,開始執(zhí)行任務(wù)。
任務(wù)執(zhí)行中,agent使用文本瀏覽器查詢,并找到了合適的西裝,然后切換到視覺瀏覽器,等待確認(rèn)。
在ChatGPT執(zhí)行婚禮策劃任務(wù)同時,還可以讓它做另一個任務(wù):購買一雙9.5碼黑色鞋子。
也就意味著,ChatGPTagent不懼被打斷。即便上一個任務(wù)規(guī)劃時間很長,也不耽誤接下來的事情。
最后,ChatGPTagent生成了一份非常全面的報告,包括禮服、酒店、鞋子、禮物全部給出了規(guī)劃和建議。
在另一個演示中,團(tuán)隊(duì)用ChatGPT應(yīng)用開啟任務(wù)——上傳一張團(tuán)隊(duì)吉祥物——可愛小狗的圖片,做成筆記本貼紙,并訂購500個。
然后,它便開始調(diào)用工具Imagen生成動漫版圖片,并設(shè)計(jì)貼紙,從StickerMule訂購500份寄到xxx。
更令人驚喜的是,ChatGPTagent還能通過連接器,比如GoogleDrive提取評估數(shù)據(jù),自己生成PPT。
在此過程中,agent會編寫代碼,并將其編譯成最終幻燈片。它還會借用圖像工具,為PPT頁面進(jìn)行裝飾。
不一會功夫,它就直接輸出了第一張HLE、FrontierMath的PPT,但不夠精致,然后它再次通過RL不斷優(yōu)化。
最終,就得到了一個優(yōu)美的PPT文件,可以在辦公軟件中直接打開。
不得不說,ChatGPTagent太強(qiáng)了。
甚至,你還可以讓ChatGPTagent制定一個參觀30+美國職棒大聯(lián)盟球場的最佳行程。
耗時25分鐘,它迅速生成一個直觀可視化的Excel,以后做數(shù)據(jù)也徹底解放了雙手。
HLE拿下41.6%高分多項(xiàng)基準(zhǔn)破紀(jì)錄
統(tǒng)一后的agent,大幅提升了ChatGPT在日常和專業(yè)領(lǐng)域的實(shí)用性。
不僅在網(wǎng)頁瀏覽,還是現(xiàn)實(shí)任務(wù)完成能力的評估中,ChatGPTagent全部刷新了SOTA。
如上提及的,在人類最后考試(HLE)中,ChatGPTagent以41.6%的得分,刷新了pass@1最高紀(jì)錄。
當(dāng)研究團(tuán)隊(duì)采用并行策略后,即同時運(yùn)行最多8次并選取自信度最高結(jié)果,HLE得分直接刷到了44.4%。
在最難的數(shù)學(xué)基準(zhǔn)測試FrontierMath中,ChatGPTagent借助代碼終端等工具,實(shí)現(xiàn)了27.4%準(zhǔn)確率,大幅超越o3和o4-mini。
不僅如此,在內(nèi)部設(shè)計(jì)的「高經(jīng)濟(jì)價值知識工作」測試中,ChatGPTagent在半數(shù)案例中,輸出質(zhì)量與人類相當(dāng),甚至碾壓人類。
任務(wù)來自真實(shí)專業(yè)工作場景,比如為按需緊急護(hù)理服務(wù)商撰寫競品分析、編制詳細(xì)的攤銷表,以及為新的綠色氫能設(shè)施尋找可行的水源
在評估數(shù)據(jù)科學(xué)生產(chǎn)力任務(wù)的DSBench中,ChatGPTagent以顯著優(yōu)勢超越了人類表現(xiàn)。
在Excel編輯能力的SpreadsheetBench測試中,其表現(xiàn)同樣遠(yuǎn)超現(xiàn)有模型。
當(dāng)獲得直接編輯權(quán)限時,ChatGPTagent以45.5%的得分顯著超越ExcelCopilot的20.0%。
在投行分析師1-3年級建模任務(wù)的內(nèi)部評估中,ChatGPTagent底層模型碾壓DeepResearch和o3模型。
此外,在OpenAI發(fā)布的BrowseComp基準(zhǔn)測試中,ChatGPTagent以68.9%的準(zhǔn)確率刷爆紀(jì)錄,比DeepResearch高出17.4%。
在WebArena基準(zhǔn)測試中,其表現(xiàn)也優(yōu)于基于o3的CUA(即Operator背后的底層模型)。
BrowseComp基準(zhǔn)專門評估瀏覽智能體在網(wǎng)絡(luò)上定位難尋信息的能力;WebArena用于評估網(wǎng)頁瀏覽智能體完成現(xiàn)實(shí)網(wǎng)絡(luò)任務(wù)的能力
2025下一個熱點(diǎn)AI智能體「杠桿」
ChatGPTagent這么強(qiáng),能為我們帶來什么價值?
最近,剛剛離職OpenAI研究員HyungWonChung分享演講視頻中表示,「AI正成為有史以來最強(qiáng)大的『杠桿』」。
他表示,AI智能體結(jié)合了兩種杠桿:人力和代碼。
它就像雇了個幫手,替你干活(人力杠桿);而且它又是軟件,能無限復(fù)制(代碼杠桿)。
1.人力杠桿:AI智能體可以替人類完成工作,就像一個人AI助理。
2.代碼杠桿:當(dāng)前的AI智能體是純軟件形式,可以輕松復(fù)制。如果你想要10倍的產(chǎn)出,就運(yùn)行10個智能體;想要12倍,就再加兩個。這種杠桿不需要許可,可以隨意擴(kuò)展。
在這場發(fā)布會上,OpenAI重提了「AI杠桿」這一核心話題。
他們同樣認(rèn)為,2025年之后,AI智能體將成為一種全新的杠桿機(jī)制。
它不僅能代替人類完成工作,還能通過「復(fù)制粘貼」無限擴(kuò)展。不論是10個,還是更多智能體,不需要額外的許可,即可一鍵部署。
研究人員舉例稱,DeepResearch發(fā)布之后近半年里,極大地提升了個體和小團(tuán)隊(duì)的產(chǎn)出。
過去,團(tuán)隊(duì)規(guī)?;枰蕾嚒溉肆Ω軛U」,但人類協(xié)作的溝通成本,甚至包括摩擦,往往成為了瓶頸。
而現(xiàn)在,ChatGPTagent的出現(xiàn)一個重大意義在于,讓小團(tuán)隊(duì)創(chuàng)造巨大的價值。
一個10人或20人的初創(chuàng)公司,借助AI杠桿,可能創(chuàng)造出媲美科技巨頭的成就。
這種「超級個體」模式,或許在未來將重塑企業(yè)的組織架構(gòu),憑借AI實(shí)現(xiàn)指數(shù)級增長。
北大校友領(lǐng)銜出鏡
值得一提的是,這次直播中,有兩位華人學(xué)者同時出鏡。
ZhiqingSun(孫之清)
孫之清于2024年6月加入OpenAI,擔(dān)任研究科學(xué)家。
他于2025年在卡內(nèi)基梅隆大學(xué)獲得計(jì)算機(jī)科學(xué)博士學(xué)位,于2019年在北京大學(xué)獲得計(jì)算機(jī)科學(xué)學(xué)士學(xué)位。
在OpenAI期間,他不僅參與到了o3/o4-mini、計(jì)算機(jī)使用智能體,以及DeepResearch這幾個關(guān)鍵項(xiàng)目當(dāng)中,而且還是DeepResearch的研究負(fù)責(zé)人。
CaseyChu
CaseyChu于2020年4月加入OpenAI,擔(dān)任研究員。
此前,他于2019年在斯坦福大學(xué)獲得計(jì)算數(shù)學(xué)碩士學(xué)位,并于2016年在哈維穆德學(xué)院獲得數(shù)學(xué)學(xué)士學(xué)位。
后來他曾嘗試攻讀斯坦福大學(xué)的計(jì)算數(shù)學(xué)博士學(xué)位,但中途選擇了退學(xué)。
別看他的title只是研究員,但他不僅是DALL·E2的共同一作,而且還主導(dǎo)了GPT-4視覺輸入的初始原型的開發(fā)。
有人說他是貓膩水平下滑的作品,但是成績依然不比《大主宰》差!
貓膩封筆之作《大道朝天》完結(jié)了,評分9.0,創(chuàng)生涯作品評分最低
貓膩:《慶余年》最喜歡陳萍萍,李沁演女主好,《擇天記》會重拍