網(wǎng)警護(hù)航 | 錄取季警惕通知書(shū)陷阱
《明日方舟》2025「音律聯(lián)覺(jué)-熠曲豐碑」官方錄播
東北大學(xué)6名學(xué)生溺亡事故最新調(diào)查
作者|LiYuan
一個(gè)共識(shí)是,AI今年的大主題,是Agent。
如果說(shuō)過(guò)去我們習(xí)慣了AI的「動(dòng)嘴」,那么接下來(lái),就是AI「動(dòng)手」的時(shí)代。畢竟,既然AI已經(jīng)能聽(tīng)懂、又足夠聰明,那為什么不能直接把事兒干完?
2025年下半場(chǎng)剛開(kāi)局,一直在定義AI的OpenAI,突然端出了他們的Agent答卷。不過(guò)有趣的是,乍一看,它和幾個(gè)月前爆火的Manus模式,驚人地相似。
7月18日凌晨,SamAltman和四位OpenAI研究員在直播中介紹了OpenAI即將推出的Agent模式。
簡(jiǎn)單來(lái)說(shuō),在Agent模式下,你可以直接對(duì)ChatGPT提要求:婚禮缺雙鞋,去電商平臺(tái)幫我買(mǎi)了;或者,給我設(shè)計(jì)個(gè)寵物周邊,直接下單打?。徊檎倚畔?,直接生成PPT。然后,ChatGPT會(huì)自己打開(kāi)虛擬機(jī),一步步操作。
在演示中,一個(gè)復(fù)雜任務(wù)大概需要10分鐘完成。但從結(jié)果看,完成度很高。ChatGPT可以在虛擬環(huán)境里可以調(diào)用文本瀏覽器、可視化瀏覽器和終端。而基于終端,還可以進(jìn)一步調(diào)用云服務(wù)API、圖片生成器,運(yùn)行代碼等。
更關(guān)鍵的,這次OpenAI不再Pro用戶優(yōu)先,Plus、Team用戶也將能很快上手,每月可用40次。量大,管飽。
SamAltman用他標(biāo)志性的真誠(chéng)眼神,對(duì)著屏幕說(shuō):這是一個(gè)全新的范式。就像我們學(xué)會(huì)上網(wǎng),最后也學(xué)會(huì)了甄別詐騙信息一樣,現(xiàn)在,整個(gè)社會(huì)需要學(xué)習(xí)如何與Agent安全地交互和共存。
01
Agent模式能干什么?
直接觀看OpenAI的Agent模式演示,會(huì)發(fā)現(xiàn)其直觀體驗(yàn)與幾個(gè)月前爆火的Manus高度相似。
在用戶提出需求之后,都會(huì)自動(dòng)開(kāi)啟一個(gè)虛擬機(jī),開(kāi)始自動(dòng)執(zhí)行一些任務(wù),執(zhí)行過(guò)程中,Agent會(huì)反復(fù)請(qǐng)求用戶確認(rèn),并允許隨時(shí)手動(dòng)接管。同時(shí),用戶也能在任務(wù)中途植入新需求,進(jìn)行實(shí)時(shí)交互。
而在OpenAI的介紹中,Agent模式可以調(diào)用三種工具:文本瀏覽器、可視化瀏覽器和終端。模型可以自主選擇切換各種工具。
這種工具組合的設(shè)計(jì)頗為精巧:文本瀏覽器負(fù)責(zé)大量瀏覽文字,搜尋信息,而可視化瀏覽器則負(fù)責(zé)定位到信息之后直接模擬一些鍵鼠交互,或者用來(lái)讀取圖像信息。
而終端,則可以運(yùn)行代碼,生成包括PPT、Excel在內(nèi)的文件,和調(diào)用一些云端API。
在OpenAI提供的第一個(gè)演示里,研究員提出要規(guī)劃參加另一個(gè)朋友婚禮的事宜,要挑選一套符合著裝要求的禮服(考慮場(chǎng)地、天氣、中高檔價(jià)位)預(yù)訂酒店,同時(shí)提供禮物建議。
研究員首先在ChatGPT里切換到Agent模式,把上述需求發(fā)過(guò)去。Agent啟動(dòng)虛擬電腦、加載環(huán)境(大約幾秒)。
然后ChatGPT先試用文本瀏覽器打開(kāi)了用戶給的網(wǎng)頁(yè),搜索婚禮信息、著裝要求、天氣等。發(fā)現(xiàn)需要進(jìn)一步確認(rèn)婚禮日期時(shí),模型也提出了澄清請(qǐng)求,但用戶選擇讓它自己繼續(xù)推理。
在找到了天氣、場(chǎng)地信息后,AI開(kāi)始推薦合適的禮服,并切換到可視化瀏覽器檢查禮服效果。完成任務(wù)后,繼續(xù)搜索酒店和禮物。
可以看到,最后給出的婚禮出行建議報(bào)告非常長(zhǎng)而詳細(xì),涵蓋了服裝、酒店、禮物。甚至附上了非常多的鏈接,在酒店是否有空位的索引上,還附上了在線預(yù)訂網(wǎng)站的截圖。
而完成這樣的一份報(bào)告,AI只花了十分鐘。相比于我們熟悉的一問(wèn)一答看起來(lái)時(shí)間是長(zhǎng)了很多,但是相比于實(shí)際的工作量,AI看起來(lái)還是要比人的效率高太多了。
如果說(shuō)這個(gè)演示還是更加體現(xiàn)其研究能力,另一個(gè)演示則直接展示了其動(dòng)手能力。
研究員要求給團(tuán)隊(duì)的吉祥物(是一只可愛(ài)的狗狗,昵稱Bernie)做出一批筆記本貼紙,并下單500張。
Agent直接利用終端功能,調(diào)用了圖像生成工具(ImageGenAPI)來(lái)生成一張動(dòng)漫風(fēng)格的狗狗插畫(huà),作為貼紙的設(shè)計(jì)圖案。
接著,Agent打開(kāi)瀏覽器訪問(wèn)StickerMule網(wǎng)站,把設(shè)計(jì)好的圖上傳到網(wǎng)站,填寫(xiě)了貼紙數(shù)量、尺寸等,并把商品加入購(gòu)物車(chē)。
最后它主動(dòng)向用戶確認(rèn),是否要用這張插畫(huà)?是否繼續(xù)下單?是否需要用戶自己輸入信用卡付款,還是讓它繼續(xù)完成?
任務(wù)停留在讓用戶接管輸入信用卡,花了7分鐘。
同樣的能力,Agent還自己連接GoogleDriveAPI(類似于國(guó)內(nèi)的網(wǎng)盤(pán)),讀取文件之后生成了一份PPT。
查詢了賽季日程,生成了一個(gè)詳細(xì)的旅行電子表格+帶標(biāo)注地圖的旅行攻略。這個(gè)任務(wù)比較復(fù)雜,Agent大約花了25分鐘完成。
02
輕描淡寫(xiě):AI能力又進(jìn)步了
OpenAI此次推出的新Agent模式,實(shí)際上并不是一項(xiàng)全新的創(chuàng)新,而是由OpenAI上半年推出的兩樣工具組合而成:Operator和DeepResearch。
Operator是原本只開(kāi)放給了Pro用戶的瀏覽器Agent工具,能夠分析圖形操作界面,并做出一定的操作。
而DeepResearch,則是一個(gè)深入研究的分析工具,可以閱讀大量的網(wǎng)頁(yè),直接生成一份調(diào)研報(bào)告。
OpenAI表示,在兩樣工具分別推出的過(guò)程中,發(fā)現(xiàn)很多用戶用Operator寫(xiě)的提示詞其實(shí)更像DeepResearch的任務(wù),比如「計(jì)劃一次旅行并預(yù)訂」。而DeepResearch用戶高度呼吁增加「登錄網(wǎng)站、訪問(wèn)受保護(hù)資源」的能力,其實(shí)是Operator早就能做的。于是團(tuán)隊(duì)決定將兩個(gè)產(chǎn)品融合起來(lái)。
這和剛剛離職的OpenAI的工程師爆料的OpenAI的團(tuán)隊(duì)文化其實(shí)很接近:OpenAI內(nèi)部很看重工程師的自驅(qū)力,常常有多個(gè)類似的項(xiàng)目同時(shí)在推進(jìn),誰(shuí)想做誰(shuí)就能往前推進(jìn)。
此次Operator和DeepResearch的融合看起來(lái)還是很成功的。兩個(gè)從不同角度推動(dòng)的Agent項(xiàng)目,最后融合起來(lái),有了一些奇妙的化學(xué)反應(yīng),也避開(kāi)了只使用瀏覽器的圖形界面去閱讀文字材料的低效,讓最后能形成深度報(bào)告的時(shí)長(zhǎng)變得并不高。
OpenAI也提到了在為模型提供多種工具之后,怎樣訓(xùn)練模型。
仍然是使用強(qiáng)化學(xué)習(xí)。一開(kāi)始模型會(huì)「笨拙」地嘗試用所有工具解決一個(gè)相對(duì)簡(jiǎn)單的問(wèn)題。也就是說(shuō),它剛開(kāi)始不會(huì)判斷哪個(gè)工具更合適。
通過(guò)獎(jiǎng)勵(lì)它那些解決問(wèn)題更高效、更合理的行為,模型能逐漸學(xué)會(huì)如何用這些工具。在什么情況下用哪個(gè)工具最合適。
比如如果是做創(chuàng)意作品,它會(huì)先搜索公開(kāi)資源;然后用終端寫(xiě)代碼、編譯作品;最后用可視化瀏覽器驗(yàn)證結(jié)果。
而在一堆Demo中,OpenAI也輕描淡寫(xiě)地又拋出了一個(gè)新的基準(zhǔn)測(cè)試成績(jī)。
在HumanitiesLastExam(人類的最后一場(chǎng)大考)中,能夠使用瀏覽器、電腦和終端的Agent模式模型,已經(jīng)能夠達(dá)到42%的高分,相比于完全不使用工具的o3,有一倍的提升。
而在世界范圍內(nèi)也是領(lǐng)先的——Grok宣布帶工具的Grok4Heavy在測(cè)試中取得45%的成績(jī)。
使用工具后的高級(jí)數(shù)學(xué)推理能力,也有了進(jìn)一步的提升。
公布的基準(zhǔn)中,有兩個(gè)是和人類的對(duì)比。
一個(gè)是在網(wǎng)頁(yè)中操作的能力(WebArena),一個(gè)是操作電子表格的能力(SpreadsheetBench)。可以看到,兩項(xiàng)基準(zhǔn)中,Agent模式仍然不如人類,但是網(wǎng)頁(yè)操作,已經(jīng)追近了人類水平。
這意味著,即便只是整合這些本身尚不如人類的工具,大模型也能獲得顯著的能力提升。Agent時(shí)代,大模型能力的提升顯然還有更高的天花板。
03
和Agent共處的時(shí)代,確實(shí)來(lái)了
毫無(wú)疑問(wèn),Agent是2025年AI領(lǐng)域的絕對(duì)風(fēng)口。
但風(fēng)口之下,用戶的真實(shí)體感往往并不完美:任務(wù)運(yùn)行時(shí)間過(guò)長(zhǎng);稍復(fù)雜的任務(wù)就頻頻出錯(cuò)。一位早期Operator用戶評(píng)論道「每次點(diǎn)擊和滾動(dòng),都像在炎熱夏日中游泳。」
此次OpenAI將Operator與DeepResearch融合,或許正是為了緩解這種「粘滯感」,讓Agent真正跑起來(lái)。
當(dāng)OpenAI自己下場(chǎng),一個(gè)更直接的問(wèn)題擺在了所有類似Manus的第三方開(kāi)發(fā)者面前:這究竟是會(huì)催生一個(gè)繁榮的Agent應(yīng)用生態(tài),還是會(huì)直接碾壓所有創(chuàng)業(yè)公司?答案尚不明朗。
而對(duì)于用戶而言,一個(gè)更切身的挑戰(zhàn)隨之而來(lái):隱私和安全。
當(dāng)AI在我們看不見(jiàn)的虛擬機(jī)里,點(diǎn)開(kāi)一個(gè)網(wǎng)頁(yè)、輸入我們的個(gè)人信息時(shí),誰(shuí)來(lái)保證安全?
如果它被釣魚(yú)網(wǎng)站騙走了我們的信用卡號(hào),責(zé)任誰(shuí)負(fù)?
OpenAI對(duì)此的回應(yīng)是,他們會(huì)采取極其嚴(yán)格的審查和安全措施,但它也希望整個(gè)社會(huì)都能花時(shí)間去適應(yīng)和建立規(guī)范。
Agent時(shí)代,確實(shí)是繼Chat時(shí)代之后,一個(gè)截然不同的新階段。
在Chat時(shí)代,我們學(xué)會(huì)了適應(yīng)AI的“嘴”——我們慢慢習(xí)慣了它的幻覺(jué),并學(xué)會(huì)在它的花言巧語(yǔ)中甄別真?zhèn)?。這是一個(gè)關(guān)于“信息可信度”的挑戰(zhàn)。
而在Agent時(shí)代,挑戰(zhàn)則完全轉(zhuǎn)向了AI的“手”。我們需要回答一系列全新的問(wèn)題:我們究竟愿意多信任AI?我們又愿意把多大的權(quán)限交出去,讓它代替我們完成多少現(xiàn)實(shí)世界的事情?
而我們與AI的關(guān)系,也將因此被重新定義。
從更宏觀的視角看,Agent的爆發(fā)也將再次將一個(gè)老問(wèn)題以更尖銳的方式推到我們面前:當(dāng)AI能真正「干活」時(shí),我們的工作會(huì)怎樣?
當(dāng)AI能獨(dú)立完成一份包含數(shù)據(jù)檢索、圖像查證的復(fù)雜報(bào)告,并直接完成在線預(yù)訂時(shí),白領(lǐng)們的工作究竟是被賦能加速,還是被徹底威脅?
答案尚在風(fēng)中飄。
但無(wú)論我們歡迎、恐懼還是茫然,一個(gè)由Agent驅(qū)動(dòng)的、更自動(dòng)化的新時(shí)代,確實(shí)正在加速到來(lái)。