文|趙艷秋周享玥
編|?;?/p>
今年Agent一波波熱浪下,一家捷克創(chuàng)業(yè)公司——E2B,意外爆火。
成立兩年,它的云端沙盒從默默無聞到月創(chuàng)建量突破1500萬,一年暴漲375倍。
這背后,是Agent正在掀起的新一輪云計(jì)算基礎(chǔ)設(shè)施變革。
E2B起初只是一個(gè)讓用戶在云端安全隔離“沙盒”中運(yùn)行AI代碼生成的小項(xiàng)目,這些沙盒本質(zhì)上是輕量級(jí)虛擬機(jī)。2024年10月,Anthropic推出ComputerUse技術(shù)——讓AI能像人類一樣操作電腦。很快,E2B發(fā)現(xiàn)越來越多用戶將其沙盒用于此類任務(wù)。隨著Agent從實(shí)驗(yàn)室走向生產(chǎn)環(huán)境,E2B也順勢(shì)將定位升級(jí)為Agent運(yùn)行環(huán)境。
市場(chǎng)隨即引爆——士氣大增的E2BCEO也放話,要成為Agent時(shí)代的AWS,提供覆蓋Agent從開發(fā)到部署全生命周期的自動(dòng)化基礎(chǔ)設(shè)施平臺(tái)。
在云計(jì)算的發(fā)展史上,每一次應(yīng)用形態(tài)的重大變化,都會(huì)催生新一代基礎(chǔ)設(shè)施。十多年前,移動(dòng)互聯(lián)網(wǎng)興起,推動(dòng)云計(jì)算第一次大規(guī)模爆發(fā)——從社交到電商,從視頻到打車,幾乎所有應(yīng)用后臺(tái)都搬上了云。如今,這一幕正在Agent身上重演。
從去年下半年到現(xiàn)在,Agent正從技術(shù)探索快速走向生產(chǎn)環(huán)境。它們會(huì)寫代碼、做數(shù)據(jù)分析,還能自主瀏覽網(wǎng)頁、跨軟件執(zhí)行任務(wù),甚至開始完成復(fù)雜的跨平臺(tái)業(yè)務(wù)操作。它們需要的,不是傳統(tǒng)意義上的云主機(jī),而是全新的運(yùn)行環(huán)境——AgentInfra。有業(yè)內(nèi)人士向數(shù)智前線“斷言”,未來3~5年,AgentInfra將是云計(jì)算競(jìng)爭(zhēng)最激烈的焦點(diǎn)。
大型云廠商豈能錯(cuò)失這樣的機(jī)會(huì)?7月28日,在上海世界人工智能大會(huì)(WAIC)上,阿里云正式發(fā)布了專為Agent打造的無影AgentBay,歷時(shí)三個(gè)多月的內(nèi)測(cè)和打磨,產(chǎn)品體驗(yàn)煥然一新。此前不久,AWS也推出AgentCore,在部分區(qū)域試用。無論是E2B、AgentBay,還是AgentCore,它們本質(zhì)都在做一件事——為Agent提供更好的基礎(chǔ)設(shè)施,也就是AgentInfra。
01
Agent上工,數(shù)字員工需要新一代“辦公室”
短短一年時(shí)間,Agent已經(jīng)從技術(shù)圈的“玩具”,迅速進(jìn)入企業(yè)生產(chǎn)一線。
在《財(cái)富》500強(qiáng)企業(yè)中,約79%已啟動(dòng)Agent項(xiàng)目,金融、電商、客服等行業(yè)已進(jìn)入規(guī)模實(shí)踐階段。Gartner高級(jí)首席分析師費(fèi)天褀告訴數(shù)智前線,中國企業(yè)Agent落地速度甚至快于全球:15%已實(shí)現(xiàn)生產(chǎn)落地,高于去年全球平均水平的10%。
這背后,不只是技術(shù)熱度和噱頭,更是企業(yè)的現(xiàn)實(shí)壓力。對(duì)于中國企業(yè),尤其是中小企業(yè)來說,引入Agent既是“生存創(chuàng)新”,也是“普惠升級(jí)”。他們傾向于先用小型、低成本Agent跑通業(yè)務(wù),再逐步擴(kuò)展。這種務(wù)實(shí)打法,讓Agent在中國的商業(yè)化速度格外快。
不過,從傳統(tǒng)應(yīng)用到Agent,有質(zhì)的不同。
如果說傳統(tǒng)應(yīng)用開發(fā)像“劇本殺”,開發(fā)者提前寫好劇情,系統(tǒng)只需按流程演一遍,Agent則更像“即興演員”,能自己判斷場(chǎng)景、規(guī)劃動(dòng)作,還會(huì)在執(zhí)行中隨時(shí)調(diào)整。正如圖靈獎(jiǎng)得主YannLeCun所說,Agent不應(yīng)是“缸中之腦”,而要能與環(huán)境交互、影響環(huán)境,并據(jù)此改變行為。
與傳統(tǒng)應(yīng)用相比,Agent擁有更復(fù)雜的“工作能力和要求”:
?感知:有“眼耳口鼻”,能讀屏、識(shí)圖、聽音、解析界面結(jié)構(gòu);
?任務(wù)規(guī)劃:推理大模型將復(fù)雜目標(biāo)拆成多步子任務(wù),按反饋動(dòng)態(tài)調(diào)整;
?多工具協(xié)同:調(diào)用多種工具和API,查數(shù)據(jù)、發(fā)郵件、翻譯、編程……就像帶著一把“瑞士軍刀”;
?長(zhǎng)期記憶:跨會(huì)話保存狀態(tài),能記住歷史信息持續(xù)優(yōu)化決策;
?自主交互環(huán)境:像“數(shù)字員工”一樣操作電腦、手機(jī)和網(wǎng)絡(luò),點(diǎn)擊、輸入、切換應(yīng)用等。
阿里云無影事業(yè)部總裁張獻(xiàn)濤直言,如果每家公司開發(fā)Agent,都要從零搭建這些能力,尤其是中小企業(yè)或個(gè)人開發(fā)者,幾乎是不可能的。
跨境電商是Agent落地最快的行業(yè)之一。過去五年,中國跨境電商規(guī)模暴增10倍。整個(gè)跨境電商是一個(gè)復(fù)雜鏈路,從生產(chǎn)到在線交易再到物流、售后服務(wù),Agent都在發(fā)揮作用。以運(yùn)營小二為例,每天要花大約40%的時(shí)間聯(lián)系商家確認(rèn)是否參加大促活動(dòng),他們提取Excel名單、打開釘釘找商家、發(fā)消息、等回復(fù),回填表格……流程機(jī)械、耗時(shí)。
有了Agent,這件事可以全自動(dòng)化,模型規(guī)劃步驟、跨工具執(zhí)行,一氣呵成。不過,跨境電商參與者大都是中小企業(yè),在國內(nèi)超過70萬家,多數(shù)缺乏技術(shù)能力。如何讓他們能參與到Agent開發(fā)應(yīng)用中,帶來更加普惠和公平的交易秩序?
傳統(tǒng)的本地化部署根本不能很好地支撐這樣的需求,Agent上云迫在眉睫:
如本地算力,無法實(shí)現(xiàn)高并發(fā)。尤其是精準(zhǔn)的Agent任務(wù),會(huì)迅速耗盡算力資源。Manus年初demo期間的磕磕絆絆,問題也是出在了資源瓶頸上,AI推理的算力和執(zhí)行任務(wù)的虛擬機(jī)都沒有上云。
環(huán)境不匹配,傳統(tǒng)云缺乏操作環(huán)境,難以讓Agent像人一樣操作電腦、手機(jī)和網(wǎng)絡(luò)。
數(shù)據(jù)割裂,跨工具難以保證數(shù)據(jù)一致性。
還有安全隱患,要防止Agent誤操作或泄密,需要額外隔離系統(tǒng)......
于是,AgentInfra誕生了。它就像為“數(shù)字員工”打造的云端辦公室——開箱即用,性能強(qiáng)勁,安全隔離到位,讓企業(yè)尤其是中小商家,可以低門檻把Agent從試點(diǎn)推向生產(chǎn)落地。
在世界人工智能大會(huì)期間,張獻(xiàn)濤進(jìn)一步介紹,在阿里云看來,Agent開發(fā)需要構(gòu)建一個(gè)類似“操作系統(tǒng)”的生態(tài)。
就像傳統(tǒng)操作系統(tǒng)產(chǎn)業(yè)鏈中,有人專注內(nèi)核,有人打造中間件,有人開發(fā)應(yīng)用層。張獻(xiàn)濤介紹,在Agent開發(fā)生態(tài)中,這次商用的無影AgentBay類似“內(nèi)核層”,為Agent開發(fā)者提供從開發(fā)、測(cè)試到規(guī)模化運(yùn)行的全生命周期服務(wù)。
它由阿里云無影事業(yè)部研發(fā),該業(yè)務(wù)部在阿里云定位于云+端側(cè)AI的重要承載者。無影AgentBay克服了Agent在高并發(fā)場(chǎng)景下的運(yùn)行挑戰(zhàn)。
同時(shí),由于MCP協(xié)議只覆蓋部分工具,且缺乏評(píng)價(jià)體系,市面上MCP工具質(zhì)量參差不齊,導(dǎo)致Agent在任務(wù)執(zhí)行中,一致性和精準(zhǔn)度不足。為此,AgentBay將BrowserUse、ComputerUse、MobileUse、CodeSpace四大沙箱環(huán)境打包成服務(wù),覆蓋了從Linux、Windows、Android主流環(huán)境,讓Agent在跨環(huán)境、跨工具時(shí)保持穩(wěn)定與準(zhǔn)確執(zhí)行。
如果AI大模型是大腦,AgentBay則幫助Agent裝上“手和腳”,讓Agent不僅會(huì)思考,還能精準(zhǔn)地動(dòng)手做事。再加上跨環(huán)境持久化、智能感知與控制接口,以及秒級(jí)啟動(dòng)能力。就像為Agent準(zhǔn)備了“專用電腦”,但它不在你的桌子上,而是在云端。
數(shù)智前線獲悉,從去年底,無影事業(yè)部就開始著手AgentBay的研發(fā),來搶占AgentInfra先機(jī)。而這些能力的上線,也有賴于該平臺(tái)“站在阿里云的肩膀上”來實(shí)現(xiàn)。
02
AgentInfra實(shí)戰(zhàn),數(shù)字員工這樣干活
雖然AgentInfra建設(shè)時(shí)間不長(zhǎng),但市場(chǎng)已給出了積極反饋。
在海外,E2B沙盒月創(chuàng)建量一年暴漲375倍;國內(nèi),阿里無影AgentBay內(nèi)測(cè)3個(gè)多月,就吸引了超過1000家客戶申請(qǐng)使用,頭部幾家Agent公司都在用它做開發(fā)和運(yùn)行。
有了AgentInfra的加持,Agent開發(fā)和使用,體感到底怎么樣?在世界人工智能大會(huì)期間,我們看到了不少實(shí)操案例。
和去年相比,Agent的執(zhí)行力已經(jīng)完全不同——去年底,Agent像人一樣操作電腦、手機(jī),還是個(gè)新鮮事,而且要大量定制化開發(fā),接口限制、界面識(shí)別都是難題;今年,Agent已經(jīng)可以融入工作流,開始完成各種跨平臺(tái)、多步驟任務(wù)。
場(chǎng)景一:跨平臺(tái)自動(dòng)化操作
在AgentBay的ComputerUse環(huán)境中,開發(fā)者只需一句話:“安排2025年7月26日無影WAIC準(zhǔn)備會(huì)議。”右側(cè)沙箱顯示,Agent就會(huì)自動(dòng)打開釘釘,解析界面布局,找到日程功能區(qū),填寫會(huì)議信息并發(fā)送通知,整個(gè)過程僅十幾秒,就完成了任務(wù)閉環(huán)。
這種能力突破了傳統(tǒng)即時(shí)通訊軟件因?yàn)榉浅6嗟慕涌谑芟?,自?dòng)化難以落地的瓶頸。
另一個(gè)“BrowserUse”案例,是讓AI自動(dòng)識(shí)別“2048”游戲并進(jìn)行游玩。
這個(gè)操作看似簡(jiǎn)單,背后卻有著復(fù)雜機(jī)制,AgentBay會(huì)解析游戲界面,識(shí)別數(shù)字區(qū)塊和空白區(qū)域,推算下一步滑動(dòng)方向,然后進(jìn)行操作,之后還要觀察下一個(gè)出現(xiàn)的數(shù)字,最后獲得相應(yīng)分?jǐn)?shù),這個(gè)分?jǐn)?shù)已比大部分人玩的成績(jī)要高很多。雖然只是個(gè)游戲場(chǎng)景,但技術(shù)核心和自動(dòng)化業(yè)務(wù)流程相通——都要先看懂界面,再精準(zhǔn)動(dòng)手。
場(chǎng)景二:復(fù)雜任務(wù)拆解與執(zhí)行
有位開發(fā)者在第三方編程工具Cursor中給了這樣一個(gè)指令:“打開一個(gè)無影安卓環(huán)境,查找最近的加油站并推薦給我,給我一個(gè)訪問鏈接,整個(gè)過程讓我能看到?!?/p>
過去,這種任務(wù)需要自己開虛擬機(jī),一步步來編程。
現(xiàn)在,AgentBay聽懂后,會(huì)借助三方應(yīng)用的能力把它自動(dòng)拆成十幾個(gè)小步驟:先生成訪問鏈接,再打開高德地圖,輸入“加油站”,讀取結(jié)果并按距離排序,最后告訴你哪個(gè)最近。
更巧的是,如果執(zhí)行中遇到UI元素識(shí)別失敗或輸入信息失敗,它不會(huì)卡死,而是自動(dòng)回到那一步重新執(zhí)行,而不是等你手動(dòng)救場(chǎng)。僅這一個(gè)產(chǎn)品上的設(shè)計(jì),就解決了眾多Agent開發(fā)者最頭疼的問題——“到底卡在哪了呢?”
場(chǎng)景三:人機(jī)協(xié)作
跨平臺(tái)操作中,還有一個(gè)老大難:賬號(hào)登錄與權(quán)限校驗(yàn)。
很多時(shí)候,這類需要人工參與的環(huán)節(jié)會(huì)讓自動(dòng)化流程中斷。那怎么既保證安全,又不讓任務(wù)半路夭折呢?
現(xiàn)場(chǎng)演示中,在Cursor里輸入:“搜索社交平臺(tái)上關(guān)于某商品的使用心得,如果需要登錄,就移交給我手動(dòng)操作?!?/p>
Agent執(zhí)行到登錄界面時(shí),會(huì)自動(dòng)切換到人機(jī)協(xié)作模式,把控制權(quán)交給人類。用戶手動(dòng)輸入手機(jī)號(hào)和驗(yàn)證碼,登錄成功后,只需回復(fù)一句“我已登錄”,Agent就接過“接力棒”,繼續(xù)任務(wù)直到完成。
這種無縫切換得益于AgentBay自研的ASP協(xié)議,它能將云端環(huán)境完整、流暢地串流到本地,讓人和Agent像同桌一樣配合,任務(wù)不會(huì)半途而廢。
03
AgentInfra的長(zhǎng)跑才剛剛開始
根據(jù)大會(huì)期間,阿里云智能集團(tuán)無影事業(yè)部資深產(chǎn)品總監(jiān)李航介紹,支撐這些能力的,是AgentBay的5+3+N體系:
其中,“5”是BrowserUse、ComputerUse、MobileUse、CodeSpace四大沙箱環(huán)境以及統(tǒng)一持久化系統(tǒng)(構(gòu)建一套跨平臺(tái)數(shù)據(jù)漫游系統(tǒng),確保任務(wù)切換時(shí)的連續(xù)性);
“3”是SDK、MCP、ASP三種交互方式,覆蓋本地開發(fā)、跨平臺(tái)工具、端云協(xié)作;
“N”是覆蓋了云環(huán)境鏡像、網(wǎng)絡(luò)配置、MCP工具、實(shí)例生命周期管理等全流程自由定制工具鏈。
有了它,開發(fā)者不必再為底層環(huán)境和工具兼容操心,專注于業(yè)務(wù)邏輯和智能體設(shè)計(jì)即可,這讓開發(fā)效率提升80%,運(yùn)維成本降低60%,可靠性達(dá)99.99%。這將是新時(shí)代下,Agent應(yīng)用開發(fā)的全新范式。
然而,這場(chǎng)關(guān)于AgentInfra的長(zhǎng)跑才剛剛開始。
如果未來Agent真要成為“數(shù)字分身”,行業(yè)還需持續(xù)攻克優(yōu)化一系列難題:讓它擁有真正的長(zhǎng)期記憶、在多任務(wù)間高效協(xié)同、多工具間保持?jǐn)?shù)據(jù)一致,并且在電腦、瀏覽器、手機(jī)等多終端中,都能用安全、易用、可擴(kuò)展的沙箱來工作。
張獻(xiàn)濤還透露,未來Agentbay還將向全能型AgentInfra演進(jìn),可以托管Agents應(yīng)用,覆蓋AIAgents從開發(fā)到部署的完整生命周期。
可以預(yù)見,AgentInfra不只是為Agent提供辦公桌,它更像是為未來的“數(shù)字分身”打地基。這是一場(chǎng)剛剛開始的基礎(chǔ)設(shè)施長(zhǎng)跑,最終目標(biāo)是——讓每個(gè)行業(yè)都能用上屬于自己的各種Agent。