文|趙艷秋周享玥
編|?;?/p>
今年Agent一波波熱浪下,一家捷克創(chuàng)業(yè)公司——E2B,意外爆火。
成立兩年,它的云端沙盒從默默無聞到月創(chuàng)建量突破1500萬,一年暴漲375倍。
這背后,是Agent正在掀起的新一輪云計算基礎(chǔ)設(shè)施變革。
E2B起初只是一個讓用戶在云端安全隔離“沙盒”中運行AI代碼生成的小項目,這些沙盒本質(zhì)上是輕量級虛擬機。2024年10月,Anthropic推出ComputerUse技術(shù)——讓AI能像人類一樣操作電腦。很快,E2B發(fā)現(xiàn)越來越多用戶將其沙盒用于此類任務(wù)。隨著Agent從實驗室走向生產(chǎn)環(huán)境,E2B也順勢將定位升級為Agent運行環(huán)境。
市場隨即引爆——士氣大增的E2BCEO也放話,要成為Agent時代的AWS,提供覆蓋Agent從開發(fā)到部署全生命周期的自動化基礎(chǔ)設(shè)施平臺。
在云計算的發(fā)展史上,每一次應(yīng)用形態(tài)的重大變化,都會催生新一代基礎(chǔ)設(shè)施。十多年前,移動互聯(lián)網(wǎng)興起,推動云計算第一次大規(guī)模爆發(fā)——從社交到電商,從視頻到打車,幾乎所有應(yīng)用后臺都搬上了云。如今,這一幕正在Agent身上重演。
從去年下半年到現(xiàn)在,Agent正從技術(shù)探索快速走向生產(chǎn)環(huán)境。它們會寫代碼、做數(shù)據(jù)分析,還能自主瀏覽網(wǎng)頁、跨軟件執(zhí)行任務(wù),甚至開始完成復(fù)雜的跨平臺業(yè)務(wù)操作。它們需要的,不是傳統(tǒng)意義上的云主機,而是全新的運行環(huán)境——AgentInfra。有業(yè)內(nèi)人士向數(shù)智前線“斷言”,未來3~5年,AgentInfra將是云計算競爭最激烈的焦點。
大型云廠商豈能錯失這樣的機會?7月28日,在上海世界人工智能大會(WAIC)上,阿里云正式發(fā)布了專為Agent打造的無影AgentBay,歷時三個多月的內(nèi)測和打磨,產(chǎn)品體驗煥然一新。此前不久,AWS也推出AgentCore,在部分區(qū)域試用。無論是E2B、AgentBay,還是AgentCore,它們本質(zhì)都在做一件事——為Agent提供更好的基礎(chǔ)設(shè)施,也就是AgentInfra。
01
Agent上工,數(shù)字員工需要新一代“辦公室”
短短一年時間,Agent已經(jīng)從技術(shù)圈的“玩具”,迅速進入企業(yè)生產(chǎn)一線。
在《財富》500強企業(yè)中,約79%已啟動Agent項目,金融、電商、客服等行業(yè)已進入規(guī)模實踐階段。Gartner高級首席分析師費天褀告訴數(shù)智前線,中國企業(yè)Agent落地速度甚至快于全球:15%已實現(xiàn)生產(chǎn)落地,高于去年全球平均水平的10%。
這背后,不只是技術(shù)熱度和噱頭,更是企業(yè)的現(xiàn)實壓力。對于中國企業(yè),尤其是中小企業(yè)來說,引入Agent既是“生存創(chuàng)新”,也是“普惠升級”。他們傾向于先用小型、低成本Agent跑通業(yè)務(wù),再逐步擴展。這種務(wù)實打法,讓Agent在中國的商業(yè)化速度格外快。
不過,從傳統(tǒng)應(yīng)用到Agent,有質(zhì)的不同。
如果說傳統(tǒng)應(yīng)用開發(fā)像“劇本殺”,開發(fā)者提前寫好劇情,系統(tǒng)只需按流程演一遍,Agent則更像“即興演員”,能自己判斷場景、規(guī)劃動作,還會在執(zhí)行中隨時調(diào)整。正如圖靈獎得主YannLeCun所說,Agent不應(yīng)是“缸中之腦”,而要能與環(huán)境交互、影響環(huán)境,并據(jù)此改變行為。
與傳統(tǒng)應(yīng)用相比,Agent擁有更復(fù)雜的“工作能力和要求”:
?感知:有“眼耳口鼻”,能讀屏、識圖、聽音、解析界面結(jié)構(gòu);
?任務(wù)規(guī)劃:推理大模型將復(fù)雜目標(biāo)拆成多步子任務(wù),按反饋動態(tài)調(diào)整;
?多工具協(xié)同:調(diào)用多種工具和API,查數(shù)據(jù)、發(fā)郵件、翻譯、編程……就像帶著一把“瑞士軍刀”;
?長期記憶:跨會話保存狀態(tài),能記住歷史信息持續(xù)優(yōu)化決策;
?自主交互環(huán)境:像“數(shù)字員工”一樣操作電腦、手機和網(wǎng)絡(luò),點擊、輸入、切換應(yīng)用等。
阿里云無影事業(yè)部總裁張獻濤直言,如果每家公司開發(fā)Agent,都要從零搭建這些能力,尤其是中小企業(yè)或個人開發(fā)者,幾乎是不可能的。
跨境電商是Agent落地最快的行業(yè)之一。過去五年,中國跨境電商規(guī)模暴增10倍。整個跨境電商是一個復(fù)雜鏈路,從生產(chǎn)到在線交易再到物流、售后服務(wù),Agent都在發(fā)揮作用。以運營小二為例,每天要花大約40%的時間聯(lián)系商家確認是否參加大促活動,他們提取Excel名單、打開釘釘找商家、發(fā)消息、等回復(fù),回填表格……流程機械、耗時。
有了Agent,這件事可以全自動化,模型規(guī)劃步驟、跨工具執(zhí)行,一氣呵成。不過,跨境電商參與者大都是中小企業(yè),在國內(nèi)超過70萬家,多數(shù)缺乏技術(shù)能力。如何讓他們能參與到Agent開發(fā)應(yīng)用中,帶來更加普惠和公平的交易秩序?
傳統(tǒng)的本地化部署根本不能很好地支撐這樣的需求,Agent上云迫在眉睫:
如本地算力,無法實現(xiàn)高并發(fā)。尤其是精準(zhǔn)的Agent任務(wù),會迅速耗盡算力資源。Manus年初demo期間的磕磕絆絆,問題也是出在了資源瓶頸上,AI推理的算力和執(zhí)行任務(wù)的虛擬機都沒有上云。
環(huán)境不匹配,傳統(tǒng)云缺乏操作環(huán)境,難以讓Agent像人一樣操作電腦、手機和網(wǎng)絡(luò)。
數(shù)據(jù)割裂,跨工具難以保證數(shù)據(jù)一致性。
還有安全隱患,要防止Agent誤操作或泄密,需要額外隔離系統(tǒng)......
于是,AgentInfra誕生了。它就像為“數(shù)字員工”打造的云端辦公室——開箱即用,性能強勁,安全隔離到位,讓企業(yè)尤其是中小商家,可以低門檻把Agent從試點推向生產(chǎn)落地。
在世界人工智能大會期間,張獻濤進一步介紹,在阿里云看來,Agent開發(fā)需要構(gòu)建一個類似“操作系統(tǒng)”的生態(tài)。
就像傳統(tǒng)操作系統(tǒng)產(chǎn)業(yè)鏈中,有人專注內(nèi)核,有人打造中間件,有人開發(fā)應(yīng)用層。張獻濤介紹,在Agent開發(fā)生態(tài)中,這次商用的無影AgentBay類似“內(nèi)核層”,為Agent開發(fā)者提供從開發(fā)、測試到規(guī)?;\行的全生命周期服務(wù)。
它由阿里云無影事業(yè)部研發(fā),該業(yè)務(wù)部在阿里云定位于云+端側(cè)AI的重要承載者。無影AgentBay克服了Agent在高并發(fā)場景下的運行挑戰(zhàn)。
同時,由于MCP協(xié)議只覆蓋部分工具,且缺乏評價體系,市面上MCP工具質(zhì)量參差不齊,導(dǎo)致Agent在任務(wù)執(zhí)行中,一致性和精準(zhǔn)度不足。為此,AgentBay將BrowserUse、ComputerUse、MobileUse、CodeSpace四大沙箱環(huán)境打包成服務(wù),覆蓋了從Linux、Windows、Android主流環(huán)境,讓Agent在跨環(huán)境、跨工具時保持穩(wěn)定與準(zhǔn)確執(zhí)行。
如果AI大模型是大腦,AgentBay則幫助Agent裝上“手和腳”,讓Agent不僅會思考,還能精準(zhǔn)地動手做事。再加上跨環(huán)境持久化、智能感知與控制接口,以及秒級啟動能力。就像為Agent準(zhǔn)備了“專用電腦”,但它不在你的桌子上,而是在云端。
數(shù)智前線獲悉,從去年底,無影事業(yè)部就開始著手AgentBay的研發(fā),來搶占AgentInfra先機。而這些能力的上線,也有賴于該平臺“站在阿里云的肩膀上”來實現(xiàn)。
02
AgentInfra實戰(zhàn),數(shù)字員工這樣干活
雖然AgentInfra建設(shè)時間不長,但市場已給出了積極反饋。
在海外,E2B沙盒月創(chuàng)建量一年暴漲375倍;國內(nèi),阿里無影AgentBay內(nèi)測3個多月,就吸引了超過1000家客戶申請使用,頭部幾家Agent公司都在用它做開發(fā)和運行。
有了AgentInfra的加持,Agent開發(fā)和使用,體感到底怎么樣?在世界人工智能大會期間,我們看到了不少實操案例。
和去年相比,Agent的執(zhí)行力已經(jīng)完全不同——去年底,Agent像人一樣操作電腦、手機,還是個新鮮事,而且要大量定制化開發(fā),接口限制、界面識別都是難題;今年,Agent已經(jīng)可以融入工作流,開始完成各種跨平臺、多步驟任務(wù)。
場景一:跨平臺自動化操作
在AgentBay的ComputerUse環(huán)境中,開發(fā)者只需一句話:“安排2025年7月26日無影WAIC準(zhǔn)備會議?!庇覀?cè)沙箱顯示,Agent就會自動打開釘釘,解析界面布局,找到日程功能區(qū),填寫會議信息并發(fā)送通知,整個過程僅十幾秒,就完成了任務(wù)閉環(huán)。
這種能力突破了傳統(tǒng)即時通訊軟件因為非常多的接口受限,自動化難以落地的瓶頸。
另一個“BrowserUse”案例,是讓AI自動識別“2048”游戲并進行游玩。
這個操作看似簡單,背后卻有著復(fù)雜機制,AgentBay會解析游戲界面,識別數(shù)字區(qū)塊和空白區(qū)域,推算下一步滑動方向,然后進行操作,之后還要觀察下一個出現(xiàn)的數(shù)字,最后獲得相應(yīng)分?jǐn)?shù),這個分?jǐn)?shù)已比大部分人玩的成績要高很多。雖然只是個游戲場景,但技術(shù)核心和自動化業(yè)務(wù)流程相通——都要先看懂界面,再精準(zhǔn)動手。
場景二:復(fù)雜任務(wù)拆解與執(zhí)行
有位開發(fā)者在第三方編程工具Cursor中給了這樣一個指令:“打開一個無影安卓環(huán)境,查找最近的加油站并推薦給我,給我一個訪問鏈接,整個過程讓我能看到。”
過去,這種任務(wù)需要自己開虛擬機,一步步來編程。
現(xiàn)在,AgentBay聽懂后,會借助三方應(yīng)用的能力把它自動拆成十幾個小步驟:先生成訪問鏈接,再打開高德地圖,輸入“加油站”,讀取結(jié)果并按距離排序,最后告訴你哪個最近。
更巧的是,如果執(zhí)行中遇到UI元素識別失敗或輸入信息失敗,它不會卡死,而是自動回到那一步重新執(zhí)行,而不是等你手動救場。僅這一個產(chǎn)品上的設(shè)計,就解決了眾多Agent開發(fā)者最頭疼的問題——“到底卡在哪了呢?”
場景三:人機協(xié)作
跨平臺操作中,還有一個老大難:賬號登錄與權(quán)限校驗。
很多時候,這類需要人工參與的環(huán)節(jié)會讓自動化流程中斷。那怎么既保證安全,又不讓任務(wù)半路夭折呢?
現(xiàn)場演示中,在Cursor里輸入:“搜索社交平臺上關(guān)于某商品的使用心得,如果需要登錄,就移交給我手動操作?!?/p>
Agent執(zhí)行到登錄界面時,會自動切換到人機協(xié)作模式,把控制權(quán)交給人類。用戶手動輸入手機號和驗證碼,登錄成功后,只需回復(fù)一句“我已登錄”,Agent就接過“接力棒”,繼續(xù)任務(wù)直到完成。
這種無縫切換得益于AgentBay自研的ASP協(xié)議,它能將云端環(huán)境完整、流暢地串流到本地,讓人和Agent像同桌一樣配合,任務(wù)不會半途而廢。
03
AgentInfra的長跑才剛剛開始
根據(jù)大會期間,阿里云智能集團無影事業(yè)部資深產(chǎn)品總監(jiān)李航介紹,支撐這些能力的,是AgentBay的5+3+N體系:
其中,“5”是BrowserUse、ComputerUse、MobileUse、CodeSpace四大沙箱環(huán)境以及統(tǒng)一持久化系統(tǒng)(構(gòu)建一套跨平臺數(shù)據(jù)漫游系統(tǒng),確保任務(wù)切換時的連續(xù)性);
“3”是SDK、MCP、ASP三種交互方式,覆蓋本地開發(fā)、跨平臺工具、端云協(xié)作;
“N”是覆蓋了云環(huán)境鏡像、網(wǎng)絡(luò)配置、MCP工具、實例生命周期管理等全流程自由定制工具鏈。
有了它,開發(fā)者不必再為底層環(huán)境和工具兼容操心,專注于業(yè)務(wù)邏輯和智能體設(shè)計即可,這讓開發(fā)效率提升80%,運維成本降低60%,可靠性達99.99%。這將是新時代下,Agent應(yīng)用開發(fā)的全新范式。
然而,這場關(guān)于AgentInfra的長跑才剛剛開始。
如果未來Agent真要成為“數(shù)字分身”,行業(yè)還需持續(xù)攻克優(yōu)化一系列難題:讓它擁有真正的長期記憶、在多任務(wù)間高效協(xié)同、多工具間保持?jǐn)?shù)據(jù)一致,并且在電腦、瀏覽器、手機等多終端中,都能用安全、易用、可擴展的沙箱來工作。
張獻濤還透露,未來Agentbay還將向全能型AgentInfra演進,可以托管Agents應(yīng)用,覆蓋AIAgents從開發(fā)到部署的完整生命周期。
可以預(yù)見,AgentInfra不只是為Agent提供辦公桌,它更像是為未來的“數(shù)字分身”打地基。這是一場剛剛開始的基礎(chǔ)設(shè)施長跑,最終目標(biāo)是——讓每個行業(yè)都能用上屬于自己的各種Agent。
延伸閱讀:與 誰在托:舉Agent 阿里云搶灘Agent! Infra《新賽道》 的相關(guān)文章