小米中大型增程 SUV 「昆侖 N3」諜照曝光,或將于年底發(fā)布,如何評價這款新車的市場前景和競爭力?
一個Agent不能解決所有問題?這篇文章深入剖析多agent系統(tǒng)的新思路,從協(xié)作機制到結構設計,為你揭示如何打破“單體智能”的瓶頸,實現(xiàn)更高效、更靈活的系統(tǒng)能力構建。
Anthropic團隊上個月發(fā)了一篇工程博客,講述了他們如何構建Claude的多智能體研究系統(tǒng)。乍一看,這篇文章似乎是一個復雜的技術話題,但仔細讀下來,你會發(fā)現(xiàn)它其實探討的是一個更深層次的商業(yè)和技術問題:
當單個AI的能力達到了極限,接下來我們該如何前進?
對于這個問題,Anthropic給出了一個可供參考答案:構建多智能體系統(tǒng)
本篇結合Anthropic的工程博客,以及個人對智能體的認知,對構建多智能體系統(tǒng)的原理和方法論進行探討。
廢話不多說,先從這篇工程博客的核心要點說起:
1.讓多個智能體協(xié)同工作
“讓多個智能體學會協(xié)作?!薄@是這篇博客的核心觀點。
我們可以把這種方法想象成團隊合作:假設你是一個寵物公司的CEO,想了解2025年中國寵物市場的機會,以及哪些細分品類值得布局。如果只有你一個人來做這件事,即便你再聰明,工作也得一步一步來:先查宏觀經(jīng)濟數(shù)據(jù),再看行業(yè)報告,再到競爭對手分析,最后分析消費者的購買行為。這一套流程下來,對個人而言工作量不小,而且可能要花上幾周時間。
但如果你有一個團隊,事情就不一樣了:
市場分析師:專注宏觀趨勢
行業(yè)專家:深入研究某些細分市場
數(shù)據(jù)分析師:專門解讀消費者的行為模式
每個人各司其職,大家并行作業(yè),最后匯總給你。這樣做的好處是,時間縮短了,效率大大提高,做決策也能更快。通過這種方式,團隊的效率就像是多智能體系統(tǒng)的協(xié)作:每個智能體負責一個環(huán)節(jié),最終匯總出的結果不僅更快,還更加精確和深刻。
這種多智能體協(xié)作的方式,在復雜的研究任務中,顯得尤為重要。
正如原文所說:搜索的本質是“壓縮”,即從海量信息中篩選、壓縮出最有用的那一撮。
而多智能體協(xié)作時,每個子智能體像是執(zhí)行專員,各自從不同角度去查資料、找關鍵點,然后再把他們認為最重要的內容提煉出來,交給主智能體統(tǒng)一匯總——這恰好就是搜索的本質。
而這種協(xié)作方式,也打破了單一智能體的局限,能夠通過并行處理加速任務執(zhí)行,極大地提升了處理信息的深度和廣度。
問題來了:這個多智能體系統(tǒng),具體是如何運作的?
2.多智能體如何并行?與RAG有何不同?
AIAgent和workflow,在過去總會被人混為一談,原因在于兩者在執(zhí)行任務時都表現(xiàn)出一定的線性流程結構,目的是協(xié)助人類按部就班地進行任務,比如搜索這個場景,可以這樣拆分工作流:
接到目標→搜索信息→分析結果→給出答案
每一步都依賴上一步的完成,好處是清晰且符合人類的做事邏輯,當壞處是效率受限。
而Anthropic發(fā)現(xiàn),真實的任務往往是并行的。例如問一個問題:“哪些生意在2025年最值得投資?”這不僅僅是一個簡單的查詢,它需要涵蓋多個維度:技術趨勢、商業(yè)模式、財務狀況、競爭格局等,讓一個智能體按部就班地深度研究,可能需要花費幾十分鐘。
而如果采用并行架構,這個任務的執(zhí)行就可以變得更加高效:
如上圖,主智能體首先分析問題,識別出幾個關鍵的研究方向,然后創(chuàng)建多個子智能體,分別負責不同領域的研究。每個子智能體獨立工作,可以同時調用多個搜索工具,最終主智能體匯總所有的發(fā)現(xiàn),形成完整的答案。
在Anthropic的內部評估中,多智能體系統(tǒng)的搜索效果相比于單智能體提升了90.2%;
同時也將復雜查詢的研究時間縮短了90%。
同樣是信息檢索,這種多智能體并行搜索的原理,跟RAG也存在明顯的區(qū)別。
RAG主要有兩個功能:檢索信息、并引用信息生成回復。走RAG鏈路會讓模型從大量資料中找到相關的信息,然后再用這些信息生成一個完整的回復,側重單一智能體的信息獲取能力與生成能力,這種方法會受限于單一智能體的能力,這也導致了單一智能體在Anthropic的內部評估中的落??;
而多智能體系統(tǒng)則像一個龐大的團隊,各個智能體分別承擔不同的任務,進行信息的深入探索、分析和組織,如:Researcher負責深度挖掘和收集資料;Organizer負責把收集來的信息進行整理和組織;Judge負責評估結果的準確性和質量。分工明確、各有所長,最終合作完成任務。
如果說RAG是對于相關信息的獲取、梳理、生成,那多智能體還做到了對相關信息的主動探索、分析、再組織,提升的不止是檢索能力,還有對信息的“認知深度”。
因此從RAG到多智能體,變化的不只是執(zhí)行方式,而是AI處理信息的廣度與深度。
而當AI開始協(xié)作、判斷、復盤,PE的角色也需要隨之升級。
3.多智能體的PE有何不同?
過去我們構建PE的核心目的,在于讓模型按照指令完成某個具體的任務,因此需要手把手教學,我們的角色是“老師”;但到了多智能體系統(tǒng)里的PE,我們的角色不僅僅是“老師”,還是一個“項目經(jīng)理”。
因為這時候不再是單個AI在干活,而是若干個智能體在協(xié)同工作,因此PE不能僅僅給一個明確的指令,而是像一個項目經(jīng)理一樣,去搭建一套指揮“誰應該具體做什么任務”的調度系統(tǒng),由主智能體負責安排調度子智能體,且發(fā)送給子智能體的指令必須足夠清晰,否則就容易出岔子。
例如Anthropic發(fā)現(xiàn):主智能體如果只是給出一句模糊的指令,比如“研究半導體短缺問題”,聽起來挺明確,但底下幾個子智能體執(zhí)行出來的內容全是各說各話、不成體系,一個跑去復盤2021年的車規(guī)芯片危機,兩個重復研究了2025年的半導體供應鏈,大家都很努力,但努力的方向完全沒對齊。
如果是個真實項目,大概率會造成生產事故。
因此在多智能體系統(tǒng)中,我們構建PE,就是要確保我們構建的PE,能夠讓主智能體搞懂用戶的目標,還得搞清楚,這個目標能不能拆、該怎么拆、誰負責做什么任務、誰和誰之間不能重復,每個子智能體的專長分別是什么?具體負責什么?任務邊界在哪里?
每一個細節(jié),都會影響整個系統(tǒng)的效率和準確率?!@聽上去是不是就像項目經(jīng)理?
一個有效的多智能體PE,就是需要讓整個系統(tǒng)協(xié)作順暢、穩(wěn)定產出。
那如何構建這樣的PE?我們可以看看Anthropic的實踐總結:
1.學會站在智能體的角度思考
這是Anthropic老生常談的方法論了,我們需要觀察每一步的決策路徑,發(fā)現(xiàn)失敗模式,為提示優(yōu)化提供直觀依據(jù)
2.教會主智能體清晰地分派任務
主智能體需要清晰地描述任務目標、輸出格式、使用工具、信息來源以及任務邊,否則子智能體容易重復、遺漏或跑偏
3.根據(jù)任務復雜度調整調用規(guī)模
不同任務需要匹配不同數(shù)量和類型的子智能體,例如簡單事實查找只需一個智能體+3-10次工具調用,而復雜研究可能要10+子智能體,進行分工協(xié)作
4.慎重選擇調用工具
要指導智能體調用合適的工具,且優(yōu)先選擇專業(yè)工具
5.智能體自我復盤優(yōu)化機制
可以用智能體來復盤智能體,出錯了讓另一個智能體來復盤分析、優(yōu)化,通過失敗案例分析、提示改寫、工具描述優(yōu)化,讓系統(tǒng)實現(xiàn)持續(xù)改進
6.由廣度到深度的搜索策略
先進行廣泛探索,再聚焦深入,是更高效的研究路徑,提示中應引導智能體避免一開始就鉆牛角尖
7.思考過程顯性表達
通過讓智能體輸出“思考過程”,主智能體能更好地規(guī)劃、評估任務路徑與資源分配
8.任務并行,提速增效
包括主智能體并行啟動多個子智能體,子智能體同時調用多個工具,有效壓縮任務執(zhí)行時間
在上述的8條經(jīng)驗總結中,有一個詞頻繁出現(xiàn):“工具”。
Anthropic在實驗中發(fā)現(xiàn),很多任務失敗并不是因為智能體不夠聰明,而是沒調用正確的工具。因此多智能體系統(tǒng)需要檢查所有可用工具,把工具用法和用戶意圖對上,必要時上網(wǎng)廣泛搜索,優(yōu)先選專用工具而非通用工具,且每個工具都得有明確用途和清晰說明,方便智能體作出判斷,避免因為對工具的描述不清,導致智能體跑偏。
一個好用的多智能體系統(tǒng),離不開PE的構建,離不開準確的工具調用。但問題又來了:
多智能體系統(tǒng)的構建如此復雜且如此強調“協(xié)同”,這也就意味著單個智能體如果出現(xiàn)判斷失誤,就有可能引發(fā)連鎖反應,導致整個任務翻車。
針對這個問題,Anthropic又給出了怎樣的解決的思路?
4.穩(wěn)定運行的4個關鍵:復盤、兜底、迭代、漸進上線
為了讓多智能體系統(tǒng)在實際運行中更穩(wěn)、更可控,Anthropic在工程層面做了四項關鍵設計:
1.復盤:智能體自我優(yōu)化機制(LetAgentsImproveThemselves)
按照以往的經(jīng)驗,一旦AI出錯,就得我們來進行優(yōu)化,而Anthropic并不滿足于讓AI只是被動執(zhí)行,而是嘗試讓AI具備一種“自我反饋、持續(xù)改進”的能力。
從結果看,這種自我優(yōu)化機制顯著提升了系統(tǒng)的表現(xiàn),任務完成時間縮短了約40%。
具體流程上圖亦有提及:當一個子智能體在執(zhí)行中失敗,這個系統(tǒng)會自動調用另一個“診斷型智能體”,分析失敗的原因,比如是不是搜索方向錯了、工具調用混亂等等,診斷的同時也給出優(yōu)化建議。
復盤當然不能只找出問題,因此Anthropic還將這些失敗案例和改進方案,都投喂回系統(tǒng)中積累成經(jīng)驗,供未來的任務參考。
這又有點像我們人類的做法:我們不可能從不犯錯,但是出了問題能快速復盤、調整策略、避免再犯,Anthropic做的,就是把這種復盤機制移植到AI系統(tǒng)內部,讓AI團隊自己總結、自己成長。
如果說以前AI需要人類來發(fā)現(xiàn)錯誤并提供優(yōu)化,那這套自我優(yōu)化機制的意義在于:AI錯了也能自己發(fā)現(xiàn)、自己改進、積累成經(jīng)驗,避免下次別再錯。
2.兜底:檢查點機制(Regularcheckpoints)
由于在多智能體系統(tǒng)中,任務往往不是一步到位的,而是需要多個智能體接力完成,因此網(wǎng)易中間哪一環(huán)出了問題,很可能整個任務鏈路就卡住了。如果任務執(zhí)行一半出錯,系統(tǒng)全部重啟、從頭再跑一遍,這顯然不現(xiàn)實,尤其是在任務路徑很長、成本很高的多智能體系統(tǒng)中(后面我們會談及多智能體系統(tǒng)的成本問題)。
出錯一次,就重跑一次,效率低不說,還容易引發(fā)級聯(lián)故障。
Anthropic對此給出的思路是,引入類似“存檔”的機制,也就是檢查點機制。在任務的關鍵節(jié)點,主智能體會自動保存一次“系統(tǒng)狀態(tài)”,如果后續(xù)子任務失敗,系統(tǒng)就能從上一次成功的檢查點恢復,而不是“推倒重來”。
它的意義在于:大大提升了系統(tǒng)的容錯能力,讓多智能體系統(tǒng)在面對復雜、不確定任務時,也具備了抗風險能力。未來這種機制可能還會進一步演進,例如智能體能自主決定什么時候該“存檔”?哪個節(jié)點是“風險節(jié)點”要重點注意?這也是多智能體系統(tǒng)能夠穩(wěn)定運行的重要前提。
3.迭代:全鏈路Tracing日志(FullProductionTracing)
正常情況下,我們發(fā)現(xiàn)模型出現(xiàn)問題,只能知道response錯了,或者知道存在這一類badcase,無法深究,只有查看這些數(shù)據(jù)對應的鏈路,才能搞清楚到底是哪一步出了問題?
而在多智能體系統(tǒng)中,任務執(zhí)行鏈條更長、參與角色更多,一方面如果不記錄鏈路的全過程,后續(xù)復盤無從下手;另一方面由于智能體數(shù)量較多,如果發(fā)現(xiàn)了問題再找對應的鏈路查證,效率也較低。
因此Anthropic在系統(tǒng)中引入了一套全鏈路Tracing日志,用來記錄整個任務執(zhí)行過程。包括每個智能體接到的任務指令、調用了什么工具、工具的響應情況、智能體中間的判斷邏輯、輸出的內容、收到的反饋等等,全都記錄在案。
這相當于給每個智能體配了一臺工作記錄儀,把它做了什么、為什么這么做,都拍了下來。一旦出問題,主智能體或者運維人員就能回看工作錄像,迅速定位是哪一步?jīng)Q策偏了、哪個工具響應錯了、信息源是不是有誤,從而精準調優(yōu)。
而且這套日志系統(tǒng)不僅可以用于排查問題,也可以作為日常優(yōu)化的重要數(shù)據(jù)源。比如長期觀察某些工具的調用失敗率高,就說明它的描述或接口可能需要優(yōu)化。
因此全鏈路trace是支撐多智能體系統(tǒng)“可解釋、可優(yōu)化、可維護”的基礎設施。沒有它,系統(tǒng)復雜性一旦上升,就只能靠拍腦袋調試,效率低下還不穩(wěn)定。
4.漸進上線:漸進式部署策略(RainbowDeployment)
由于多智能體系統(tǒng)本身的構建就較為復雜,因此單個智能體一次很小的更新,在多智能體系統(tǒng)里可能引發(fā)“連環(huán)反應”。比如改了一個子智能體的PE結構,結果導致依賴它輸出的另一個智能體出現(xiàn)問題,整個鏈路報錯;或者你替換了一個工具接口,舊版本的調用邏輯不兼容。
Anthropic為了解決這個問題,引入了類似互聯(lián)網(wǎng)產品常用的漸進式部署策略(又譯作“彩虹部署”):新舊版本并行跑,先在小范圍測試新版的穩(wěn)定性,再逐步擴大范圍,直到全面切換,確保新版本的更新平穩(wěn)落地,不影響用戶體驗。
漸進式部署不僅讓更新更安全,也可以給我們更多試錯空間,我們可以放心地試驗新prompt、新鏈路的輸出效果,引入新開發(fā)的工具插件,也不必太擔心翻車造成太大的影響。
畢竟多智能體系統(tǒng),已經(jīng)不是單個的大模型,而更像一個具體的產品,所以更新策略要像產品一樣穩(wěn)扎穩(wěn)打,避免翻車。
5.現(xiàn)階段多智能體系統(tǒng)的缺陷
上面梳理了一些多智能體系統(tǒng)的原理、方法論和優(yōu)勢,難道多智能體就是AIAgent的版本答案?
并非如此,至少目前,這不算一個通用的、適用于絕大多數(shù)場景的解決方案。
原因主要有三個,首先就是:貴,真的太貴了。
Anthropic的統(tǒng)計數(shù)據(jù)顯示,多智能體系統(tǒng)的token消耗量,是普通chat的15倍。也就是原來一個任務花1塊錢,用多智能體系統(tǒng)要花15塊,而且這還只是算token的賬。如果再加上工具調用、子智能體并發(fā)調度這些操作層的資源開銷,整體成本會更高。
其次,多智能體系統(tǒng)并非在所有場景下,都能穩(wěn)穩(wěn)勝過單個智能體。
一些需要所有智能體共享上下文或涉及大量智能體之間依賴的領域,目前多智能體系統(tǒng)并不適用,具體而言就是代碼生成類任務,每一步都緊密關聯(lián)、一環(huán)扣一環(huán),分工反而容易亂套。而且現(xiàn)在的大模型,還不太擅長一邊協(xié)調任務、一邊并行完成,讓多個智能體同時在線合作,難度依然很大。第三個缺點,是多智能體調試的難度。
在前文中我們不斷提及Anthropic針對多智能體系統(tǒng)給出的解決方案,而一個系統(tǒng),值得Anthropic花一整篇工程博客、給出如此多的、針對性的解決方案,本身就已經(jīng)說明這個系統(tǒng),目前還是過于復雜。
因此,至少此時此刻,多智能體系統(tǒng)還遠遠不是一個適用于多數(shù)場景的解決方案,而是一個高成本、高產出、適用于高價值任務的解決方案,如果說搭建單個智能體是“輕工業(yè)”,那么搭建多智能體系統(tǒng)毫無疑問屬于門檻極高的“重工業(yè)”。
在當下,它可能更適合那些,能夠同時滿足那些價值量足夠高、場景適合多智能體協(xié)同工作、并且團隊具備復雜工程運維能力,三個條件的任務。
雖然適用范圍較窄,但Anthropic對多智能體的探索并非沒有意義,至少它給我們提供了另外一個視角:
過去我們在談Agent時,更多關注的是「能力」。而多智能體的方向,讓我們得以開始思考「組織」。當單個AI的能力逼近天花板,「組織」也成為一種提升AI能力的思路和方法。再往前走,也許就是多個AI之間的組織結構進化?
未來的AI組織,能不能像人類的公司一樣運轉?能不能像實現(xiàn)自調節(jié)?能不能自己組隊、定目標?
如果接下來真能走通這條路,那或許就是通向AGI的關鍵路徑之一。
這不一定是終點,也一定不是終點,但有可能指向下一個奇點
網(wǎng)游文:他化身成神,執(zhí)劍掌天下,登云破蒼穹,踏上霸者的征途
連續(xù)5年逆勢增長,西山居這款運營了15年的國產武俠MMO是如何做的
一千個人眼中有一千個劍俠江湖,《劍俠世界:起源》知名玩家訪談