夔翠琴
摘自Deep(Learning)Focus
作者:CameronR.Wolfe
機器之心編譯
在今年的世界人工智能大會(WAIC)上,智能體是絕對的主角,從C端產(chǎn)品到企業(yè)級應用,每家參展的AI廠商似乎都要提一下在智能體方向的布局。
這其實揭示了一個重要轉(zhuǎn)變:人們不再把AI大模型當成一個單純的聊天機器人,而是希望它能像人一樣主動思考、制定計劃、使用各種工具來完成任務,這是接下來大模型走向應用的重要方向。
看來,對于AI從業(yè)者來說,是時候系統(tǒng)了解一下「智能體」了。
剛好,我們找到了一篇寫得非常全面的博客。博客作者是Netflix高級研究科學家、萊斯大學博士CameronR.Wolfe。他從最基礎的LLM說起,逐步引入工具、推理、自主規(guī)劃的能力,深度分析了AI智能體的底層邏輯。
博客地址:https://cameronrwolfe.substack.com/p/ai-agents
以下是博客的詳細內(nèi)容。
LLM及其能力
標準LLM的輸入輸出特征
標準LLM的功能如上所示。給定一個文本提示,LLM生成一個文本響應。從許多方面來看,LLM的通用性是其最大的優(yōu)勢之一
這一部分將概述如何通過利用這種文本到文本的結(jié)構(gòu),將推理或與外部API交互等新能力集成到LLM中?,F(xiàn)代AI智能體的高級能力在很大程度上是建立在這一基礎功能之上的。
工具使用
隨著LLM逐漸變得更強大,如何快速教會它們集成并使用外部工具已成為AI研究中的熱門話題。舉些例子,計算器、日歷、搜索引擎、代碼解釋器等有用工具均可以與LLM集成。
簡單來說,LLM顯然并不是解決所有任務的最佳工具。在很多情況下,執(zhí)行任務都存在更簡單、更可靠的工具。但考慮到LLM在規(guī)劃和協(xié)調(diào)方面的優(yōu)勢,可以輕松地教會它們使用這些基本工具,并運用工具作為解決問題過程的一環(huán)。
LLM使用工具解決問題的基本思想,是賦予LLM將子任務提交給更專業(yè)或更強大的工具的能力。LLM充當「大腦/指揮官」,協(xié)調(diào)不同的專業(yè)工具協(xié)同工作。
1、針對工具使用的微調(diào)
早期的研究采用了針對性的微調(diào),教會LLM如何利用一系列固定的工具,只需精心調(diào)整訓練示例,將對某個工具的函數(shù)調(diào)用直接插入到LLM的token流中,如下圖所示。
大語言模型工具調(diào)用的結(jié)構(gòu)
在訓練過程中,這些工具調(diào)用與其他任何token類似——它們都只是文本序列的一部分。LLM在推理時(inferencetime)生成工具調(diào)用時,將按照以下步驟處理它:
1.停止生成token。
2.解析工具調(diào)用(即確定正在使用的工具及其參數(shù))。
3.使用這些參數(shù)調(diào)用該工具。
4.將工具返回的響應添加到LLM的token流中。
5.繼續(xù)生成token。
調(diào)用的工具可以在LLM生成輸出時實時處理,工具返回的信息將直接添加到模型的上下文中
2、基于提示的工具使用
教會LLM通過微調(diào)來調(diào)用工具通常需要一個大規(guī)模的訓練數(shù)據(jù)集,通常還需要人工注釋。隨著LLM能力的提升,后續(xù)的研究強調(diào)了基于上下文學習的方法來實現(xiàn)工具使用。
為什么我們要選擇對一個語言模型進行微調(diào),而不是簡單地在模型的提示詞中解釋可供使用的工具呢?
Hugginggpt與Gorilla工作將LLM與工具集成。
基于提示詞的工具使用減少了人工干預,使得我們能夠大幅增加LLM可訪問的工具數(shù)量。
例如,該領域的后續(xù)研究將LLM與數(shù)百個甚至數(shù)千個工具進行了集成,如上圖所示。為了實現(xiàn)這一點,可以將每個工具視為一個通用API,并在模型的提示中提供相關API的架構(gòu)作為上下文。這種方法使得LLM能夠通過標準化結(jié)構(gòu)與互聯(lián)網(wǎng)上的任意API進行集成,從而使得無數(shù)的應用成為可能。例如,查找信息、調(diào)用其他ML模型、預訂假期、管理日歷等。
3、模型上下文協(xié)議(Modelcontextprotocol,MCP)
MCP由Anthropic提出,是一個受歡迎的框架,擴展了讓LLM與任意工具互動的理念。
簡單來說,MCP將外部系統(tǒng)將上下文提供給LLM提示的格式進行了標準化。為了應對復雜問題,LLM需要隨著時間的推移集成更多的外部工具。為了簡化這個過程,MCP提出了一種標準格式,并允許開發(fā)者創(chuàng)建預先建立的集成(稱為MCP服務器),可以被任何LLM調(diào)用,以連接各種自定義數(shù)據(jù)源,如下圖所示。
MCP的整體架構(gòu)示意圖
4、工具使用的局限性
盡管工具使用具有強大的能力,但仍受到LLM推理能力的限制。為了有效地利用工具,LLM必須具備以下能力:
1.將復雜問題分解為較小的子任務。
2.確定應使用哪些工具來解決問題。
3.可靠地構(gòu)建對相關工具的調(diào)用,并確保格式正確。
復雜的工具使用要求LLM成為一個高效的指揮官,在很大程度上依賴于模型的推理能力和整體可靠性
推理模型
鑒于智能體特征與推理之間的關系,推理能力多年來一直是LLM研究的核心焦點。
有關當前推理研究的更深入概述,請參閱以下博客:
博客鏈接:https://cameronrwolfe.substack.com/p/demystifying-reasoning-models
為了本文完整性,我們將在這里簡要介紹推理模型背后的關鍵思想。
1、思維鏈(ChainofThought,CoT)
當LLM出現(xiàn)時,最常見的批評之一是這些模型無法執(zhí)行復雜的推理。然而,關于思維鏈(ChainofThought,CoT)的研究揭示了,普通的LLM實際上比我們最初意識到的更擅長推理。
CoT提示詞背后的思想很簡單。我們并不是直接請求LLM給出最終的輸出,而是要求它在給出最終輸出之前,先生成一個推理過程或解釋,如下圖所示。
這種方法通過引導LLM進行逐步推理,幫助其在解決問題時更加系統(tǒng)地展示思維過程,從而提升其推理能力。通過展示思維鏈,模型能夠更好地理解問題的各個方面,從而得出更為準確和合理的結(jié)論。
CoT提示詞使LLM輸出推理過程
有趣的是,這種方法顯著提高了普通LLM在推理任務中的表現(xiàn)。如果我們能找到正確的方法來引導這些能力,LLM實際上是能夠在一定程度上進行復雜推理的。
2、推理模型
CoT提示詞非常有效,是所有現(xiàn)代LLM的核心部分;例如,ChatGPT通常默認會在其回答中輸出CoT。
然而,這種推理方法也有些過于簡單。整個推理過程圍繞LLM生成的CoT展開,并且沒有根據(jù)待解決問題的復雜性進行動態(tài)調(diào)整。
最近的研究引入了新的訓練策略,創(chuàng)造了專門用于推理的LLM(即推理模型),例如DeepSeek。與標準LLM相比,這些模型在解決問題時采取不同的方式——它們在給出問題答案之前,會花費不定量的時間進行「思考」
DeepSeek引入新的思考方式
推理模型的思考過程與標準的思維鏈條類似,但推理模型的CoT通常比標準LLM的長得多(可以有數(shù)千個token),并且傾向于表現(xiàn)出復雜的推理行為(例如回溯和自我修正),還可以根據(jù)問題的難度動態(tài)調(diào)整——更難的問題需要更長的CoT。
使推理模型成為可能的關鍵進展是通過可驗證獎勵強化學習(ReinforcementLearningfromVerifiableRewards,RLVR)進行的大規(guī)模后訓練,如下圖所示。
如果我們擁有一個包含可驗證問題(例如數(shù)學或編程)標準答案的數(shù)據(jù)集,就可以簡單地檢查LLM生成的答案是否正確,并利用這一信號來通過強化學習訓練模型。推理模型自然就會通過強化學習驅(qū)動的自我進化來生成長思維鏈,以解決可驗證的推理問題。
RLVR工作原理概述
我們探索了LLM在沒有任何監(jiān)督數(shù)據(jù)的情況下發(fā)展推理能力的潛力,重點關注它們通過純強化學習過程實現(xiàn)自我進化。
3、推理軌跡
總之,通過使用RLVR進行大規(guī)模后訓練的推理模型,會改變標準LLM的行為,如下圖所示。
推理模型不是直接生成輸出,而是首先生成一個任意長度的思維鏈,該鏈分解并解決推理任務——這就是「思考」過程。我們可以通過控制推理軌跡的長度來改變模型思考的深度
例如,OpenAI的推理模型o系列提供了低、中、高三個不同級別的推理深度。
推理模型的輸入輸出特征
盡管模型在給定提示詞后仍然生成一個單一的輸出,但推理軌跡隱式地展示了多種高級行為;例如,規(guī)劃、回溯、監(jiān)控、評估等。
4、推理+智能體
一個足夠強大的LLM,能夠根據(jù)指令做出規(guī)劃并有效地對其指令進行推理,應該具備分解問題、解決子任務,并最終自行得出解決方案的完整能力。為LLM提供更多的自主性,并依賴它們的能力——而不是人工干預——來解決復雜問題,是智能體系統(tǒng)的核心思想
為了更清楚地說明智能體的概念,接下來將討論一個可以用來設計這類系統(tǒng)的框架。
ReAct框架
ReAct(REasoningandACTion)是第一個被提出的通用框架之一,旨在通過LLM智能體自主地分解并解決復雜問題
我們可以將ReAct視為一個由LLM驅(qū)動的順序的、多步的問題解決過程。在每一個時間步驟t,LLM整合任何可用的反饋,并考慮問題的當前狀態(tài),從而使其能夠有效地推理并選擇未來的最佳行動方案。
為智能體創(chuàng)建框架
在某個特定的時間步t,我們的智能體從環(huán)境中接收一個觀察值o_t?;谶@個觀察,智能體將決定采取某個行動a_t,這個行動可以是中間步驟——例如,通過搜索網(wǎng)絡來找到所需的數(shù)據(jù)——或者是解決當前問題的最終行動。
我們定義智能體用于生成這一行動的函數(shù)為策略π。該策略將上下文(智能體之前的行動和觀察的串聯(lián)列表)作為輸入,預測下一個行動a_t作為輸出,可以是確定性或者隨機性的。
如下圖所示,這個觀察與行動的循環(huán)將持續(xù)進行,直到智能體輸出最終行動。
智能體的觀察-行動循環(huán)
ReAct框架對上述觀察-行動循環(huán)進行了一個關鍵修改。其擴展了行動空間,允許語言作為行動的一種形式,這樣智能體就可以選擇生成文本輸出作為行動,而不是采取傳統(tǒng)的行動。
換句話說,智能體在輸出行動之外可以選擇「思考」
ReAct框架
顧名思義,ReAct的主要動機是找到推理與行動之間的平衡。類似于人類,智能體應該能夠思考并規(guī)劃它在環(huán)境中采取的行動,即推理與行動之間具有共生關系
智能體是如何思考的?
傳統(tǒng)的智能體行動空間是離散的,并且大多數(shù)情況下相對較小。例如,一個專門用于問答的智能體可能只有幾種行動選項:
*執(zhí)行Google搜索以檢索相關網(wǎng)頁。
*從特定網(wǎng)頁中抓取相關信息。
*返回最終答案。
智能體的行動空間示例
相比之下,語言的空間幾乎是無限的
因此,ReAct框架要求使用強大的語言模型作為基礎。為了生成對性能有益的有用思考,智能體系統(tǒng)的LLM后臺必須具備先進的推理和規(guī)劃能力。
1、思維模式
智能體可以生成的常見實用思維模式包括:分解任務、創(chuàng)建行動計劃、跟蹤進展,或僅僅輸出來自LLM隱式知識庫的(與解決問題相關的)信息。
智能體利用其思考能力明確描述問題解決方案,然后執(zhí)行計劃并同時監(jiān)控執(zhí)行情況。
在上述兩個例子中,智能體明確寫出了解決問題時需要執(zhí)行的下一步操作;例如,「接下來,我需要……」或「我需要搜索……」。
給ReAct智能體的少樣本示例
在大多數(shù)情況下,智能體產(chǎn)生的思考模仿了人類解決問題的過程
事實上,ReAct實驗通過提供任務解決軌跡的上下文示例(即,行動、思考和觀察)來指導智能體解決問題。這些上下文是人類用來解決類似問題的過程。以這種類型提示詞訓練的智能體更有可能采用與人類相似的推理過程。
我們讓語言模型自行決定思維和行動不同出現(xiàn)時機。
2、智能體在什么時候應當思考?
根據(jù)我們所解決的問題,ReAct框架可以進行不同的設置。
對于推理密集型任務,思考通常與行動交替進行——我們可以將智能體硬編碼,使其在每個行動之前生成一個單獨的思考。然而,智能體也可以被賦予自我判斷是否需要思考的能力。對于需要大量行動的任務(決策任務),智能體可能會選擇在其問題解決軌跡中較少地進行思考。
具體應用案例
在ReAct論文中,考慮了ReAct框架的兩個應用案例:
1.知識密集型推理:使用ReAct進行問答和事實驗證任務(例如,HotpotQA和FEVER)。
2.決策制定:將ReAct應用于交互式(基于語言的)決策任務;例如,ALFWorld用于模擬導航,WebShop用于完成自主購物任務。
1、知識密集型推理
在這個領域,LLM智能體只接收一個問題或命題作為輸入。為了回答問題或評估命題的正確性,LLM必須依賴于其內(nèi)部知識庫或從外部環(huán)境中檢索必要的信息。
具體來說,智能體的行動空間如下圖所示。
ReAct在知識密集型推理中的行動空間
在這里,我們看到作者通過智能體的行動空間暴露了基本的信息檢索功能——這反映了人類如何在Wikipedia上查找信息。
與傳統(tǒng)的LLM不同,ReAct智能體不會每次提示時只生成一個輸出。相反,智能體按以下順序生成輸出:
1.選擇一個要執(zhí)行的行動(可以是具體行動或思考)。
2.根據(jù)這個行動從環(huán)境中獲得反饋(例如,從搜索查詢中檢索到的信息)。
3.基于這個新的上下文繼續(xù)執(zhí)行下一個行動。
最終,智能體會執(zhí)行最終行動,以結(jié)束解決問題的過程。
如下圖所示,這個有狀態(tài)、有順序的問題解決方法是智能體的特征,顯著區(qū)分于標準LLM。
使用ReAct按順序解決問題
2、決策制定
在決策制定任務中,ReAct的設置與知識密集型推理任務非常相似。對于這兩種任務,人工手動注釋了多個推理軌跡,這些軌跡作為上下文示例提供給ReAct智能體。
然而,與知識密集型推理任務不同,ReAct在決策制定任務中使用的思維模式是稀疏的——模型在何時以及如何進行思考時要自主判斷。
此外,對于WebShop數(shù)據(jù)集,ReAct智能體提供了更多種類的工具和行動選項;例如,搜索、篩選、選擇產(chǎn)品、選擇產(chǎn)品屬性、購買產(chǎn)品等。這個應用為ReAct與更復雜環(huán)境的交互提供了一個很好的測試場景。
3、ReAct表現(xiàn)如何?
上面描述的ReAct智能體與幾個基準模型進行了比較:
Prompting:少量示例提示,去除思維、行動和觀察,只留下問題和答案。CoTPrompting:與上述相同,但模型被提示在輸出最終解決方案之前生成一條思維鏈。Act(僅行動):從ReAct軌跡中去除思維,僅保留觀察和行動。Imitation(模仿):通過模仿和/或強化學習訓練的智能體,模擬人類的推理軌跡。
如下圖所示,ReAct框架始終優(yōu)于Act,揭示了智能體在行動時進行思考的能力是極其重要的。進一步來看,我們發(fā)現(xiàn)CoT提示是一個強大的基準,在某些情況下超過了ReAct的表現(xiàn),但在LLM容易發(fā)生幻覺的場景中表現(xiàn)不佳,而ReAct能夠利用外部信息源避免這些幻覺的產(chǎn)生。
最后,我們看到ReAct智能體的性能仍有很大提升空間。事實上,ReAct探討的智能體系統(tǒng)相當脆弱;例如,作者指出,僅僅檢索到了無信息量的信息就可能導致失敗。
ReAct框架的表現(xiàn)
4、ReAct+CoT
ReAct在解決問題的過程中是客觀實際的。CoT提示在制定解決復雜推理任務的結(jié)構(gòu)方面表現(xiàn)出色。ReAct將嚴格的觀察、思維和行動結(jié)構(gòu)強加于智能體的推理軌跡上,而CoT則在制定推理過程時具有更多的靈活性。
為了同時獲得兩種方法的優(yōu)點,我們可以在它們之間進行切換。
例如,如果ReAct在N步后未能返回答案,可以默認切換到CoT提示(即ReAct→CoT);或者,如果多個CoT樣本之間存在分歧,則使用ReAct(即CoT→ReAct)。
無論是向ReAct還是向CoT切換,都能提升智能體的解決問題能力
先前對智能體的嘗試
盡管ReAct可以說是第一個長期存在的AI智能體框架,但在智能體領域之前已有許多有影響力的論文和想法。這里將簡要概述一些關鍵的方法以及它們的性能。
1、Innermonologue,IM
這是與ReAct最為相似的工作之一,并應用于機器人領域,展示了將LLM作為一個通用問題解決工具在自然語言以外的領域中的可行性。
如圖所示,IM將LLM與多個領域特定的反饋機制,如場景描述符或成功檢測器,進行集成。與ReAct相似,LLM用于生成計劃并通過反復執(zhí)行、思考以及從外部環(huán)境獲取反饋來監(jiān)控任務的解決,例如拾取物體等。
IM工作示意圖
然而,相較于ReAct,LLM在IM中的「思考」能力是有限的,模型只能觀察來自環(huán)境的反饋并決定接下來需要做什么。ReAct通過賦予智能體輸出大量自由形式的思維,解決了這個問題。
2、用于互動決策的LLM(LID)
它使用語言作為規(guī)劃和行動的通用媒介,通過提出一個基于語言的框架來解決有序的問題。
我們可以將各種任務的上下文和行動空間表述為一系列tokens,從而將任意任務轉(zhuǎn)換為與LLM兼容的標準化格式。然后,這些數(shù)據(jù)可以被LLM吸收,允許強大的基礎模型整合來自環(huán)境的反饋并做出決策,如圖所示。作者通過模仿學習對LID進行微調(diào),以正確預測跨多個領域的行動。
LID工作示意圖
3、WebGPT
它探索了將LLM(GPT-3)與基于文本的網(wǎng)頁瀏覽器集成,以更有效地回答問題。這項工作是工具使用的早期開創(chuàng)者,教會LLM如何進行開放式搜索和瀏覽網(wǎng)頁。
然而,WebGPT通過大量來自人類的任務解決方案數(shù)據(jù)集進行微調(diào)(即行為克隆或模仿學習)。因此,盡管這個系統(tǒng)表現(xiàn)出色(在超過50%的情況下產(chǎn)生的答案優(yōu)于人類),但需要大量的人工干預。
盡管如此,使用人類反饋微調(diào)LLM智能體仍然是今天的熱門研究話題,而WebGPT是這一領域的基礎性工作。
WebGPT工作示意圖
4、Gato
它受到LLM廣泛能力的啟發(fā),是一個單一的「通用」智能體,能夠在多個模態(tài)、任務和領域中執(zhí)行操作。
例如,Gato可以用于玩Atari游戲、圖像描述、操控機器人手臂等。如報告中所述,Gato能夠「根據(jù)上下文決定是輸出文本、關節(jié)扭矩、按鈕按壓,還是其他標記」。該模型確實朝著創(chuàng)建一個能夠解決幾乎任何問題的自主系統(tǒng)的目標邁進。
然而,類似于WebGPT,Gato是通過模仿學習方法進行訓練的,收集了一個龐大的數(shù)據(jù)集,包含了多個問題場景中的上下文和行動——所有這些都表示為token序列。
Gato工作示意圖
5、通過規(guī)劃進行推理(RAP)
這種方法旨在賦予LLM更好的世界模型以提高LLM規(guī)劃復雜、多步驟問題解決方案的能力。
特別地,LLM用于構(gòu)建一個推理樹,可以通過蒙特卡洛樹搜索(MCTS)來探索,以找到能夠獲得高獎勵的解決方案。在這里,LLM本身也被用來評估解決方案。在RAP中,LLM既充當智能體,又充當世界模型。
RAP工作示意圖
更全面地了解LLM推理與智能體系統(tǒng)交叉的研究,請參閱這篇綜述。
論文鏈接:https://arxiv.org/abs/2504.09037
什么是「智能體」?
基于語言模型的智能體的起點,最簡單的理解,就是使用工具的語言模型。從這里開始,智能體的復雜性逐漸增加?!狽athanLambert
盡管智能體在行業(yè)中非常流行,但它們并沒有明確的定義。智能體定義不清晰的原因在于,我們在今天的世界中遇到各種不同類型的智能體,這些智能體在復雜性上有很大的差異
從高層次來看,智能體的功能在某些情況下可能與LLM類似,但智能體通常具有更廣泛的策略和工具可用于解決問題。
基于我們到目前為止所學的信息,接下來將創(chuàng)建一個框架,用于理解AI智能體可能擁有的能力范圍,以及這些能力與標準LLM的區(qū)別。
從大語言模型到智能體
前文介紹了多種概念,包括:
i)標準LLMii)工具使用iii)推理模型,以及iv)自主解決問題的系統(tǒng)。
從LLM的標準定義開始,我們將解釋這些概念如何在標準LLM的能力之上,創(chuàng)造出具有更多智能體性質(zhì)的系統(tǒng)。
1、[Level0]標準LLM
作為起點,我們可以考慮標準的LLM設置(如上圖所示),該設置接收文本提示作為輸入,并生成文本響應作為輸出。為了解決問題,該系統(tǒng)完全依賴于LLM的內(nèi)部知識庫,而不引入外部系統(tǒng)或?qū)栴}解決過程施加任何結(jié)構(gòu)。
為了更好地解決復雜的推理問題,我們還可以使用推理風格的LLM或CoT提示方法來引導推理軌跡,如下圖所示。
2、[Level1]工具使用
依賴LLM的內(nèi)部知識庫存在風險——LLM有知識截止日期,并且會產(chǎn)生幻覺。
為了解決這個問題,LLM可以通過將子任務的解決委托給更專業(yè)的系統(tǒng)來更強大地解決問題,如下圖所示。
3、[Level2]問題分解
期望LLM在單一步驟中解決復雜問題可能是不現(xiàn)實的。相反,我們可以創(chuàng)建一個框架,規(guī)劃問題應該如何解決,并迭代地推導解決方案。
這樣的LLM系統(tǒng)可以是手工設計的,也可以通過使用像ReAct這樣的框架來設計,如下圖所示。
當然,使用LLM分解和解決復雜問題的問題與工具使用和推理密切相關。在整個問題解決過程中,LLM可能依賴于各種工具,而推理能力對于制定詳細且正確的解決問題計劃至關重要。
進一步說,這種以LLM為中心的問題解決方法引入了推理過程中的控制流概念——智能體的輸出是有序構(gòu)建的,智能體有狀態(tài)地通過一系列問題解決步驟,逐步完成推理。
4、[Level3]增加自主性
上述框架概述了今天AI智能體的主要功能。然而,我們還可以通過賦予系統(tǒng)更高的自主性,使其變得更強大。例如,我們可以在智能體的行動空間中加入代表我們采取具體行動的能力(例如,購買物品、發(fā)送電子郵件或提交拉取請求)。
智能體是任何能夠感知其環(huán)境并對該環(huán)境采取行動的事物……這意味著,智能體的特征由其操作的環(huán)境和它能夠執(zhí)行的行動集來定義?!狢hipHuyen
到目前為止,我們所概述的智能體始終以人類用戶的提示作為輸入。這些智能體只有在人類用戶觸發(fā)的提示下才會采取行動。然而,情況并不一定非得如此。我們可以構(gòu)建持續(xù)在后臺運行的智能體
例如,已經(jīng)有很多關于開放式計算機使用智能體的研究,OpenAI宣布了Codex——一個基于云的軟件工程智能體,它可以并行處理多個任務,甚至具備自主向代碼庫提交PR的能力。
5、AI智能體體系
結(jié)合我們在本概述中討論的所有概念,我們可以創(chuàng)建一個智能體系統(tǒng),該系統(tǒng):
在沒有任何人工輸入的情況下異步運行。使用推理LLM制定解決復雜任務的計劃。使用標準LLM生成基本思維或綜合信息。代表我們在外部世界采取行動(例如,預訂機票或?qū)⑹录砑拥饺諝v中)。通過搜索API(或任何其他工具)獲取最新信息。
每種類型的LLM以及任何其他工具或模型都有其優(yōu)缺點。這些組件為智能體系統(tǒng)提供了許多在不同問題解決方面有用的能力。智能體系統(tǒng)的關鍵在于以無縫和可靠的方式協(xié)調(diào)這些組件。
AI智能體的未來
盡管AI智能體非常流行,但在這個領域的工作都處于起步階段。智能體通過順序的問題解決過程來運作。如果這個過程中任何一步出錯,智能體就很可能會失敗。
去年,你說制約[智能體]發(fā)展的因素是另外九成的可靠性……你依然會描述這些軟件智能體無法完成一整天的工作,但是它們能夠在幾分鐘內(nèi)幫你解決一些問題?!狣warkeshPodcast
因此,可靠性是構(gòu)建有效智能體系統(tǒng)的前提,尤其是在復雜環(huán)境中。換句話說,構(gòu)建穩(wěn)健的智能體系統(tǒng)將需要創(chuàng)造具有更高可靠性的LLM。
無論是LLM還是智能體系統(tǒng),進展都在迅速推進。最近的研究特別集中在有效評估智能體、創(chuàng)建多智能體系統(tǒng)以及微調(diào)智能體系統(tǒng)以提高在特定領域中的可靠性。
鑒于該領域的研究進展速度,我們很可能會在不久的將來看到這些智能體系統(tǒng)在能力和通用性方面的顯著提升。
5本扮豬吃老虎小說,主角修逆天神通,斬強者,滅王者,誅圣者
自己的親生兒子被仇人當著他的面,奪了氣運,破了根骨,而自身卻是無能為力,可以想象,那對任何一位父親而言,恐怕都是一種恥辱|。《萬古圣王》也不敵它,一部神作強勢來襲,高評分橫掃玄幻榜單!今天的小說推薦就到這啦,不知道大家喜不喜歡呢?如果對這些小說感興趣可以點擊閱讀卡片收藏,喜歡本篇文章的話記得是什么——。
《萬古圣王》剛火就被這本小說蓋過風頭,9.7分傲立玄幻之巔!
第一本:《萬古圣王》——君落花小說精彩片段:一道道閃電像銀蛇一般撕破昏暗的天空-——。轟鳴的雷聲不絕于耳,瓢潑大雨洗刷著這片大地——-。圣武學宮,天極山。四五個外門弟子看著雨水中不斷掙扎的少年,心里惶惶不安——。他們也沒有想到一個真武境四重的弟子竟然這么不經(jīng)打,現(xiàn)在這個樣子,讓他們手足無措,因為打死同門會到此結(jié)束了?_——。
亂這本書火了,吊打《元尊》超越《萬古圣王》被老書迷熱愛!
內(nèi)容摘要:擊敗《萬古圣王》,完虐《大主宰》,第一本巔峰神作,百讀不厭!就連王家小妹都忍不住心里醋意大發(fā),她在家里這么久,都沒怎么享受過這種待遇?!暗?,不管,我也要!”王家小妹氣鼓鼓的,把自己的大碗一推,推到了王父面前?!澳阋粋€女孩子家家,像什么樣子!”王父板著臉,說得王家小妹委屈不已是什么_-。
來源:紅網(wǎng)
作者:藍雅逸
編輯:夏又嬌
本文為紅辣椒評論 原創(chuàng)文章,僅系作者個人觀點,不代表紅網(wǎng)立場。轉(zhuǎn)載請附原文出處鏈接和本聲明。