大語言模型不止靠參數“大”,更靠“上下文”聰明。本文系統(tǒng)性拆解上下文工程的設計邏輯與調用策略,從提示構造、狀態(tài)保持到信息注入,揭示當下LLM開發(fā)正從模型調參,走向“上下文編排”的工程新范式。
論文導讀:
《ASurveyofContextEngineeringforLargeLanguageModels》(大型語言模型上下文工程綜述)是一篇非常全面的學術論文,提出[上下文工程]這一全新的概念來統(tǒng)一我們與AI交互的各種高級方法。
本文將為你拆解這篇論文的結構,并用通俗易懂的方式把它“教”給你,希望可以從中獲得啟發(fā),幫我們更好的構建設計自己的AI產品。
總結一下,這篇論文對AI產品經理的整體啟發(fā)是:
我們的角色正在從一個“功能設計師”演變?yōu)橐粋€“AI系統(tǒng)架構師”和“信息生態(tài)的構建者”。需要用更宏觀、更系統(tǒng)的視角去思考產品的形態(tài)、價值和邊界,交付物將從“需求文檔”擴展為包含上下文策略、處理規(guī)范和多維度評估體系的“產品白皮書”。
核心思想:從“提示工程”到“上下文工程”
你可能很熟悉“提示詞工程”(PromptEngineering)。你可以給大模型下達一個具體的指令。比如:“請幫我總結一下這份報告?!?/p>
但這篇論文說,我們現在與AI的交互已經遠遠超出了“下達一個指令”的范疇。我們不再只是給AI一個簡單的文本提示,而是為它構建了一個完整的信息生態(tài)系統(tǒng)。
舉個例子:
1)提示工程:給實習生一張寫著任務的便條。
2)上下文工程:為這位實習生配備一個完整的辦公室!這包括:
一個圖書館(外部知識庫,比如維基百科或公司內部文檔)。
一部可以隨時上網的手機(外部工具,比如搜索引擎、計算器)。
一個記憶筆記本(長期和短期記憶系統(tǒng))。
一本工作手冊(系統(tǒng)指令和規(guī)則)。
甚至一個可以協(xié)同工作的團隊(其他AI智能體)。
“上下文工程”(ContextEngineering)就是這篇論文提出的核心概念:它是一門研究如何系統(tǒng)性地設計、管理和優(yōu)化所有這些提供給AI的“信息裝備”,從而讓AI發(fā)揮出最大潛能的正式學科。
論文的整體結構:四步走
這篇論文把“上下文工程”分成了四個主要部分,循序漸進:
第一部分:基礎組件(FoundationalComponents)–AI辦公室里的“基礎設備”是什么,以及如何準備它們。
第二部分:系統(tǒng)實現(SystemImplementations)–如何把這些基礎設備組裝成強大的“高級工作站”。
第三部分:評估(Evaluation)–如何衡量這位裝備齊全的“超級實習生”工作得好不好。
第四部分:未來方向(FutureDirections)–這門科學未來會遇到哪些挑戰(zhàn),又有哪些激動人心的可能性。
第一部分:基礎組件(TheBuildingBlocks)
這一部分是上下文工程的基石,它探討了我們?yōu)锳I準備信息時要做的三件核心事情:
獲取信息、處理信息、管理信息。
1.上下文的檢索與生成(ContextRetrievalandGeneration)–“尋找和準備材料”
這是第一步,確保AI有正確的材料來完成任務。它包括三個方面:
提示工程與上下文生成:這是我們最熟悉的領域,即如何寫出清晰、有效的指令。論文提到了一些高級技巧,比如“思維鏈”(Chain-of-Thought),就是教AI像人一樣“一步一步地思考”,而不是直接給出答案。后來還發(fā)展出了更復雜的“思維樹”(Tree-of-Thoughts)和“思維圖”(Graph-of-Thoughts),讓AI能夠探索多種推理路徑,就像畫思維導圖一樣。
外部知識檢索:AI模型內部的知識是有限的,而且可能過時。這一步就是讓AI能夠從外部獲取最新的、特定的知識。最核心的技術叫做檢索增強生成(RAG),你可以理解為AI在回答問題前,先去一個巨大的數據庫(比如百度百科)里搜索相關的資料,然后結合這些資料來生成答案。
動態(tài)上下文組裝:把上面獲取到的所有信息(指令、外部知識、用戶問題等)巧妙地組合在一起,形成一個最終的、最優(yōu)化的“信息包”喂給AI。
2.上下文處理(ContextProcessing)–“編輯和整理材料”
拿到了原始材料后,還需要進行處理,讓它們更容易被AI理解和使用。
長上下文處理:AI的“注意力”是有限的,一次能處理的信息長度(即“上下文窗口”)有限。當面對一本很厚的書或一份超長的報告時,AI很容易“讀到后面忘了前面”,這被稱為“迷失在中間”現象(lost-in-the-middle)。這個領域的研究就是為了解決這個問題,比如通過架構創(chuàng)新或優(yōu)化注意力機制,讓AI能處理上百萬字的超長文本。
上下文自我優(yōu)化和適應:讓AI變得更“聰明”,能夠自己檢查和修改自己的答案。比如“Self-Refine”框架,就是讓AI生成答案后,自己扮演批評家的角色,提出修改意見,然后再根據意見進行修改,如此循環(huán),直到答案變得更好。
多模態(tài)及結構化上下文:除了純文本,AI還需要理解圖片、音頻、視頻,甚至是表格和知識圖譜這樣的結構化數據。這個部分就是研究如何將這些不同類型的信息轉換并整合到AI的上下文中。
3.上下文管理(ContextManagement)–“歸檔和壓縮材料”
AI的“辦公桌”(上下文窗口)是有限的,所以必須高效地管理信息。
基本約束:首先要認識到AI有“上下文窗口大小”這個根本限制,它既影響性能,也帶來巨大的計算成本。
記憶層次與存儲架構:為AI建立像電腦一樣的記憶系統(tǒng),分為快速讀取但容量小的“短期記憶”(在上下文窗口內)和容量大但讀取稍慢的“長期記憶”(存儲在外部數據庫中)。
上下文壓縮:顧名思義,就是把信息“壓縮”一下,用更少的文字表達同樣多的信息,這樣就能在有限的“辦公桌”上放下更多東西。
第二部分:系統(tǒng)實現(SystemImplementations)
學習了基礎組件后,這一部分將展示如何將它們組裝成先進的AI系統(tǒng),真正解決現實世界的問題。
1.檢索增強生成系統(tǒng)(RAG)–“為AI配一個超級圖書館”
這是最主流的應用之一,核心是連接外部知識。
模塊化RAG:把RAG系統(tǒng)設計得像樂高積木一樣,可以靈活地替換和組合不同的檢索、生成模塊,以適應不同任務。
智能體RAG(AgenticRAG):這是一種更高級的RAG。普通的RAG是被動地“先搜后答”,而AgenticRAG中的AI會像一個偵探一樣,主動思考“我需要什么信息?”、“我應該去哪里搜?”,然后自主地執(zhí)行檢索操作。
圖增強RAG:使用“知識圖譜”這種網絡狀的結構化知識來代替純文本數據庫。這樣做的好處是信息之間的關聯性更強,AI可以進行更復雜的“多跳推理”,比如從“A認識B”和“B認識C”推斷出A和C的間接關系。
2.記憶系統(tǒng)(MemorySystems)–“為AI裝上大腦”
這個系統(tǒng)致力于解決AI“健忘”的問題,讓它能記住過去的對話和經驗。通過構建短期和長期記憶機制,AI可以進行持續(xù)性的、個性化的互動,而不會在每次對話時都像一個“失憶的陌生人”。
3.工具集成推理(Tool-IntegratedReasoning)–“為AI配一個工具箱”
這讓AI不再只是一個“聊天機器人”,而是一個可以與世界互動的“行動者”。
函數調用(FunctionCalling):這是實現工具集成的核心機制。AI可以生成一段特定格式的指令(比如JSON),來調用外部的應用程序接口(API),比如查詢天氣、訂機票、控制智能家居等。這標志著AI從一個“文本生成器”向一個“世界交互器”的轉變。
4.多智能體系統(tǒng)(Multi-AgentSystems)–“為AI組建一個團隊”
這是目前最前沿、最復雜的系統(tǒng)。它不是讓一個AI單打獨斗,而是讓多個擁有不同專長和角色的AI智能體協(xié)同工作,解決單個AI無法完成的復雜任務。
通信協(xié)議:為了讓AI們能夠有效溝通,需要制定一套統(tǒng)一的“語言”和“規(guī)則”,就像人類開會需要遵循議程一樣。
編排機制(Orchestration):需要一個“項目經理”角色的AI來分解任務、分配工作、協(xié)調進度,確保整個團隊高效運作。
第三部分:評估(Evaluation)
有了這些強大的系統(tǒng),我們如何客觀地評價它的好壞?這是一個巨大的挑戰(zhàn)。傳統(tǒng)的AI評估指標(如準確率)已經不夠用了。
評估的復雜性:我們需要評估的不再是單一任務的成敗,而是整個系統(tǒng)的推理過程、工具使用是否合理、記憶是否準確、團隊協(xié)作是否高效。
新的評估基準:論文提到了一系列新的、更貼近現實世界的評估基準(Benchmarks),比如WebArena(評估AI操作網頁的能力)、GAIA(評估通用AI助手的能力)等。
性能差距:評估結果顯示,盡管這些系統(tǒng)很強大,但在許多真實世界的復雜任務上,它們與人類的表現仍有巨大差距。
第四部分:未來方向與結論
最后,論文展望了未來,并指出了一個核心的、根本性的挑戰(zhàn)。
最大的挑戰(zhàn):理解與生成的不對稱性(Comprehension-GenerationAsymmetry)
這是整篇論文最深刻的洞見之一,論文指出,當前的AI模型,在先進的上下文工程加持下,理解復雜信息的能力非常強(比如讀懂一份上千頁的財報),但生成同樣復雜的長篇輸出的能力卻非常有限(比如讓它自己寫一份上千頁的、邏輯嚴密、事實準確的財報)。這個“理解強,生成弱”的不對稱性,是未來研究需要攻克的關鍵難題。
結論
“上下文工程”將AI研究的焦點從簡單地“設計提示詞”轉向了系統(tǒng)性地“設計信息后勤系統(tǒng)”。它提供了一個統(tǒng)一的框架,幫助我們理解和構建下一代更強大、更可靠、更能解決實際問題的AI系統(tǒng)。
啟發(fā)
未來AI產品經理的工作,將從傳統(tǒng)的“功能設計”系統(tǒng)性地轉向“上下文生態(tài)設計”。這篇論文可以被看作是下一代AI產品經理的“工作手冊”。
核心職責的轉變:從定義“功能”到定義“上下文”
過去,PM定義的是“用戶點擊這個按鈕會發(fā)生什么”?,F在,PM的核心工作之一是定義AI完成任務所需的完整“信息裝備”。
定義上下文的構成要素:PM需要像設計產品功能列表一樣,設計產品的“上下文清單”。這包括:
系統(tǒng)指令:產品的核心定位、行為準則和個性是什么?
外部知識:產品需要連接哪些數據庫或知識庫?是需要實時新聞,還是公司內部的保密文檔?
可用工具:產品需要具備哪些“超能力”?是需要調用計算器、搜索引擎,還是接入公司內部的審批API?
記憶:產品需要“記住”用戶多久?是僅限于單次對話的短期記憶,還是需要跨越數周乃至數月的長期個性化記憶?這對用戶體驗至關重要。
動態(tài)狀態(tài):產品需要感知哪些動態(tài)變化?比如用戶的情緒狀態(tài)、團隊協(xié)作
衡量標準的重塑:從“功能可用”到“系統(tǒng)可靠”
論文用整整一章(第6章)來探討“評估”(Evaluation)的復雜性,這對PM如何定義產品成功至關重要。
定義更復雜的KPIs:過去,PM可能只關心功能的點擊率或任務成功率?,F在,需要定義更深層次的、面向過程的指標。論文指出,評估需要深入到組件層面和系統(tǒng)層面。例如:
檢索質量:RAG系統(tǒng)檢索到的信息相關性、準確性如何?
工具使用效率:AI是否在最合適的時機調用了最合適的工具?
記憶保真度:AI的長期記憶是否會出錯或“遺忘”關鍵信息?
協(xié)作效率:在多智能體系統(tǒng)中,AI之間的溝通成本和協(xié)作效果如何
我們的角色正在從一個“功能設計師”演變?yōu)橐粋€“AI系統(tǒng)架構師”和“信息生態(tài)的構建者”。需要用更宏觀、更系統(tǒng)的視角去思考產品的形態(tài)、價值和邊界,交付物將從“需求文檔”擴展為包含上下文策略、處理規(guī)范和多維度評估體系的“產品白皮書”。
校園甜文:“畢業(yè)了跟我出國吧!”“干嘛去?”“18歲能領證了!”
所以今天小編就給大家強力推薦校園甜文:”畢業(yè)了跟我出國吧!“”干嘛去?quot;"18歲能領證了!“《重生之天才少女》作者:檐若文案:一餐飯過后,姚根明想要跟葉子晴兩個人單獨的聊上一聊|——。羅凡便在外面等著葉子晴了_。葉子晴端著茶杯,靜靜的品嘗_。姚根明一笑,“喝的出來是什么茶嗎?”葉子晴放下手中的茶杯,“上品大紅袍!”還有呢? 2.《重生之天才少女》作者:蘇喏蘇卡樂看著桌子上面的那條閃閃發(fā)光的項鏈,緊緊的將項鏈握在了自己的手中,但是心里對言亦烯的恨依舊沒有減少,就算他將項鏈這樣的送來給了自己,那么又怎么樣呢?3.《重生校園:天后攻略》作者:純櫻由于隔壁兩家都想要擴建,極有眼光的李潔心一拍板,干脆把兩戶人家都請來了好了吧!5本現代女主重生文,女主堅強勇敢,重生后努力改變前世的結局!