吳婉菁
近日,螞蟻集團知識引擎團隊協(xié)同浙江大學、同濟大學正式發(fā)布了其在結構化推理領域的最新成果——KAG-Thinker模型,該模型是KAG框架的重要迭代升級,聚焦于為通用或專業(yè)領域復雜推理任務構建穩(wěn)定、可解釋的思考范式。
2025年以來,OpenAI推出的DeepResearch展示了大模型在復雜推理任務中多輪檢索、規(guī)劃推理的強大能力。隨后,產學界涌現了較多以模型為中心(Model-Centric)的方法,比如Search-R1、ReSearch等。它們的核心思路是,通過強化學習讓模型自己“學會”如何檢索和利用外部知識,從而讓小模型也能像專家一樣“思考”。然而,這些基于自然語言的推理方法就像讓模型“自由發(fā)揮”,推理不嚴謹、過程不穩(wěn)定等問題依然突出。而人類專家解決復雜問題時,往往采用結構化的思考方法,把原始問題拆解成多個可獨立驗證的小問題,并依次求解。受此啟發(fā),研究團隊提出了KAG-Thinker,為模型的思考過程建立一套清晰、分層的“腳手架”,從而提升復雜任務中推理過程的邏輯性與穩(wěn)定性。
該模型延續(xù)了KAG框架LogicalForm自然語言與邏輯函數雙語義表示機制,以更好地利用結構化知識;并通過廣度拆分與深度求解相結合的方式,提升問題求解的嚴謹性;同時引入以知識點對齊為中心的知識邊界判定機制,以充分利用大模型參數化知識與外部形式化知識,并借助內容抗噪模塊降低檢索信息噪聲,增強檢索內容的可信度。
視頻1KAG-Thinker與KAG框架集成,「結構化思考」引導的「深度推理」問答產品示例
最終,研究團隊將上述策略集成于一個支持多輪迭代與深度推理的統(tǒng)一架構中,通過監(jiān)督微調方法訓練出KAG-Thinker7B通用模型。
實驗結果顯示,在7個單跳和多跳推理數據集上,其性能相較使用強化學習Search-R1、ZeroSearch、ReSearch等SOTA深度搜索方法平均提升了4.1%。與KAG框架集成后在多跳推理任務上超越HippoRAGV2、PIKE-RAG等In-ContextLearning(以Qwen2.5-72B為基模)方法。此外,模型也在醫(yī)療問答任務中驗證了其在專業(yè)領域中的有效性。其他專業(yè)領域的精細化定制,可以參考其在醫(yī)療問答上的應用及表現。
圖1KAG-Thinker語料合成和模型訓練過程概覽
模型方法
模型的架構如下圖所示。模型的核心內容包括:
圖2復雜問題求解概覽圖
廣度拆分+深度求解:應對復雜決策任務
復雜多跳問題通常需拆分為多個簡單子問題,以更高效地利用外部知識庫進行求解,KAG-Thinker提出了一種「廣度拆分+深度求解」的方法(詳見圖2):
廣度拆分:將原始問題分解為若干原子問題,各子問題間保持邏輯依賴關系,確保拆分的準確性。每個原子問題由一個LogicalForm算子表示。每個LogicalForm具備雙重表示形式——自然語言描述(Step)與邏輯表達式(Action),二者語義一致。
深度求解:針對需要檢索(Retrieval)的子問題,進行深入求解,以獲取充足的外部知識保障答案準確。在檢索前,模型會先執(zhí)行知識邊界判定:若判斷當前大模型自身知識已足夠回答該子問題,則跳過檢索;否則繼續(xù)深度求解。
知識邊界判定:充分利用LLM參數化知識
為充分利用大模型的參數化知識、減少不必要的檢索任務,KAG-Thinker以知識點(如實體、事件)為中心定義Retrieval子任務,并通過SPO三元組限定檢索粒度,以此為基礎判斷大模型與外部知識庫的邊界。
知識邊界判定任務是一個無監(jiān)督過程:首先讓大模型直接作答子問題,再由其判斷該答案是否為真實答案。此過程生成兩個標簽:
自然語言輸出的判斷結果(True/False);
答案首次出現時對應token的概率,若低于設定閾值則標記為False,否則為True。
僅當兩個標簽均為True時,才認為大模型自身知識足以回答該子問題,無需額外檢索,可直接采用其生成的答案。
圖3知識邊界判定
檢索內容抗噪:提升檢索內容的可信度
對于必須檢索的子問題,Thinker需要判斷當前檢索結果是否能求解出對應子問題。然而,不同檢索器檢索的內容參差不齊,尤其是網頁檢索得到的內容。
為了更好的分析檢索結果,檢索抗噪模塊會分析每篇檢索回來的文章與當前子問題的關系,去掉一些無關內容,再從剩余內容從中提取一些核心信息,作為直接給出子問題的答案還是繼續(xù)進行深度檢索的依據。
LogicalForm求解器
在廣度拆分和深度求解時,Thinker沿用KAG框架中定義的4種LogicalForm求解器。每種LogicalForm算子的定義如圖4所示。Retrieval主要解決檢索類的問題,Deduce和Math主要解決推理分析類問題,Output主要用于答案匯總。
實驗結果
單跳和多跳問答
為了評估模型的效果,研究團隊選了7個通用的單跳和多跳推理數據集,并使用相同的檢索器(E5-base-v2),Baseline選擇了最新的ReSearch、Search-R1、ZeroSearch和StepSearch等。并沿用這些Baseline方法的評價指標(EM)。為了使用相同的檢索器,只使用LogicalForm表示中的Step中的純自然語言的內容。整體實驗效果如表1所示。
與無檢索基線相比,Thinker模型的平均性能比NaiveGeneration和CoT分別高出27.1%和34.6%。
與檢索增強方法相比,Thinker模型的平均性能比Search-o1、IRCoT和NaiveRAG分別高出24.6%、22.6%和14.8%。
與基于強化學習的方法相比,Thinker模型比SOTA模型ReSearch高出4.1%。
具體而言,在單跳數據集中平均提升了4.5%,在多跳數據集中平均提升了3.9%。主要原因是,知識點粒度的檢索任務拆解降低了檢索的復雜性。
表1不同模型(基座模型Qwen2.5-7B-Instruct)在不同數據集上的EM性能
KAG框架升級
KAGV0.8升級了知識庫的能力。擴展了私域知識庫(含結構化、非結構化數據)、公網知識庫兩種模式,支持通過MCP協(xié)議引入LBS、WebSearch等公網數據源。此外,升級了私域知識庫索引管理的能力,內置Outline、Summary、KnowledgeUnit、AtomicQuery、Chunk、Table等多種基礎索引類型,支持開發(fā)者自定義索引&產品端聯動的能力(如視頻2所示)。
用戶可根據場景特點選擇合適的索引類型,在構建成本&業(yè)務效果之間取得平衡。在本次0.8的發(fā)版中,KAG全面擁抱MCP,提供接入公網MCP服務及在agent流程中集成KAG推理問答(基于MCP協(xié)議)的能力。
視頻2可配置化的知識索引構建能力
KAG框架的應用
KAG框架V0.8版本為Thinker模型應用提供支持,融入KAG框架后的Thinker模型,Math、Deduce都使用框架中的求解器進行求解,再用Thinker模型進行答案匯總,可以看到KAG-Thinker7B的平均EM和F1性能相比于Thinker模型平均提升3.0%,3.8%。這也說明KAG框架能更好的幫助Thinker模型進行求解。
表2不同模型在自建檢索庫上的性能
同時,針對KAG框架問題拆解不穩(wěn)定的現象,也做了問題廣度拆解的穩(wěn)定性測試,將同一個問題,拆解兩次,如果兩次結果相同,則分數為1,否則為0。
實驗結果如圖5所示,KAG-Thinker7B在HotpotQA、2Wiki和Musique這三個數據集上的穩(wěn)定性表現優(yōu)于KAG-V0.87B和KAG-V0.872B。在常用的溫度參數0.6和0.8下,KAGwithThinker7B+72B分別相對于KAG-V0.87B和KAG-V0.872B平均提升了17.9%和7.6%。
圖5不同溫度參數下不同模型穩(wěn)定性測試
KAG-V0.8withThinker在三個數據集上的平均性能要優(yōu)于HippoRAGV2和PIKE-RAG,詳細的實驗設置參考KAG-V0.8releasenotes。
雖然KAG-V0.8withThinker大幅度提升了框架的穩(wěn)定性,但是平均性能要低于KAG-V0.872B,略高于KAG-V0.832B。這說明7B的Thinker模型的問題拆解能力還有所欠缺,分析BadCase發(fā)現,對于一些復雜的問題,Thinker模型的拆分能力還不夠,例如「WhoisthepaternalgrandmotherofJohnIii,DukeOfCleves?」,需要分解出JohnIii,DukeOfCleves的媽媽是誰和JohnIii,DukeOfCleves的媽媽的媽媽是誰。
這種問題Thinker模型拆分不穩(wěn)定,主要的原因有兩種,第一,LLM對復雜的純自然語言問題拆分存在不一致,第二,7B模型的泛化能力有限。為了解決這些問題,研究團隊表示將來會從結構化數據中合成問題拆分樣本,保證模型拆分的一致性。
表3不同框架在多跳推理上的性能表現
醫(yī)療領域的應用
為了驗證該框架在專業(yè)領域的能力,研究團隊在醫(yī)療領域做了一系列的改造,訓練出了KAG-Med-Thinker。實驗結果如表4所示,在DeepSeek-R1-Distill-Qwen-14B上,與已有的多輪規(guī)劃和檢索增強模型IRCoT和ReAct相比,KAG-Med-Thinker分別取得了3.95%和4.41%的顯著性能提升。同時,它還比NaiveRAG自適應檢索模型高出3.8%。
表4、不同模型在MedQA上的準確性
赤壁改名之爭:文旅與產業(yè)雙城記
赤壁市,位于湖北省東南部,素有“湖北南大門”之稱,是三國赤壁之戰(zhàn)的發(fā)生地,文化底蘊深厚__。赤壁美食以其獨特的風味和豐富的種類聞名遐邇,主要菜系融合了荊楚風味與江南水鄉(xiāng)的特色,講究食材的新鮮與烹飪的精細_。赤壁地處魚米之鄉(xiāng),江河湖泊眾多,為美食提供了豐富的原材料,使得赤壁菜肴既鮮美又富有營養(yǎng)。二、赤壁是什么。
赤壁市:從蒲圻更名到世界知名
在赤壁市,領導班子的分工與協(xié)作顯得尤為重要——。通過明確各成員的職責與角色,確保了市政府的高效運轉和各項工作的順利推進。這種分工不僅體現在日常事務的處理上,更在重大決策時發(fā)揮著關鍵作用,為赤壁市的繁榮穩(wěn)定貢獻著力量——。? 市委副書記、市長葛軍葛軍,赤壁市的市委副書記和市長,全面負責市政府的工作__。他希望你能滿意。
圖說昔日的湖北赤壁,照片中有你熟悉的地方嗎?
4月14日,咸寧市政府新聞辦舉行“當好支點建設生力軍,加快打造武漢都市圈綠色發(fā)展重要增長極”系列主題新聞發(fā)布會(赤壁專場)_。極目新聞記者從發(fā)布會上獲悉,赤壁通過抓實抓細“五大行動”,重點打造六大百億產業(yè)集群,加快建設全國綠色低碳發(fā)展示范區(qū)、沖刺全國百強縣。發(fā)布會上,赤壁市委副書記、市長葛軍介紹,2024年還有呢?
來源:紅網
作者:咸爾蓉
編輯:檢秋華
本文為紅辣椒評論 原創(chuàng)文章,僅系作者個人觀點,不代表紅網立場。轉載請附原文出處鏈接和本聲明。