近日,螞蟻集團(tuán)知識(shí)引擎團(tuán)隊(duì)協(xié)同浙江大學(xué)、同濟(jì)大學(xué)正式發(fā)布了其在結(jié)構(gòu)化推理領(lǐng)域的最新成果——KAG-Thinker模型,該模型是KAG框架的重要迭代升級(jí),聚焦于為通用或?qū)I(yè)領(lǐng)域復(fù)雜推理任務(wù)構(gòu)建穩(wěn)定、可解釋的思考范式。
2025年以來,OpenAI推出的DeepResearch展示了大模型在復(fù)雜推理任務(wù)中多輪檢索、規(guī)劃推理的強(qiáng)大能力。隨后,產(chǎn)學(xué)界涌現(xiàn)了較多以模型為中心(Model-Centric)的方法,比如Search-R1、ReSearch等。它們的核心思路是,通過強(qiáng)化學(xué)習(xí)讓模型自己“學(xué)會(huì)”如何檢索和利用外部知識(shí),從而讓小模型也能像專家一樣“思考”。然而,這些基于自然語(yǔ)言的推理方法就像讓模型“自由發(fā)揮”,推理不嚴(yán)謹(jǐn)、過程不穩(wěn)定等問題依然突出。而人類專家解決復(fù)雜問題時(shí),往往采用結(jié)構(gòu)化的思考方法,把原始問題拆解成多個(gè)可獨(dú)立驗(yàn)證的小問題,并依次求解。受此啟發(fā),研究團(tuán)隊(duì)提出了KAG-Thinker,為模型的思考過程建立一套清晰、分層的“腳手架”,從而提升復(fù)雜任務(wù)中推理過程的邏輯性與穩(wěn)定性。
該模型延續(xù)了KAG框架LogicalForm自然語(yǔ)言與邏輯函數(shù)雙語(yǔ)義表示機(jī)制,以更好地利用結(jié)構(gòu)化知識(shí);并通過廣度拆分與深度求解相結(jié)合的方式,提升問題求解的嚴(yán)謹(jǐn)性;同時(shí)引入以知識(shí)點(diǎn)對(duì)齊為中心的知識(shí)邊界判定機(jī)制,以充分利用大模型參數(shù)化知識(shí)與外部形式化知識(shí),并借助內(nèi)容抗噪模塊降低檢索信息噪聲,增強(qiáng)檢索內(nèi)容的可信度。
視頻1KAG-Thinker與KAG框架集成,「結(jié)構(gòu)化思考」引導(dǎo)的「深度推理」問答產(chǎn)品示例
最終,研究團(tuán)隊(duì)將上述策略集成于一個(gè)支持多輪迭代與深度推理的統(tǒng)一架構(gòu)中,通過監(jiān)督微調(diào)方法訓(xùn)練出KAG-Thinker7B通用模型。
實(shí)驗(yàn)結(jié)果顯示,在7個(gè)單跳和多跳推理數(shù)據(jù)集上,其性能相較使用強(qiáng)化學(xué)習(xí)Search-R1、ZeroSearch、ReSearch等SOTA深度搜索方法平均提升了4.1%。與KAG框架集成后在多跳推理任務(wù)上超越HippoRAGV2、PIKE-RAG等In-ContextLearning(以Qwen2.5-72B為基模)方法。此外,模型也在醫(yī)療問答任務(wù)中驗(yàn)證了其在專業(yè)領(lǐng)域中的有效性。其他專業(yè)領(lǐng)域的精細(xì)化定制,可以參考其在醫(yī)療問答上的應(yīng)用及表現(xiàn)。
圖1KAG-Thinker語(yǔ)料合成和模型訓(xùn)練過程概覽
模型方法
模型的架構(gòu)如下圖所示。模型的核心內(nèi)容包括:
圖2復(fù)雜問題求解概覽圖
廣度拆分+深度求解:應(yīng)對(duì)復(fù)雜決策任務(wù)
復(fù)雜多跳問題通常需拆分為多個(gè)簡(jiǎn)單子問題,以更高效地利用外部知識(shí)庫(kù)進(jìn)行求解,KAG-Thinker提出了一種「廣度拆分+深度求解」的方法(詳見圖2):
廣度拆分:將原始問題分解為若干原子問題,各子問題間保持邏輯依賴關(guān)系,確保拆分的準(zhǔn)確性。每個(gè)原子問題由一個(gè)LogicalForm算子表示。每個(gè)LogicalForm具備雙重表示形式——自然語(yǔ)言描述(Step)與邏輯表達(dá)式(Action),二者語(yǔ)義一致。
深度求解:針對(duì)需要檢索(Retrieval)的子問題,進(jìn)行深入求解,以獲取充足的外部知識(shí)保障答案準(zhǔn)確。在檢索前,模型會(huì)先執(zhí)行知識(shí)邊界判定:若判斷當(dāng)前大模型自身知識(shí)已足夠回答該子問題,則跳過檢索;否則繼續(xù)深度求解。
知識(shí)邊界判定:充分利用LLM參數(shù)化知識(shí)
為充分利用大模型的參數(shù)化知識(shí)、減少不必要的檢索任務(wù),KAG-Thinker以知識(shí)點(diǎn)(如實(shí)體、事件)為中心定義Retrieval子任務(wù),并通過SPO三元組限定檢索粒度,以此為基礎(chǔ)判斷大模型與外部知識(shí)庫(kù)的邊界。
知識(shí)邊界判定任務(wù)是一個(gè)無(wú)監(jiān)督過程:首先讓大模型直接作答子問題,再由其判斷該答案是否為真實(shí)答案。此過程生成兩個(gè)標(biāo)簽:
自然語(yǔ)言輸出的判斷結(jié)果(True/False);
答案首次出現(xiàn)時(shí)對(duì)應(yīng)token的概率,若低于設(shè)定閾值則標(biāo)記為False,否則為True。
僅當(dāng)兩個(gè)標(biāo)簽均為True時(shí),才認(rèn)為大模型自身知識(shí)足以回答該子問題,無(wú)需額外檢索,可直接采用其生成的答案。
圖3知識(shí)邊界判定
檢索內(nèi)容抗噪:提升檢索內(nèi)容的可信度
對(duì)于必須檢索的子問題,Thinker需要判斷當(dāng)前檢索結(jié)果是否能求解出對(duì)應(yīng)子問題。然而,不同檢索器檢索的內(nèi)容參差不齊,尤其是網(wǎng)頁(yè)檢索得到的內(nèi)容。
為了更好的分析檢索結(jié)果,檢索抗噪模塊會(huì)分析每篇檢索回來的文章與當(dāng)前子問題的關(guān)系,去掉一些無(wú)關(guān)內(nèi)容,再?gòu)氖S鄡?nèi)容從中提取一些核心信息,作為直接給出子問題的答案還是繼續(xù)進(jìn)行深度檢索的依據(jù)。
LogicalForm求解器
在廣度拆分和深度求解時(shí),Thinker沿用KAG框架中定義的4種LogicalForm求解器。每種LogicalForm算子的定義如圖4所示。Retrieval主要解決檢索類的問題,Deduce和Math主要解決推理分析類問題,Output主要用于答案匯總。
實(shí)驗(yàn)結(jié)果
單跳和多跳問答
為了評(píng)估模型的效果,研究團(tuán)隊(duì)選了7個(gè)通用的單跳和多跳推理數(shù)據(jù)集,并使用相同的檢索器(E5-base-v2),Baseline選擇了最新的ReSearch、Search-R1、ZeroSearch和StepSearch等。并沿用這些Baseline方法的評(píng)價(jià)指標(biāo)(EM)。為了使用相同的檢索器,只使用LogicalForm表示中的Step中的純自然語(yǔ)言的內(nèi)容。整體實(shí)驗(yàn)效果如表1所示。
與無(wú)檢索基線相比,Thinker模型的平均性能比NaiveGeneration和CoT分別高出27.1%和34.6%。
與檢索增強(qiáng)方法相比,Thinker模型的平均性能比Search-o1、IRCoT和NaiveRAG分別高出24.6%、22.6%和14.8%。
與基于強(qiáng)化學(xué)習(xí)的方法相比,Thinker模型比SOTA模型ReSearch高出4.1%。
具體而言,在單跳數(shù)據(jù)集中平均提升了4.5%,在多跳數(shù)據(jù)集中平均提升了3.9%。主要原因是,知識(shí)點(diǎn)粒度的檢索任務(wù)拆解降低了檢索的復(fù)雜性。
表1不同模型(基座模型Qwen2.5-7B-Instruct)在不同數(shù)據(jù)集上的EM性能
KAG框架升級(jí)
KAGV0.8升級(jí)了知識(shí)庫(kù)的能力。擴(kuò)展了私域知識(shí)庫(kù)(含結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù))、公網(wǎng)知識(shí)庫(kù)兩種模式,支持通過MCP協(xié)議引入LBS、WebSearch等公網(wǎng)數(shù)據(jù)源。此外,升級(jí)了私域知識(shí)庫(kù)索引管理的能力,內(nèi)置Outline、Summary、KnowledgeUnit、AtomicQuery、Chunk、Table等多種基礎(chǔ)索引類型,支持開發(fā)者自定義索引&產(chǎn)品端聯(lián)動(dòng)的能力(如視頻2所示)。
用戶可根據(jù)場(chǎng)景特點(diǎn)選擇合適的索引類型,在構(gòu)建成本&業(yè)務(wù)效果之間取得平衡。在本次0.8的發(fā)版中,KAG全面擁抱MCP,提供接入公網(wǎng)MCP服務(wù)及在agent流程中集成KAG推理問答(基于MCP協(xié)議)的能力。
視頻2可配置化的知識(shí)索引構(gòu)建能力
KAG框架的應(yīng)用
KAG框架V0.8版本為Thinker模型應(yīng)用提供支持,融入KAG框架后的Thinker模型,Math、Deduce都使用框架中的求解器進(jìn)行求解,再用Thinker模型進(jìn)行答案匯總,可以看到KAG-Thinker7B的平均EM和F1性能相比于Thinker模型平均提升3.0%,3.8%。這也說明KAG框架能更好的幫助Thinker模型進(jìn)行求解。
表2不同模型在自建檢索庫(kù)上的性能
同時(shí),針對(duì)KAG框架問題拆解不穩(wěn)定的現(xiàn)象,也做了問題廣度拆解的穩(wěn)定性測(cè)試,將同一個(gè)問題,拆解兩次,如果兩次結(jié)果相同,則分?jǐn)?shù)為1,否則為0。
實(shí)驗(yàn)結(jié)果如圖5所示,KAG-Thinker7B在HotpotQA、2Wiki和Musique這三個(gè)數(shù)據(jù)集上的穩(wěn)定性表現(xiàn)優(yōu)于KAG-V0.87B和KAG-V0.872B。在常用的溫度參數(shù)0.6和0.8下,KAGwithThinker7B+72B分別相對(duì)于KAG-V0.87B和KAG-V0.872B平均提升了17.9%和7.6%。
圖5不同溫度參數(shù)下不同模型穩(wěn)定性測(cè)試
KAG-V0.8withThinker在三個(gè)數(shù)據(jù)集上的平均性能要優(yōu)于HippoRAGV2和PIKE-RAG,詳細(xì)的實(shí)驗(yàn)設(shè)置參考KAG-V0.8releasenotes。
雖然KAG-V0.8withThinker大幅度提升了框架的穩(wěn)定性,但是平均性能要低于KAG-V0.872B,略高于KAG-V0.832B。這說明7B的Thinker模型的問題拆解能力還有所欠缺,分析BadCase發(fā)現(xiàn),對(duì)于一些復(fù)雜的問題,Thinker模型的拆分能力還不夠,例如「WhoisthepaternalgrandmotherofJohnIii,DukeOfCleves?」,需要分解出JohnIii,DukeOfCleves的媽媽是誰(shuí)和JohnIii,DukeOfCleves的媽媽的媽媽是誰(shuí)。
這種問題Thinker模型拆分不穩(wěn)定,主要的原因有兩種,第一,LLM對(duì)復(fù)雜的純自然語(yǔ)言問題拆分存在不一致,第二,7B模型的泛化能力有限。為了解決這些問題,研究團(tuán)隊(duì)表示將來會(huì)從結(jié)構(gòu)化數(shù)據(jù)中合成問題拆分樣本,保證模型拆分的一致性。
表3不同框架在多跳推理上的性能表現(xiàn)
醫(yī)療領(lǐng)域的應(yīng)用
為了驗(yàn)證該框架在專業(yè)領(lǐng)域的能力,研究團(tuán)隊(duì)在醫(yī)療領(lǐng)域做了一系列的改造,訓(xùn)練出了KAG-Med-Thinker。實(shí)驗(yàn)結(jié)果如表4所示,在DeepSeek-R1-Distill-Qwen-14B上,與已有的多輪規(guī)劃和檢索增強(qiáng)模型IRCoT和ReAct相比,KAG-Med-Thinker分別取得了3.95%和4.41%的顯著性能提升。同時(shí),它還比NaiveRAG自適應(yīng)檢索模型高出3.8%。
表4、不同模型在MedQA上的準(zhǔn)確性
延伸閱讀:與 KAGThinker 結(jié)構(gòu)化思:考新范式 支持邏輯{嚴(yán)謹(jǐn)?shù)拇螅縸模型復(fù)雜推理 的相關(guān)文章