全紅嬋全家來帶貨?半月談?wù){(diào)查:誰給AI造假開綠燈欺詐營銷
近日,螞蟻集團知識引擎團隊協(xié)同浙江大學、同濟大學正式發(fā)布了其在結(jié)構(gòu)化推理領(lǐng)域的最新成果——KAG-Thinker模型,該模型是KAG框架的重要迭代升級,聚焦于為通用或?qū)I(yè)領(lǐng)域復(fù)雜推理任務(wù)構(gòu)建穩(wěn)定、可解釋的思考范式。
2025年以來,OpenAI推出的DeepResearch展示了大模型在復(fù)雜推理任務(wù)中多輪檢索、規(guī)劃推理的強大能力。隨后,產(chǎn)學界涌現(xiàn)了較多以模型為中心(Model-Centric)的方法,比如Search-R1、ReSearch等。它們的核心思路是,通過強化學習讓模型自己“學會”如何檢索和利用外部知識,從而讓小模型也能像專家一樣“思考”。然而,這些基于自然語言的推理方法就像讓模型“自由發(fā)揮”,推理不嚴謹、過程不穩(wěn)定等問題依然突出。而人類專家解決復(fù)雜問題時,往往采用結(jié)構(gòu)化的思考方法,把原始問題拆解成多個可獨立驗證的小問題,并依次求解。受此啟發(fā),研究團隊提出了KAG-Thinker,為模型的思考過程建立一套清晰、分層的“腳手架”,從而提升復(fù)雜任務(wù)中推理過程的邏輯性與穩(wěn)定性。
該模型延續(xù)了KAG框架LogicalForm自然語言與邏輯函數(shù)雙語義表示機制,以更好地利用結(jié)構(gòu)化知識;并通過廣度拆分與深度求解相結(jié)合的方式,提升問題求解的嚴謹性;同時引入以知識點對齊為中心的知識邊界判定機制,以充分利用大模型參數(shù)化知識與外部形式化知識,并借助內(nèi)容抗噪模塊降低檢索信息噪聲,增強檢索內(nèi)容的可信度。
視頻1KAG-Thinker與KAG框架集成,「結(jié)構(gòu)化思考」引導(dǎo)的「深度推理」問答產(chǎn)品示例
最終,研究團隊將上述策略集成于一個支持多輪迭代與深度推理的統(tǒng)一架構(gòu)中,通過監(jiān)督微調(diào)方法訓(xùn)練出KAG-Thinker7B通用模型。
實驗結(jié)果顯示,在7個單跳和多跳推理數(shù)據(jù)集上,其性能相較使用強化學習Search-R1、ZeroSearch、ReSearch等SOTA深度搜索方法平均提升了4.1%。與KAG框架集成后在多跳推理任務(wù)上超越HippoRAGV2、PIKE-RAG等In-ContextLearning(以Qwen2.5-72B為基模)方法。此外,模型也在醫(yī)療問答任務(wù)中驗證了其在專業(yè)領(lǐng)域中的有效性。其他專業(yè)領(lǐng)域的精細化定制,可以參考其在醫(yī)療問答上的應(yīng)用及表現(xiàn)。
圖1KAG-Thinker語料合成和模型訓(xùn)練過程概覽
模型方法
模型的架構(gòu)如下圖所示。模型的核心內(nèi)容包括:
圖2復(fù)雜問題求解概覽圖
廣度拆分+深度求解:應(yīng)對復(fù)雜決策任務(wù)
復(fù)雜多跳問題通常需拆分為多個簡單子問題,以更高效地利用外部知識庫進行求解,KAG-Thinker提出了一種「廣度拆分+深度求解」的方法(詳見圖2):
廣度拆分:將原始問題分解為若干原子問題,各子問題間保持邏輯依賴關(guān)系,確保拆分的準確性。每個原子問題由一個LogicalForm算子表示。每個LogicalForm具備雙重表示形式——自然語言描述(Step)與邏輯表達式(Action),二者語義一致。
深度求解:針對需要檢索(Retrieval)的子問題,進行深入求解,以獲取充足的外部知識保障答案準確。在檢索前,模型會先執(zhí)行知識邊界判定:若判斷當前大模型自身知識已足夠回答該子問題,則跳過檢索;否則繼續(xù)深度求解。
知識邊界判定:充分利用LLM參數(shù)化知識
為充分利用大模型的參數(shù)化知識、減少不必要的檢索任務(wù),KAG-Thinker以知識點(如實體、事件)為中心定義Retrieval子任務(wù),并通過SPO三元組限定檢索粒度,以此為基礎(chǔ)判斷大模型與外部知識庫的邊界。
知識邊界判定任務(wù)是一個無監(jiān)督過程:首先讓大模型直接作答子問題,再由其判斷該答案是否為真實答案。此過程生成兩個標簽:
自然語言輸出的判斷結(jié)果(True/False);
答案首次出現(xiàn)時對應(yīng)token的概率,若低于設(shè)定閾值則標記為False,否則為True。
僅當兩個標簽均為True時,才認為大模型自身知識足以回答該子問題,無需額外檢索,可直接采用其生成的答案。
圖3知識邊界判定
檢索內(nèi)容抗噪:提升檢索內(nèi)容的可信度
對于必須檢索的子問題,Thinker需要判斷當前檢索結(jié)果是否能求解出對應(yīng)子問題。然而,不同檢索器檢索的內(nèi)容參差不齊,尤其是網(wǎng)頁檢索得到的內(nèi)容。
為了更好的分析檢索結(jié)果,檢索抗噪模塊會分析每篇檢索回來的文章與當前子問題的關(guān)系,去掉一些無關(guān)內(nèi)容,再從剩余內(nèi)容從中提取一些核心信息,作為直接給出子問題的答案還是繼續(xù)進行深度檢索的依據(jù)。
LogicalForm求解器
在廣度拆分和深度求解時,Thinker沿用KAG框架中定義的4種LogicalForm求解器。每種LogicalForm算子的定義如圖4所示。Retrieval主要解決檢索類的問題,Deduce和Math主要解決推理分析類問題,Output主要用于答案匯總。
實驗結(jié)果
單跳和多跳問答
為了評估模型的效果,研究團隊選了7個通用的單跳和多跳推理數(shù)據(jù)集,并使用相同的檢索器(E5-base-v2),Baseline選擇了最新的ReSearch、Search-R1、ZeroSearch和StepSearch等。并沿用這些Baseline方法的評價指標(EM)。為了使用相同的檢索器,只使用LogicalForm表示中的Step中的純自然語言的內(nèi)容。整體實驗效果如表1所示。
與無檢索基線相比,Thinker模型的平均性能比NaiveGeneration和CoT分別高出27.1%和34.6%。
與檢索增強方法相比,Thinker模型的平均性能比Search-o1、IRCoT和NaiveRAG分別高出24.6%、22.6%和14.8%。
與基于強化學習的方法相比,Thinker模型比SOTA模型ReSearch高出4.1%。
具體而言,在單跳數(shù)據(jù)集中平均提升了4.5%,在多跳數(shù)據(jù)集中平均提升了3.9%。主要原因是,知識點粒度的檢索任務(wù)拆解降低了檢索的復(fù)雜性。
表1不同模型(基座模型Qwen2.5-7B-Instruct)在不同數(shù)據(jù)集上的EM性能
KAG框架升級
KAGV0.8升級了知識庫的能力。擴展了私域知識庫(含結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù))、公網(wǎng)知識庫兩種模式,支持通過MCP協(xié)議引入LBS、WebSearch等公網(wǎng)數(shù)據(jù)源。此外,升級了私域知識庫索引管理的能力,內(nèi)置Outline、Summary、KnowledgeUnit、AtomicQuery、Chunk、Table等多種基礎(chǔ)索引類型,支持開發(fā)者自定義索引&產(chǎn)品端聯(lián)動的能力(如視頻2所示)。
用戶可根據(jù)場景特點選擇合適的索引類型,在構(gòu)建成本&業(yè)務(wù)效果之間取得平衡。在本次0.8的發(fā)版中,KAG全面擁抱MCP,提供接入公網(wǎng)MCP服務(wù)及在agent流程中集成KAG推理問答(基于MCP協(xié)議)的能力。
視頻2可配置化的知識索引構(gòu)建能力
KAG框架的應(yīng)用
KAG框架V0.8版本為Thinker模型應(yīng)用提供支持,融入KAG框架后的Thinker模型,Math、Deduce都使用框架中的求解器進行求解,再用Thinker模型進行答案匯總,可以看到KAG-Thinker7B的平均EM和F1性能相比于Thinker模型平均提升3.0%,3.8%。這也說明KAG框架能更好的幫助Thinker模型進行求解。
表2不同模型在自建檢索庫上的性能
同時,針對KAG框架問題拆解不穩(wěn)定的現(xiàn)象,也做了問題廣度拆解的穩(wěn)定性測試,將同一個問題,拆解兩次,如果兩次結(jié)果相同,則分數(shù)為1,否則為0。
實驗結(jié)果如圖5所示,KAG-Thinker7B在HotpotQA、2Wiki和Musique這三個數(shù)據(jù)集上的穩(wěn)定性表現(xiàn)優(yōu)于KAG-V0.87B和KAG-V0.872B。在常用的溫度參數(shù)0.6和0.8下,KAGwithThinker7B+72B分別相對于KAG-V0.87B和KAG-V0.872B平均提升了17.9%和7.6%。
圖5不同溫度參數(shù)下不同模型穩(wěn)定性測試
KAG-V0.8withThinker在三個數(shù)據(jù)集上的平均性能要優(yōu)于HippoRAGV2和PIKE-RAG,詳細的實驗設(shè)置參考KAG-V0.8releasenotes。
雖然KAG-V0.8withThinker大幅度提升了框架的穩(wěn)定性,但是平均性能要低于KAG-V0.872B,略高于KAG-V0.832B。這說明7B的Thinker模型的問題拆解能力還有所欠缺,分析BadCase發(fā)現(xiàn),對于一些復(fù)雜的問題,Thinker模型的拆分能力還不夠,例如「WhoisthepaternalgrandmotherofJohnIii,DukeOfCleves?」,需要分解出JohnIii,DukeOfCleves的媽媽是誰和JohnIii,DukeOfCleves的媽媽的媽媽是誰。
這種問題Thinker模型拆分不穩(wěn)定,主要的原因有兩種,第一,LLM對復(fù)雜的純自然語言問題拆分存在不一致,第二,7B模型的泛化能力有限。為了解決這些問題,研究團隊表示將來會從結(jié)構(gòu)化數(shù)據(jù)中合成問題拆分樣本,保證模型拆分的一致性。
表3不同框架在多跳推理上的性能表現(xiàn)
醫(yī)療領(lǐng)域的應(yīng)用
為了驗證該框架在專業(yè)領(lǐng)域的能力,研究團隊在醫(yī)療領(lǐng)域做了一系列的改造,訓(xùn)練出了KAG-Med-Thinker。實驗結(jié)果如表4所示,在DeepSeek-R1-Distill-Qwen-14B上,與已有的多輪規(guī)劃和檢索增強模型IRCoT和ReAct相比,KAG-Med-Thinker分別取得了3.95%和4.41%的顯著性能提升。同時,它還比NaiveRAG自適應(yīng)檢索模型高出3.8%。
表4、不同模型在MedQA上的準確性
總字數(shù)超6000萬,評分至少9.5,十本神級小說推薦,文筆故事絕佳
8本洪荒流小說推薦,文筆俱佳,總有一本你看過!
十五本腦洞情節(jié)精彩的高品質(zhì)小說,劇情爽感拉滿,看得十分過癮!