劉靜宜
【導(dǎo)讀】GraphNarrator是Emory大學(xué)研究團(tuán)隊(duì)開發(fā)的首個(gè)為圖神經(jīng)網(wǎng)絡(luò)生成自然語(yǔ)言解釋的工具。通過構(gòu)造和優(yōu)化解釋偽標(biāo)簽,再將這些標(biāo)簽蒸餾到一個(gè)端到端模型中,使模型能直接輸出高質(zhì)量的自然語(yǔ)言解釋,讓復(fù)雜的圖神經(jīng)網(wǎng)絡(luò)決策過程變得透明可理解,且在多個(gè)真實(shí)數(shù)據(jù)集上驗(yàn)證了其有效性。
圖神經(jīng)網(wǎng)絡(luò)(GNN)已成為處理結(jié)構(gòu)化數(shù)據(jù)的核心工具,廣泛應(yīng)用于社交網(wǎng)絡(luò)、藥物設(shè)計(jì)、金融風(fēng)控等場(chǎng)景。
然而,現(xiàn)有GNN的決策過程高度復(fù)雜,且常常缺乏透明度:為什么模型做出這樣的預(yù)測(cè)?關(guān)鍵依據(jù)在哪?這成為阻礙其大規(guī)模落地的重要瓶頸。
已有方法多基于「重要子圖提取」或「節(jié)點(diǎn)-邊歸因」,如GNNExplainer、PGExplainer等,但它們只能輸出結(jié)構(gòu)片段,不具備人類可讀性,且缺乏對(duì)文本屬性節(jié)點(diǎn)的處理能力(如文獻(xiàn)圖、商品圖)。
Emory大學(xué)的研究團(tuán)隊(duì)提出了首個(gè)面向圖神經(jīng)網(wǎng)絡(luò)的自然語(yǔ)言解釋生成器GraphNarrator,首次實(shí)現(xiàn)從GNN輸入輸出中,生成高質(zhì)量的自然語(yǔ)言解釋,讓圖神經(jīng)網(wǎng)絡(luò)從「黑盒模型」變?yōu)椤赣欣碛袚?jù)的決策體」。
GraphNarrator聚焦于一種重要的圖類型Text-AttributedGraphs(TAGs),即節(jié)點(diǎn)特征為自然語(yǔ)言文本(如論文摘要、商品介紹、疾病描述等)。
論文貢獻(xiàn)包括:
提出首個(gè)自然語(yǔ)言解釋框架,將TAG圖解釋從結(jié)構(gòu)層面擴(kuò)展至語(yǔ)言層;
統(tǒng)一結(jié)構(gòu)化與語(yǔ)言信息,橋接圖結(jié)構(gòu)推理與LLM理解能力;
開源工具鏈,提供高質(zhì)量偽標(biāo)簽構(gòu)造器+自監(jiān)督蒸餾方法,便于遷移至任意GNN任務(wù)。
論文第一作者為Emory大學(xué)博士生BoPan,長(zhǎng)期從事圖學(xué)習(xí)與可解釋人工智能方向研究。
共同第一作者為USC碩士生ZhenXiong和Emory大學(xué)博士生GuanchenWu,通訊作者為Emory計(jì)算機(jī)系副教授LiangZhao。
該研究獲得ACL2025主會(huì)接收,提出首個(gè)面向圖神經(jīng)網(wǎng)絡(luò)的自然語(yǔ)言解釋生成器GraphNarrator。
讓GNN開口說話
GraphNarrator總體包含三步:
1.構(gòu)造解釋偽標(biāo)簽(Pseudo-labelGeneration)
使用saliency-based解釋方法提取「重要文本+關(guān)鍵鄰居節(jié)點(diǎn)」,形式是每個(gè)特征(節(jié)點(diǎn)、邊、token)的重要性。
將這些結(jié)構(gòu)轉(zhuǎn)化為結(jié)構(gòu)化Prompt,和問題與預(yù)測(cè)一起輸入GPT模型,生成可解釋偽標(biāo)簽。
2.優(yōu)化偽標(biāo)簽(FilteringviaExpert-DesignedCriteria)
通過兩大標(biāo)準(zhǔn)篩選質(zhì)量更高的偽標(biāo)簽:
忠實(shí)性(faithfulness):與模型預(yù)測(cè)一致,研究人員通過互信息(mutualinformation)的方式計(jì)算生成的文字解釋與輸入、輸出之間的忠實(shí)性。
簡(jiǎn)潔性(conciseness):信息濃縮、可讀性強(qiáng),鼓勵(lì)長(zhǎng)度更短
GraphNarrator通過專家迭代(ExpertIteration)同時(shí)優(yōu)化這兩個(gè)目標(biāo),確保教師模型(teachermodel)生成高質(zhì)量的解釋。
3.蒸餾解釋器(TrainingFinalExplainer)
將偽標(biāo)簽蒸餾進(jìn)一個(gè)端到端模型(文章中使用LlaMA3.18B),直接輸入圖結(jié)構(gòu)與文本,即可自動(dòng)輸出解釋語(yǔ)句。
忠實(shí)、可讀、用戶更愛看!數(shù)據(jù)集
研究人員在多個(gè)真實(shí)世界的Text-AttributedGraph(TAG)數(shù)據(jù)集上對(duì)GraphNarrator進(jìn)行了系統(tǒng)評(píng)估,包括:
Cora:論文引文圖,節(jié)點(diǎn)為論文,文本為摘要
DBLP:作者合作圖,文本為論文列表
PubMed:生物醫(yī)學(xué)文獻(xiàn)圖
對(duì)比方法:
各主流LLM(LLaMA3.1-8B、GPT?3.5、GPT?4o)Zero-shot生成解釋
SMV:基于GPT?4o的saliency解釋模板轉(zhuǎn)換方法
GraphNarrator(基于LLaMA3.1-8B)
評(píng)估目標(biāo)是檢驗(yàn)GraphNarrator生成的自然語(yǔ)言解釋是否忠實(shí)、準(zhǔn)確、可讀、受用戶喜愛。
評(píng)測(cè)結(jié)果
研究人員通過自動(dòng)方式和人工方式評(píng)測(cè)該方法生成的解釋質(zhì)量。
自動(dòng)評(píng)測(cè)中,GraphNarrator在Simulatability上全面領(lǐng)先(+8‐10%),證明解釋內(nèi)容高度還原了GNN預(yù)測(cè);
PMI?10%覆蓋率提升顯著(平均+8.2%),表明能捕捉到最重要的token;Brevity(解釋長(zhǎng)度/輸入長(zhǎng)度)下降超13%,驗(yàn)證其「短小精煉」能力。
人工評(píng)測(cè)中,有計(jì)算語(yǔ)言學(xué)背景的評(píng)審從易讀性、洞察力、結(jié)構(gòu)信息、語(yǔ)義信息4個(gè)方向打分(1–7分制)。
結(jié)果表明各項(xiàng)均優(yōu)于GPT?4o、SMV,尤其在結(jié)構(gòu)理解上優(yōu)勢(shì)明顯(+33%),解釋更流暢、邏輯清晰,獲得真實(shí)用戶的更高信任。
她是神秘藝術(shù)家也是驕縱刺玫瑰 他是冷峻檢察官也是溫柔少年郎 從青梅竹馬到久別重逢這次 除非死亡, 任何事都不能讓他再放開她。 小董忍不住驚奇地問道 陸檢, 你說的妹妹不會(huì)是個(gè)畫家吧 陸爾白沒回答, 他從車上下來, 讓小董在外頭等著, 朝畫廊走了過去。 看到門口豎立的大木招牌時(shí), 他停下了腳步, 有些出神地望著木牌上僅有的“ 翰林” 兩字。 字是用彩色的油漆潑成的, 沒什么字體可言, 歪歪斜斜, 談不上好看, 也算不得難看, 但跟他記憶中的如出一轍, 他一眼就能認(rèn)出這是誰寫的。 字是她的字, 跟她十七歲在試卷上寫的那些字沒差多少, 而翰林是鄭林的名, 鄭林原名鄭翰林。 是她, 沒有錯(cuò), 她真的回來了。來源:紅網(wǎng)
作者:釋婭欣
編輯:許宣哲
本文為紅辣椒評(píng)論 原創(chuàng)文章,僅系作者個(gè)人觀點(diǎn),不代表紅網(wǎng)立場(chǎng)。轉(zhuǎn)載請(qǐng)附原文出處鏈接和本聲明。