施惠玲
機(jī)器之心報(bào)道
思維鏈里的步驟很重要,但有些步驟比其他步驟更重要,尤其是在一些比較長(zhǎng)的思維鏈中。
找出這些步驟,我們就可以更深入地理解LLM的內(nèi)部推理機(jī)制,從而提高模型的可解釋性、可調(diào)試性和安全性。
但是,這些步驟沒(méi)有那么好找,因?yàn)槊總€(gè)生成的token都依賴(lài)于之前的所有token,其計(jì)算難以分解。
在最近的一項(xiàng)研究中,來(lái)自杜克大學(xué)和Aiphabet的研究者提出,在句子層面分析推理痕跡或許是一種有前途的方法。
論文標(biāo)題:ThoughtAnchors:WhichLLMReasoningStepsMatter?
作者指出,與token相比,句子的連貫性更強(qiáng),并且往往與LLM提取的推理步驟相一致;與段落相比,句子不太可能混淆推理步驟,并且可以作為連接不同步驟的有效對(duì)象。
作者提出了三種互補(bǔ)的方法來(lái)分析LLM的推理過(guò)程,這些方法旨在識(shí)別推理過(guò)程中的關(guān)鍵步驟,即所謂的「思維錨(thoughtanchor)」,這些步驟對(duì)后續(xù)推理過(guò)程具有重大影響。
第一種是黑盒方法。它通過(guò)反事實(shí)分析衡量句子對(duì)最終答案的影響。即通過(guò)比較模型在包含某個(gè)句子和不包含該句子時(shí)的最終答案分布,來(lái)評(píng)估該句子對(duì)最終答案的影響。
第二種是白盒方法。它通過(guò)注意力模式識(shí)別關(guān)鍵句子,揭示關(guān)鍵句子如何影響推理軌跡的其余部分。
第三種是因果歸因方法。它通過(guò)抑制注意力直接測(cè)量句子之間的因果關(guān)系,即抑制對(duì)特定句子的注意力如何影響后續(xù)每個(gè)句子的logits。
每種方法都為思維錨的存在提供了證據(jù)。這些推理步驟非常重要,對(duì)后續(xù)推理過(guò)程產(chǎn)生了不成比例的影響。這些思維錨通常是計(jì)劃句或回溯句。
作者提供了一個(gè)開(kāi)源工具,用于可視化方法的輸出。
開(kāi)源工具鏈接:http://thought-anchors.com/
這項(xiàng)研究也為更精確地調(diào)試推理失敗、識(shí)別不可靠性的來(lái)源以及開(kāi)發(fā)提高推理模型可靠性的技術(shù)打開(kāi)了大門(mén)。
通過(guò)反事實(shí)測(cè)量句子影響
有些句子比其他句子更重要,但哪些句子最重要取決于我們?nèi)绾味x和衡量重要性。作者將句子層面的重要性表述為一個(gè)反事實(shí)影響的問(wèn)題:包含或排除一個(gè)句子會(huì)如何影響后續(xù)步驟以及模型的最終輸出?
在之前的研究中,句子重要性通常是通過(guò)在推理過(guò)程中的每個(gè)句子位置強(qiáng)制模型給出最終答案來(lái)近似的,這種方法叫做「forced-answer」(如圖3A)。
這種方法的一個(gè)局限性在于,對(duì)于某些最終答案而言,句子S可能是必要的,但LLM在推理過(guò)程中往往較晚才生成該句子。這意味著,對(duì)于出現(xiàn)在S之前的所有句子,強(qiáng)制回答的準(zhǔn)確率都會(huì)很低,從而無(wú)法準(zhǔn)確判斷這些早期步驟的重要性。
考慮一個(gè)由句子以及最終答案A組成的推理軌跡。作者通過(guò)重新采樣來(lái)定義一個(gè)度量,用以衡量句子S導(dǎo)致答案A出錯(cuò)的程度。作者稱(chēng)這個(gè)度量為反事實(shí)重要性。他們通過(guò)以下三個(gè)步驟來(lái)激勵(lì)并定義這個(gè)度量:
推理軌跡采樣。對(duì)于給定的句子S_i,生成100次推理軌跡。一種情況下包含句子S_i(干預(yù)條件),另一種情況下用一個(gè)語(yǔ)義不同的句子T_i替代S_i(基礎(chǔ)條件)。
分布比較。計(jì)算兩種條件下最終答案分布的KL散度。從而得到一個(gè)衡量句子S_i改變答案程度的標(biāo)量。作者稱(chēng)其為重采樣重要性度量。
語(yǔ)義過(guò)濾。重采樣重要性的問(wèn)題在于,如果T_i與S_i相同或相似,那么我們無(wú)法得知S_i是否重要。因此,作者通過(guò)計(jì)算句子對(duì)的余弦相似度,并設(shè)定一個(gè)相似度閾值,篩選出那些與原句子S_i語(yǔ)義不同的替代句子T_i。這樣可以避免因替代句子與原句子過(guò)于相似而導(dǎo)致的分析偏差,從而更準(zhǔn)確地評(píng)估S_i對(duì)最終答案的影響。
由于作者在給定句子S_i之后重新采樣所有步驟,因此避免了上述強(qiáng)制回答方法的局限性。
在數(shù)據(jù)集中,他們發(fā)現(xiàn)規(guī)劃生成(Plangeneration)和不確定性管理(uncertaintymanagement)例如,回溯)句子的反事實(shí)重要性始終高于其他類(lèi)別的句子,如事實(shí)檢索或主動(dòng)計(jì)算(見(jiàn)圖3B)。這支持了這樣一種觀點(diǎn):高層次的組織性句子可以錨定、組織并引導(dǎo)推理軌跡。作者認(rèn)為,與強(qiáng)制回答重要性和先前基于token或注意力的度量相比,這種方法提供了更有信息量的結(jié)果。
通過(guò)注意力聚集衡量句子重要性
作者假設(shè)重要的句子可能會(huì)受到下游句子更多的關(guān)注。盡管注意力權(quán)重并不一定意味著因果聯(lián)系,但高度的關(guān)注是重要的句子可能對(duì)后續(xù)句子施加影響的合理機(jī)制。作者進(jìn)一步推測(cè),對(duì)重要句子的高度關(guān)注可能由特定的注意力頭驅(qū)動(dòng),通過(guò)追蹤這些頭,可能能夠確定關(guān)鍵句子。
作者評(píng)估了不同的頭在多大程度上將注意力集中在特定的句子上。首先,對(duì)于每個(gè)推理軌跡,他們將每個(gè)注意力頭的token-token注意力權(quán)重矩陣取平均值,形成一個(gè)句子-句子矩陣,其中每個(gè)元素是兩個(gè)句子之間所有token對(duì)的平均值?;诿總€(gè)注意力矩陣,他們計(jì)算其對(duì)角線(xiàn)下方列的平均值,以衡量每個(gè)句子從所有下游句子中獲得的關(guān)注程度;只在相隔至少四個(gè)句子的句子對(duì)之間取平均值,以專(zhuān)注于遠(yuǎn)距離的連接。這為每個(gè)頭生成了一個(gè)分布(例如,圖4A),并且每個(gè)頭通常將注意力集中在特定句子上的程度可以通過(guò)其分布的峰度來(lái)量化(對(duì)每個(gè)推理軌跡進(jìn)行計(jì)算,然后在軌跡之間取平均值)。繪制每個(gè)頭的峰度圖表明,一些注意力頭強(qiáng)烈地將注意力集中在推理軌跡中特定的、可能是重要的句子上(圖4B)。
圖5表明,規(guī)劃生成、不確定性管理和自我檢查(selfchecking)句子始終通過(guò)接收頭獲得最多的關(guān)注(見(jiàn)圖5),而主動(dòng)計(jì)算句子獲得的關(guān)注最少。進(jìn)一步與這一發(fā)現(xiàn)一致的是,根據(jù)重采樣方法,那些獲得高接收頭關(guān)注的句子往往也會(huì)對(duì)下游句子產(chǎn)生更大的影響。這些發(fā)現(xiàn)與以下觀點(diǎn)相符:推理軌跡是圍繞高層句子構(gòu)建的——這些句子啟動(dòng)的計(jì)算可能連接高層陳述,但對(duì)整體推理路徑的影響可能微乎其微。
通過(guò)「注意力抑制」衡量句子重要性
自然而言,考察注意力權(quán)重存在一個(gè)固有局限:它們無(wú)法衡量因果關(guān)系。此外,接收頭未必適合識(shí)別句子與單個(gè)后續(xù)句子間的關(guān)聯(lián)。因此,作者接下來(lái)聚焦于句子間依賴(lài)關(guān)系的因果歸因分析。
基于重采樣的句子間分析雖能考察此類(lèi)依賴(lài)關(guān)系,但在映射邏輯連接時(shí)精度有限——因?yàn)榉词聦?shí)重要性反映的是句子對(duì)另一句子的總效應(yīng)(包括直接和間接影響)。而本文方法旨在分離句子間的直接影響,從而有望實(shí)現(xiàn)對(duì)邏輯連接更精確的建模。
作者通過(guò)抑制對(duì)特定句子的所有注意力(所有層和頭),觀察其對(duì)后續(xù)句子的影響。具體而言,影響程度定義為tokenlogits與基線(xiàn)logits(未抑制時(shí))的KL散度。對(duì)后續(xù)句子的總效應(yīng)計(jì)算為其組成tokenlog-KL散度的平均值。
該方法基于兩個(gè)假設(shè):
tokenlogits能準(zhǔn)確捕捉句子的語(yǔ)義內(nèi)容;
注意力抑制不會(huì)導(dǎo)致分布外行為的干擾。
因此需驗(yàn)證注意力抑制法與重采樣法的相關(guān)性——后者雖精度較低,但不依賴(lài)上述假設(shè)。
注意力抑制矩陣與重采樣矩陣的值呈現(xiàn)顯著相關(guān)性。在20條推理軌跡中,19條顯示正相關(guān)。當(dāng)僅分析推理軌跡中相距5句以?xún)?nèi)的案例時(shí)(可能更好捕捉直接效應(yīng)),相關(guān)性更強(qiáng)。考慮到兩種方法測(cè)量的是因果關(guān)系的不同維度,且重采樣法本身包含隨機(jī)噪聲,這些相關(guān)系數(shù)具有實(shí)質(zhì)意義。該結(jié)果支持了重采樣方法的有效性。
案例研究
所采用的三種技術(shù)覆蓋了推理軌跡中不同層面的歸因分析。接下來(lái),作者通過(guò)模型對(duì)具體問(wèn)題的響應(yīng)展示了這些技術(shù)的實(shí)用性和互補(bǔ)性。選用的例題是:「當(dāng)十六進(jìn)制數(shù)66666_16轉(zhuǎn)換為二進(jìn)制表示時(shí),它有多少個(gè)二進(jìn)制位(比特)?」
重采樣
模型處理此問(wèn)題的思路是:首先考慮66666_16包含5個(gè)十六進(jìn)制位,而每個(gè)十六進(jìn)制位可用4個(gè)二進(jìn)制位表示?;诖诉壿?,思維鏈最初得出「20比特」的答案。然而這一初始答案忽略了6_16實(shí)際對(duì)應(yīng)110_2(而非0110_2,因其最前面的0無(wú)效),因此正確答案應(yīng)為「19比特」。在第13句時(shí),模型通過(guò)啟動(dòng)將66666_16轉(zhuǎn)換為十進(jìn)制再轉(zhuǎn)二進(jìn)制的計(jì)算,轉(zhuǎn)向了正確解答。
重采樣方法揭示了這一初始錯(cuò)誤軌跡和關(guān)鍵轉(zhuǎn)折點(diǎn)(圖2A已展示)。具體表現(xiàn)為:第6-12句期間預(yù)期準(zhǔn)確率持續(xù)下降,但第13句使反事實(shí)準(zhǔn)確率急劇上升。值得注意的是,若采用強(qiáng)制模型立即生成響應(yīng)的評(píng)估方法(如部分已有研究所示),則會(huì)完全錯(cuò)過(guò)第13句的關(guān)鍵作用——該方法僅會(huì)得到0準(zhǔn)確率。
接收頭
模型得出最終正確答案的推理軌跡可分解為多個(gè)計(jì)算模塊(見(jiàn)圖6流程圖)。首先,模型建立將66666_16轉(zhuǎn)換為十進(jìn)制的計(jì)算公式(第13-19句);接著執(zhí)行該公式的計(jì)算,得出66666_16對(duì)應(yīng)的十進(jìn)制值為419,430(第20-33句);隨后通過(guò)提出并求解新公式,確定正確答案為「19比特」(第34-41句)。此時(shí)模型注意到與早期「20比特」答案的矛盾(第42-45句),于是啟動(dòng)雙重驗(yàn)證計(jì)算:先確認(rèn)十六進(jìn)制轉(zhuǎn)十進(jìn)制的準(zhǔn)確性(第46-58句),再校驗(yàn)二進(jìn)制轉(zhuǎn)換的正確性(第59-62句)。在強(qiáng)化對(duì)「19比特」答案的確信后,模型最終發(fā)現(xiàn)初始「20比特」錯(cuò)誤的根源:「因最前面的0不計(jì)入位數(shù)」(第66句)。
上述過(guò)程基于作者對(duì)注意力模式的分析:接收頭精準(zhǔn)定位了發(fā)起計(jì)算或陳述關(guān)鍵結(jié)論的句子,從而將推理軌跡劃分為具有明確意義的模塊(圖6)。
注意力抑制分析
除了被組織成計(jì)算模塊外,該推理過(guò)程還展現(xiàn)出與句子間依賴(lài)關(guān)系相關(guān)的框架結(jié)構(gòu)(圖6)。其中一個(gè)結(jié)構(gòu)特征是包含錯(cuò)誤提議、發(fā)現(xiàn)矛盾及最終解決的自我糾正模式。具體而言,模型最初提出「20比特」的錯(cuò)誤答案(第12句),隨后決定重新核驗(yàn)。這導(dǎo)致與通過(guò)十進(jìn)制轉(zhuǎn)換計(jì)算得出的「19比特」答案產(chǎn)生矛盾(第43-44句)。在重新核驗(yàn)支持「19比特」答案的運(yùn)算后,模型回到該矛盾點(diǎn)(第65句),最終解釋為何「20比特」答案是錯(cuò)誤的(第66句)。這可視為一個(gè)初步的思維鏈回路:兩個(gè)相互沖突的結(jié)論產(chǎn)生矛盾,進(jìn)而促使模型解決該矛盾。
在這個(gè)大跨度框架中,還存在驗(yàn)證先前計(jì)算的更深層依賴(lài)關(guān)系。具體表現(xiàn)為:模型先完成66666_16轉(zhuǎn)換為十進(jìn)制值419,430的計(jì)算(第32句),隨后決定核驗(yàn)該轉(zhuǎn)換結(jié)果(第46句),最終確認(rèn)原始值正確(第59句)。這可視作思維鏈回路的進(jìn)一步體現(xiàn)。
作者基于論文前面提到的注意力抑制矩陣識(shí)別出這些關(guān)鍵連接,該矩陣在這些關(guān)聯(lián)位置呈現(xiàn)局部最大值(12→43、43→65、12→66;32→46、32→59)。值得注意的是,注意力抑制技術(shù)定位的多數(shù)句子與接收頭(receiverheads)高度關(guān)注的句子存在重疊。相較于接收頭的結(jié)論,注意力抑制技術(shù)還展示了信息是如何在這些構(gòu)建推理軌跡的關(guān)鍵句子之間流動(dòng)的。
更多細(xì)節(jié)請(qǐng)參見(jiàn)原論文。
故事:女子偷看未婚夫聊天記錄,當(dāng)場(chǎng)傻眼后決定悔婚
周宅所處之地是一片新的開(kāi)發(fā)區(qū),平時(shí)車(chē)流量人流量都不多_。忽然,在綠燈的十字路口,另一個(gè)路口上本是什么。
來(lái)源:紅網(wǎng)
作者:遲安陽(yáng)
編輯:仍亦凝
本文為紅辣椒評(píng)論 原創(chuàng)文章,僅系作者個(gè)人觀點(diǎn),不代表紅網(wǎng)立場(chǎng)。轉(zhuǎn)載請(qǐng)附原文出處鏈接和本聲明。