憑美麗
機(jī)器之心報道
思維鏈里的步驟很重要,但有些步驟比其他步驟更重要,尤其是在一些比較長的思維鏈中。
找出這些步驟,我們就可以更深入地理解LLM的內(nèi)部推理機(jī)制,從而提高模型的可解釋性、可調(diào)試性和安全性。
但是,這些步驟沒有那么好找,因為每個生成的token都依賴于之前的所有token,其計算難以分解。
在最近的一項研究中,來自杜克大學(xué)和Aiphabet的研究者提出,在句子層面分析推理痕跡或許是一種有前途的方法。
論文標(biāo)題:ThoughtAnchors:WhichLLMReasoningStepsMatter?
作者指出,與token相比,句子的連貫性更強(qiáng),并且往往與LLM提取的推理步驟相一致;與段落相比,句子不太可能混淆推理步驟,并且可以作為連接不同步驟的有效對象。
作者提出了三種互補(bǔ)的方法來分析LLM的推理過程,這些方法旨在識別推理過程中的關(guān)鍵步驟,即所謂的「思維錨(thoughtanchor)」,這些步驟對后續(xù)推理過程具有重大影響。
第一種是黑盒方法。它通過反事實分析衡量句子對最終答案的影響。即通過比較模型在包含某個句子和不包含該句子時的最終答案分布,來評估該句子對最終答案的影響。
第二種是白盒方法。它通過注意力模式識別關(guān)鍵句子,揭示關(guān)鍵句子如何影響推理軌跡的其余部分。
第三種是因果歸因方法。它通過抑制注意力直接測量句子之間的因果關(guān)系,即抑制對特定句子的注意力如何影響后續(xù)每個句子的logits。
每種方法都為思維錨的存在提供了證據(jù)。這些推理步驟非常重要,對后續(xù)推理過程產(chǎn)生了不成比例的影響。這些思維錨通常是計劃句或回溯句。
作者提供了一個開源工具,用于可視化方法的輸出。
開源工具鏈接:http://thought-anchors.com/
這項研究也為更精確地調(diào)試推理失敗、識別不可靠性的來源以及開發(fā)提高推理模型可靠性的技術(shù)打開了大門。
通過反事實測量句子影響
有些句子比其他句子更重要,但哪些句子最重要取決于我們?nèi)绾味x和衡量重要性。作者將句子層面的重要性表述為一個反事實影響的問題:包含或排除一個句子會如何影響后續(xù)步驟以及模型的最終輸出?
在之前的研究中,句子重要性通常是通過在推理過程中的每個句子位置強(qiáng)制模型給出最終答案來近似的,這種方法叫做「forced-answer」(如圖3A)。
這種方法的一個局限性在于,對于某些最終答案而言,句子S可能是必要的,但LLM在推理過程中往往較晚才生成該句子。這意味著,對于出現(xiàn)在S之前的所有句子,強(qiáng)制回答的準(zhǔn)確率都會很低,從而無法準(zhǔn)確判斷這些早期步驟的重要性。
考慮一個由句子以及最終答案A組成的推理軌跡。作者通過重新采樣來定義一個度量,用以衡量句子S導(dǎo)致答案A出錯的程度。作者稱這個度量為反事實重要性。他們通過以下三個步驟來激勵并定義這個度量:
推理軌跡采樣。對于給定的句子S_i,生成100次推理軌跡。一種情況下包含句子S_i(干預(yù)條件),另一種情況下用一個語義不同的句子T_i替代S_i(基礎(chǔ)條件)。
分布比較。計算兩種條件下最終答案分布的KL散度。從而得到一個衡量句子S_i改變答案程度的標(biāo)量。作者稱其為重采樣重要性度量。
語義過濾。重采樣重要性的問題在于,如果T_i與S_i相同或相似,那么我們無法得知S_i是否重要。因此,作者通過計算句子對的余弦相似度,并設(shè)定一個相似度閾值,篩選出那些與原句子S_i語義不同的替代句子T_i。這樣可以避免因替代句子與原句子過于相似而導(dǎo)致的分析偏差,從而更準(zhǔn)確地評估S_i對最終答案的影響。
由于作者在給定句子S_i之后重新采樣所有步驟,因此避免了上述強(qiáng)制回答方法的局限性。
在數(shù)據(jù)集中,他們發(fā)現(xiàn)規(guī)劃生成(Plangeneration)和不確定性管理(uncertaintymanagement)例如,回溯)句子的反事實重要性始終高于其他類別的句子,如事實檢索或主動計算(見圖3B)。這支持了這樣一種觀點:高層次的組織性句子可以錨定、組織并引導(dǎo)推理軌跡。作者認(rèn)為,與強(qiáng)制回答重要性和先前基于token或注意力的度量相比,這種方法提供了更有信息量的結(jié)果。
通過注意力聚集衡量句子重要性
作者假設(shè)重要的句子可能會受到下游句子更多的關(guān)注。盡管注意力權(quán)重并不一定意味著因果聯(lián)系,但高度的關(guān)注是重要的句子可能對后續(xù)句子施加影響的合理機(jī)制。作者進(jìn)一步推測,對重要句子的高度關(guān)注可能由特定的注意力頭驅(qū)動,通過追蹤這些頭,可能能夠確定關(guān)鍵句子。
作者評估了不同的頭在多大程度上將注意力集中在特定的句子上。首先,對于每個推理軌跡,他們將每個注意力頭的token-token注意力權(quán)重矩陣取平均值,形成一個句子-句子矩陣,其中每個元素是兩個句子之間所有token對的平均值?;诿總€注意力矩陣,他們計算其對角線下方列的平均值,以衡量每個句子從所有下游句子中獲得的關(guān)注程度;只在相隔至少四個句子的句子對之間取平均值,以專注于遠(yuǎn)距離的連接。這為每個頭生成了一個分布(例如,圖4A),并且每個頭通常將注意力集中在特定句子上的程度可以通過其分布的峰度來量化(對每個推理軌跡進(jìn)行計算,然后在軌跡之間取平均值)。繪制每個頭的峰度圖表明,一些注意力頭強(qiáng)烈地將注意力集中在推理軌跡中特定的、可能是重要的句子上(圖4B)。
圖5表明,規(guī)劃生成、不確定性管理和自我檢查(selfchecking)句子始終通過接收頭獲得最多的關(guān)注(見圖5),而主動計算句子獲得的關(guān)注最少。進(jìn)一步與這一發(fā)現(xiàn)一致的是,根據(jù)重采樣方法,那些獲得高接收頭關(guān)注的句子往往也會對下游句子產(chǎn)生更大的影響。這些發(fā)現(xiàn)與以下觀點相符:推理軌跡是圍繞高層句子構(gòu)建的——這些句子啟動的計算可能連接高層陳述,但對整體推理路徑的影響可能微乎其微。
通過「注意力抑制」衡量句子重要性
自然而言,考察注意力權(quán)重存在一個固有局限:它們無法衡量因果關(guān)系。此外,接收頭未必適合識別句子與單個后續(xù)句子間的關(guān)聯(lián)。因此,作者接下來聚焦于句子間依賴關(guān)系的因果歸因分析。
基于重采樣的句子間分析雖能考察此類依賴關(guān)系,但在映射邏輯連接時精度有限——因為反事實重要性反映的是句子對另一句子的總效應(yīng)(包括直接和間接影響)。而本文方法旨在分離句子間的直接影響,從而有望實現(xiàn)對邏輯連接更精確的建模。
作者通過抑制對特定句子的所有注意力(所有層和頭),觀察其對后續(xù)句子的影響。具體而言,影響程度定義為tokenlogits與基線logits(未抑制時)的KL散度。對后續(xù)句子的總效應(yīng)計算為其組成tokenlog-KL散度的平均值。
該方法基于兩個假設(shè):
tokenlogits能準(zhǔn)確捕捉句子的語義內(nèi)容;
注意力抑制不會導(dǎo)致分布外行為的干擾。
因此需驗證注意力抑制法與重采樣法的相關(guān)性——后者雖精度較低,但不依賴上述假設(shè)。
注意力抑制矩陣與重采樣矩陣的值呈現(xiàn)顯著相關(guān)性。在20條推理軌跡中,19條顯示正相關(guān)。當(dāng)僅分析推理軌跡中相距5句以內(nèi)的案例時(可能更好捕捉直接效應(yīng)),相關(guān)性更強(qiáng)??紤]到兩種方法測量的是因果關(guān)系的不同維度,且重采樣法本身包含隨機(jī)噪聲,這些相關(guān)系數(shù)具有實質(zhì)意義。該結(jié)果支持了重采樣方法的有效性。
案例研究
所采用的三種技術(shù)覆蓋了推理軌跡中不同層面的歸因分析。接下來,作者通過模型對具體問題的響應(yīng)展示了這些技術(shù)的實用性和互補(bǔ)性。選用的例題是:「當(dāng)十六進(jìn)制數(shù)66666_16轉(zhuǎn)換為二進(jìn)制表示時,它有多少個二進(jìn)制位(比特)?」
重采樣
模型處理此問題的思路是:首先考慮66666_16包含5個十六進(jìn)制位,而每個十六進(jìn)制位可用4個二進(jìn)制位表示?;诖诉壿?,思維鏈最初得出「20比特」的答案。然而這一初始答案忽略了6_16實際對應(yīng)110_2(而非0110_2,因其最前面的0無效),因此正確答案應(yīng)為「19比特」。在第13句時,模型通過啟動將66666_16轉(zhuǎn)換為十進(jìn)制再轉(zhuǎn)二進(jìn)制的計算,轉(zhuǎn)向了正確解答。
重采樣方法揭示了這一初始錯誤軌跡和關(guān)鍵轉(zhuǎn)折點(圖2A已展示)。具體表現(xiàn)為:第6-12句期間預(yù)期準(zhǔn)確率持續(xù)下降,但第13句使反事實準(zhǔn)確率急劇上升。值得注意的是,若采用強(qiáng)制模型立即生成響應(yīng)的評估方法(如部分已有研究所示),則會完全錯過第13句的關(guān)鍵作用——該方法僅會得到0準(zhǔn)確率。
接收頭
模型得出最終正確答案的推理軌跡可分解為多個計算模塊(見圖6流程圖)。首先,模型建立將66666_16轉(zhuǎn)換為十進(jìn)制的計算公式(第13-19句);接著執(zhí)行該公式的計算,得出66666_16對應(yīng)的十進(jìn)制值為419,430(第20-33句);隨后通過提出并求解新公式,確定正確答案為「19比特」(第34-41句)。此時模型注意到與早期「20比特」答案的矛盾(第42-45句),于是啟動雙重驗證計算:先確認(rèn)十六進(jìn)制轉(zhuǎn)十進(jìn)制的準(zhǔn)確性(第46-58句),再校驗二進(jìn)制轉(zhuǎn)換的正確性(第59-62句)。在強(qiáng)化對「19比特」答案的確信后,模型最終發(fā)現(xiàn)初始「20比特」錯誤的根源:「因最前面的0不計入位數(shù)」(第66句)。
上述過程基于作者對注意力模式的分析:接收頭精準(zhǔn)定位了發(fā)起計算或陳述關(guān)鍵結(jié)論的句子,從而將推理軌跡劃分為具有明確意義的模塊(圖6)。
注意力抑制分析
除了被組織成計算模塊外,該推理過程還展現(xiàn)出與句子間依賴關(guān)系相關(guān)的框架結(jié)構(gòu)(圖6)。其中一個結(jié)構(gòu)特征是包含錯誤提議、發(fā)現(xiàn)矛盾及最終解決的自我糾正模式。具體而言,模型最初提出「20比特」的錯誤答案(第12句),隨后決定重新核驗。這導(dǎo)致與通過十進(jìn)制轉(zhuǎn)換計算得出的「19比特」答案產(chǎn)生矛盾(第43-44句)。在重新核驗支持「19比特」答案的運算后,模型回到該矛盾點(第65句),最終解釋為何「20比特」答案是錯誤的(第66句)。這可視為一個初步的思維鏈回路:兩個相互沖突的結(jié)論產(chǎn)生矛盾,進(jìn)而促使模型解決該矛盾。
在這個大跨度框架中,還存在驗證先前計算的更深層依賴關(guān)系。具體表現(xiàn)為:模型先完成66666_16轉(zhuǎn)換為十進(jìn)制值419,430的計算(第32句),隨后決定核驗該轉(zhuǎn)換結(jié)果(第46句),最終確認(rèn)原始值正確(第59句)。這可視作思維鏈回路的進(jìn)一步體現(xiàn)。
作者基于論文前面提到的注意力抑制矩陣識別出這些關(guān)鍵連接,該矩陣在這些關(guān)聯(lián)位置呈現(xiàn)局部最大值(12→43、43→65、12→66;32→46、32→59)。值得注意的是,注意力抑制技術(shù)定位的多數(shù)句子與接收頭(receiverheads)高度關(guān)注的句子存在重疊。相較于接收頭的結(jié)論,注意力抑制技術(shù)還展示了信息是如何在這些構(gòu)建推理軌跡的關(guān)鍵句子之間流動的。
更多細(xì)節(jié)請參見原論文。
星際大航海時代,爛泥學(xué)生覺醒神秘龍印,逆襲成無雙戰(zhàn)神,震撼星際!
星際廢柴少年獲神秘龍印,逆襲成無雙戰(zhàn)神,征戰(zhàn)浩瀚星空!今日推薦:《龍印戰(zhàn)神》作者:半步滄桑。點擊文末超鏈接開始觀看吧~第402章武基如海武學(xué)一道,固然要打好根基,循序漸進(jìn),但是,孫言想及被監(jiān)禁在梵皇星的母親,他心中就有一種緊迫感。所幸,修煉【擎天一柱功】有成,體內(nèi)孕育命火,開化星輪之雛形后說完了。
星際大航海,廢柴少年覺醒龍印,無雙戰(zhàn)神崛起,橫掃星空巔峰!
星際大航海時代,爛泥學(xué)生獲神秘龍印,逆襲無雙戰(zhàn)神,登臨星空巔峰!今日推薦:《龍印戰(zhàn)神》作者:半步滄桑_。點擊文末超鏈接開始觀看吧~第074章木總管木總管瞪了一眼,道:“我掌管這么多家地下拍賣場,倉庫的味道,我能不清楚?”說著,木總管撇下吳經(jīng)理,循著那股氣味走去,來到一堆貨物前,仔細(xì)聞了聞,信手說完了。
龍印戰(zhàn)神逆襲!爛泥學(xué)生變無雙天才,星空巔峰等你來戰(zhàn)!
星際大航海時代,廢柴逆襲成無雙戰(zhàn)神!龍印加身,征服浩瀚星空!今日推薦:《龍印戰(zhàn)神》作者:半步滄桑。點擊文末超鏈接開始觀看吧~第902章七鍛王者之境七大元力池如元力的中樞,每一次催動龍元,全身的元力便循行起來,在實質(zhì)和霧化之間,不斷的轉(zhuǎn)換著。這種元力運轉(zhuǎn)的速度,比之前迅快十倍,孫言甚至有一種感覺還有呢?
來源:紅網(wǎng)
作者:倪欣穎
編輯:李舒念
本文為紅辣椒評論 原創(chuàng)文章,僅系作者個人觀點,不代表紅網(wǎng)立場。轉(zhuǎn)載請附原文出處鏈接和本聲明。