這項(xiàng)由GoogleResearch和以色列理工學(xué)院Technion聯(lián)合開(kāi)展的研究,于2025年3月發(fā)表在arXiv預(yù)印本平臺(tái)上,論文題目為《Inside-Out:HiddenFactualKnowledgeinLLMs》。研究的主要作者包括來(lái)自Technion的ZorikGekhman、HadasOrgad、YonatanBelinkov和RoiReichart,以及來(lái)自GoogleResearch的EyalBenDavid、EranOfek、IdanSzpektor和JonathanHerzig。有興趣深入了解的讀者可以通過(guò)arXiv:2503.15299v2訪(fǎng)問(wèn)完整論文。
你有沒(méi)有過(guò)這樣的體驗(yàn):明明知道一個(gè)答案,卻怎么也說(shuō)不出口?比如某個(gè)熟人的名字就在嘴邊,但就是想不起來(lái)。這種"話(huà)到嘴邊"的現(xiàn)象在心理學(xué)中被稱(chēng)為"舌尖現(xiàn)象"。有趣的是,大型語(yǔ)言模型似乎也會(huì)遇到類(lèi)似的困擾。
近年來(lái),ChatGPT、Claude等AI助手在回答問(wèn)題時(shí)表現(xiàn)越來(lái)越出色,但科學(xué)家們開(kāi)始懷疑:這些AI模型是否真的把它們知道的一切都告訴了我們?會(huì)不會(huì)有些知識(shí)深藏在模型內(nèi)部,卻從來(lái)不在對(duì)話(huà)中表露出來(lái)?
這個(gè)問(wèn)題不僅僅是學(xué)術(shù)好奇心那么簡(jiǎn)單。如果AI模型確實(shí)隱藏著大量未被表達(dá)的知識(shí),那么我們可能需要開(kāi)發(fā)新的方法來(lái)"挖掘"這些隱性知識(shí),從而顯著提升AI的表現(xiàn)。另一方面,從安全角度考慮,如果模型內(nèi)部存儲(chǔ)著它們從不主動(dòng)分享的敏感信息,這些信息在某些情況下可能會(huì)意外泄露,帶來(lái)潛在風(fēng)險(xiǎn)。
為了回答這個(gè)問(wèn)題,研究團(tuán)隊(duì)提出了一個(gè)全新的框架,用來(lái)系統(tǒng)性地評(píng)估大語(yǔ)言模型是否真的存在"隱性知識(shí)"現(xiàn)象。他們的發(fā)現(xiàn)令人震驚:AI模型確實(shí)知道很多它們從不說(shuō)出口的事實(shí),這種"隱性知識(shí)"與"外顯知識(shí)"之間平均存在40%的差距。更令人驚訝的是,有些答案模型內(nèi)部完全知道,但即使讓它連續(xù)回答1000次,也可能一次都不會(huì)說(shuō)出正確答案。
**一、什么是隱性知識(shí):當(dāng)AI心里明白卻不愿說(shuō)**
要理解什么是"隱性知識(shí)",我們先要明確什么是"知識(shí)"本身。對(duì)于人類(lèi)來(lái)說(shuō),知識(shí)的定義相對(duì)直觀(guān),但對(duì)于A(yíng)I模型來(lái)說(shuō),這個(gè)概念就復(fù)雜多了。研究團(tuán)隊(duì)首先需要為AI的"知識(shí)"建立一個(gè)清晰的定義。
研究團(tuán)隊(duì)把AI的知識(shí)能力比作一位美食評(píng)委的打分能力。當(dāng)面對(duì)同一道菜的多個(gè)版本時(shí),一個(gè)合格的美食評(píng)委應(yīng)該能夠準(zhǔn)確判斷哪個(gè)版本更美味,哪個(gè)版本有問(wèn)題。同樣,如果一個(gè)AI模型真的"知道"某個(gè)事實(shí),那么當(dāng)你給它提供正確答案和錯(cuò)誤答案時(shí),它應(yīng)該能夠給正確答案打更高的分?jǐn)?shù)。
具體來(lái)說(shuō),研究團(tuán)隊(duì)設(shè)計(jì)了這樣一個(gè)測(cè)試方法:對(duì)于任何一個(gè)事實(shí)性問(wèn)題,比如"法國(guó)的首都是哪里?",他們會(huì)準(zhǔn)備很多可能的答案,包括正確的(巴黎、巴黎市等)和錯(cuò)誤的(倫敦、紐約等)。然后讓AI模型為每個(gè)答案打分。如果模型真的知道法國(guó)首都是巴黎,那么它應(yīng)該給所有正確答案的評(píng)分都高于所有錯(cuò)誤答案的評(píng)分。
基于這個(gè)思路,研究團(tuán)隊(duì)將AI的知識(shí)分為兩大類(lèi)。第一類(lèi)是"外顯知識(shí)",這相當(dāng)于A(yíng)I在正常對(duì)話(huà)中會(huì)表現(xiàn)出來(lái)的知識(shí)水平。測(cè)量外顯知識(shí)時(shí),研究者只能使用AI模型對(duì)外可見(jiàn)的信息,比如它生成每個(gè)詞匯的概率,或者它對(duì)某個(gè)答案正確性的判斷概率。
第二類(lèi)是"內(nèi)在知識(shí)",這相當(dāng)于A(yíng)I內(nèi)心真正掌握的知識(shí)水平。測(cè)量?jī)?nèi)在知識(shí)時(shí),研究者可以深入AI的"大腦"內(nèi)部,查看它在處理信息時(shí)產(chǎn)生的中間狀態(tài)和內(nèi)部表征。這就像是能夠讀取一個(gè)人的腦電波,了解他們大腦中真正在想什么,而不僅僅是聽(tīng)他們說(shuō)什么。
當(dāng)AI的內(nèi)在知識(shí)超過(guò)外顯知識(shí)時(shí),就出現(xiàn)了"隱性知識(shí)"現(xiàn)象。這意味著AI內(nèi)部其實(shí)知道正確答案,但由于某種原因,這些知識(shí)沒(méi)有很好地轉(zhuǎn)化為它的外部表現(xiàn)。
為了讓這個(gè)概念更容易理解,我們可以把AI比作一個(gè)有舞臺(tái)恐懼癥的學(xué)者。這位學(xué)者私下里知識(shí)淵博,能夠準(zhǔn)確判斷各種學(xué)術(shù)問(wèn)題的對(duì)錯(cuò),但一旦站在講臺(tái)上面對(duì)觀(guān)眾,就會(huì)變得結(jié)結(jié)巴巴,無(wú)法完整表達(dá)自己的想法。AI的隱性知識(shí)現(xiàn)象與此類(lèi)似:模型內(nèi)部的"學(xué)者"知道答案,但負(fù)責(zé)"演講"的部分卻無(wú)法準(zhǔn)確傳達(dá)這些知識(shí)。
這種現(xiàn)象的存在提出了一個(gè)重要問(wèn)題:為什么AI會(huì)出現(xiàn)這種內(nèi)外不一致的情況?研究結(jié)果表明,這可能是AI語(yǔ)言生成機(jī)制本身的局限性導(dǎo)致的。就像一個(gè)人可能理解復(fù)雜的數(shù)學(xué)概念,卻無(wú)法用簡(jiǎn)單的語(yǔ)言向小學(xué)生解釋清楚一樣,AI模型可能在內(nèi)部"理解"了某個(gè)事實(shí),但在將這種理解轉(zhuǎn)化為自然語(yǔ)言輸出時(shí)遇到了困難。
**二、實(shí)驗(yàn)設(shè)計(jì):如何測(cè)試AI的真實(shí)想法**
為了驗(yàn)證隱性知識(shí)的存在,研究團(tuán)隊(duì)設(shè)計(jì)了一套精密的實(shí)驗(yàn)方案。他們選擇了三個(gè)不同的主流AI模型進(jìn)行測(cè)試:Meta公司的Llama-3-8B-Instruct、Mistral公司的Mistral-7B-Instruct,以及Google的Gemma-2-9B-Instruct。這三個(gè)模型代表了當(dāng)前AI技術(shù)的不同發(fā)展方向,能夠提供更全面的研究結(jié)果。
實(shí)驗(yàn)的核心挑戰(zhàn)是如何構(gòu)建一個(gè)公平且全面的測(cè)試環(huán)境。研究團(tuán)隊(duì)從Wikidata這個(gè)大型知識(shí)庫(kù)中精心挑選了大約1700個(gè)事實(shí)性問(wèn)題,這些問(wèn)題涵蓋了四種不同類(lèi)型的關(guān)系:配偶關(guān)系(誰(shuí)和誰(shuí)結(jié)婚)、制造商關(guān)系(某個(gè)產(chǎn)品是哪家公司生產(chǎn)的)、唱片公司關(guān)系(某位藝術(shù)家簽約了哪家唱片公司)以及作者關(guān)系(某本書(shū)是誰(shuí)寫(xiě)的)。
選擇這四種關(guān)系類(lèi)型并非隨意決定。研究團(tuán)隊(duì)特意選擇了那些難以猜測(cè)且答案明確唯一的問(wèn)題。比如,猜測(cè)某個(gè)人的配偶比猜測(cè)某個(gè)人的職業(yè)要困難得多,因?yàn)槁殬I(yè)的可能性相對(duì)有限,而全世界有數(shù)十億人口,配偶關(guān)系基本上是獨(dú)一無(wú)二的。同樣,某本書(shū)的作者通常是確定的,不存在模糊或爭(zhēng)議的情況。
對(duì)于每個(gè)問(wèn)題,研究團(tuán)隊(duì)采用了一種創(chuàng)新的答案生成策略。他們讓AI模型對(duì)同一個(gè)問(wèn)題連續(xù)回答1000次,每次都使用不同的隨機(jī)性設(shè)置,以便收集盡可能多樣化的答案。這個(gè)過(guò)程就像是讓一個(gè)人在不同的心理狀態(tài)下反復(fù)回答同一個(gè)問(wèn)題,看看他們會(huì)給出多少種不同的答案。
有趣的是,研究團(tuán)隊(duì)發(fā)現(xiàn)在大約64%的情況下,即使讓模型回答1000次,也無(wú)法得到正確答案。這意味著有很多知識(shí),AI模型要么完全不知道,要么知道但極難表達(dá)出來(lái)。為了區(qū)分這兩種情況,研究團(tuán)隊(duì)在答案集合中手動(dòng)加入了正確答案,然后觀(guān)察模型的內(nèi)部反應(yīng)。
為了評(píng)估AI的外顯知識(shí),研究團(tuán)隊(duì)使用了幾種不同的方法。第一種方法是直接測(cè)量AI生成特定答案的概率。這就像是問(wèn)一個(gè)人:"你覺(jué)得這個(gè)答案有多大可能是正確的?"第二種方法是讓AI扮演判官的角色,直接判斷給定答案是否正確,然后觀(guān)察它說(shuō)"正確"的概率有多高。
評(píng)估內(nèi)在知識(shí)的方法則更加技術(shù)性。研究團(tuán)隊(duì)訓(xùn)練了一個(gè)專(zhuān)門(mén)的"探測(cè)器",這個(gè)探測(cè)器能夠讀取AI模型在處理問(wèn)題時(shí)的內(nèi)部狀態(tài),然后判斷AI在內(nèi)心深處是否真的知道正確答案。這個(gè)過(guò)程類(lèi)似于訓(xùn)練一個(gè)心理學(xué)家,讓他們通過(guò)觀(guān)察一個(gè)人的微表情和生理反應(yīng)來(lái)判斷這個(gè)人是否在說(shuō)謊或隱瞞什么。
這種探測(cè)器的訓(xùn)練過(guò)程需要大量的例子。研究團(tuán)隊(duì)首先找到了那些AI能夠正確回答的問(wèn)題,然后記錄下AI在處理這些問(wèn)題時(shí)的內(nèi)部狀態(tài)模式。接著,他們訓(xùn)練探測(cè)器識(shí)別這些"知道答案"的模式,使其能夠在新的問(wèn)題上判斷AI是否真的知道答案,即使AI沒(méi)有說(shuō)出來(lái)。
**三、令人震驚的發(fā)現(xiàn):AI確實(shí)在隱藏知識(shí)**
實(shí)驗(yàn)結(jié)果令研究團(tuán)隊(duì)大為震驚。在所有測(cè)試的12種組合(3個(gè)模型×4種關(guān)系類(lèi)型)中,AI的內(nèi)在知識(shí)水平都顯著高于其外顯知識(shí)水平,而且這種差異在統(tǒng)計(jì)學(xué)上都是顯著的,不是偶然現(xiàn)象。
更具體地說(shuō),AI模型平均存在40%的隱性知識(shí)差距。這意味著如果一個(gè)AI模型在外部表現(xiàn)中只能正確處理60%的問(wèn)題,那么它的內(nèi)部實(shí)際上可能掌握著處理84%問(wèn)題的能力。這種差距的大小因模型而異:Google的Gemma模型顯示出最大的隱性知識(shí)差距,達(dá)到57%,而Meta的Llama模型的差距相對(duì)較小,為14%。
這種差異的存在表明,不同的AI模型在將內(nèi)部知識(shí)轉(zhuǎn)化為外部表現(xiàn)方面的能力存在顯著差異。這就像是不同的人在表達(dá)能力上的天賦差異:有些人思維敏捷但表達(dá)能力有限,有些人則能夠?qū)?fù)雜的想法清晰地傳達(dá)給別人。
研究還發(fā)現(xiàn)了一個(gè)特別有趣的現(xiàn)象:在測(cè)試AI判斷能力的實(shí)驗(yàn)中,所有模型都表現(xiàn)出了比單純生成答案更強(qiáng)的知識(shí)水平。這意味著AI在"識(shí)別正確答案"方面的能力要強(qiáng)于"主動(dòng)生成正確答案"的能力。這種現(xiàn)象類(lèi)似于人類(lèi)在選擇題和填空題上的表現(xiàn)差異:大多數(shù)人在看到選項(xiàng)時(shí)能夠識(shí)別出正確答案,但如果沒(méi)有選項(xiàng)提示,可能就想不起來(lái)。
然而,最令人驚訝的發(fā)現(xiàn)是關(guān)于"完全隱藏的知識(shí)"。研究團(tuán)隊(duì)發(fā)現(xiàn),在大約9%的測(cè)試問(wèn)題中,AI的內(nèi)部探測(cè)器能夠完美地識(shí)別出正確答案,將其排在所有錯(cuò)誤答案之前,但同時(shí)AI在1000次生成嘗試中竟然一次都沒(méi)有產(chǎn)生過(guò)這個(gè)正確答案。這種現(xiàn)象用數(shù)據(jù)來(lái)說(shuō)明就是:AI內(nèi)心完全知道答案是什么,知識(shí)掌握程度達(dá)到100%,但表達(dá)能力卻是0%。
這種"完全隱藏知識(shí)"的存在揭示了AI語(yǔ)言生成機(jī)制的一個(gè)根本性局限。研究團(tuán)隊(duì)將此比作一種極端的"舌尖現(xiàn)象":就像一個(gè)人可能完全知道某個(gè)單詞的意思,能夠在聽(tīng)到時(shí)立即識(shí)別,但就是無(wú)法主動(dòng)說(shuō)出這個(gè)詞一樣。對(duì)于A(yíng)I來(lái)說(shuō),這意味著某些正確答案由于概率太低,在正常的生成過(guò)程中幾乎永遠(yuǎn)不會(huì)被選中,即使模型內(nèi)部完全"知道"這就是正確答案。
為了更直觀(guān)地理解這個(gè)現(xiàn)象,研究團(tuán)隊(duì)提供了一個(gè)具體例子。當(dāng)問(wèn)及"沃爾沃B58是由哪家公司生產(chǎn)的?"時(shí),正確答案應(yīng)該是"沃爾沃巴士"(VolvoBuses),因?yàn)锽58指的是一款巴士產(chǎn)品。然而,由于"B58"也是寶馬公司一款發(fā)動(dòng)機(jī)的名稱(chēng),AI在生成答案時(shí)可能會(huì)被誤導(dǎo)。實(shí)驗(yàn)顯示,盡管AI的內(nèi)部探測(cè)器能夠完美地將"沃爾沃巴士"排在所有錯(cuò)誤答案之前,但AI在1000次嘗試中從未自主生成過(guò)這個(gè)正確答案,只生成了不夠精確的"沃爾沃"。
**四、隱性知識(shí)的實(shí)際應(yīng)用:提升AI表現(xiàn)的新途徑**
發(fā)現(xiàn)隱性知識(shí)的存在不僅僅具有理論意義,還為改善AI系統(tǒng)的實(shí)際表現(xiàn)提供了新的思路。研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)實(shí)際應(yīng)用實(shí)驗(yàn),來(lái)驗(yàn)證是否能夠利用隱性知識(shí)來(lái)提升AI在問(wèn)答任務(wù)中的表現(xiàn)。
實(shí)驗(yàn)的基本思路是這樣的:讓AI模型對(duì)同一個(gè)問(wèn)題生成大量不同的答案(在這個(gè)實(shí)驗(yàn)中是1000個(gè)答案),然后使用內(nèi)部探測(cè)器來(lái)評(píng)估每個(gè)答案的正確性,最終選擇得分最高的答案作為最終回答。這種方法類(lèi)似于讓一個(gè)人在考試時(shí)先寫(xiě)下所有能想到的可能答案,然后仔細(xì)思考哪個(gè)最有可能正確。
實(shí)驗(yàn)結(jié)果顯示,這種方法相比傳統(tǒng)的貪婪解碼(即直接選擇概率最高的答案)平均提升了12%的準(zhǔn)確率。這個(gè)提升幅度雖然看起來(lái)不大,但在A(yíng)I領(lǐng)域已經(jīng)是相當(dāng)顯著的改進(jìn)了。更重要的是,這種改進(jìn)驗(yàn)證了隱性知識(shí)確實(shí)可以被有效利用。
然而,研究還揭示了一個(gè)更加引人深思的發(fā)現(xiàn):理論上可能實(shí)現(xiàn)的改進(jìn)幅度遠(yuǎn)超過(guò)實(shí)際達(dá)到的12%。如果AI能夠完美地利用其所有隱性知識(shí),準(zhǔn)確率的提升可能達(dá)到52%,也就是說(shuō)還有額外40%的改進(jìn)空間由于A(yíng)I生成機(jī)制的限制而無(wú)法實(shí)現(xiàn)。
這種"可達(dá)但不可及"的改進(jìn)空間主要源于前面提到的"完全隱藏知識(shí)"現(xiàn)象。對(duì)于那些AI內(nèi)部完全知道但從不生成的答案,即使我們有完美的評(píng)估方法,也無(wú)法選擇一個(gè)從未出現(xiàn)的答案。這就像是一個(gè)人心里知道正確答案,但由于某種心理障礙永遠(yuǎn)說(shuō)不出口,外人即使能讀懂他的內(nèi)心,也無(wú)法幫他克服這個(gè)障礙。
這個(gè)發(fā)現(xiàn)對(duì)于A(yíng)I系統(tǒng)的設(shè)計(jì)和優(yōu)化具有重要啟示。傳統(tǒng)的AI優(yōu)化方法主要關(guān)注如何讓模型學(xué)習(xí)更多知識(shí),但這項(xiàng)研究表明,同樣重要的可能是如何讓模型更好地表達(dá)它已經(jīng)掌握的知識(shí)。這就像是教育中不僅要讓學(xué)生學(xué)會(huì)知識(shí),還要培養(yǎng)他們的表達(dá)和溝通能力。
研究團(tuán)隊(duì)的實(shí)驗(yàn)還顯示出不同AI模型在隱性知識(shí)利用方面的顯著差異。一些模型能夠相對(duì)容易地將內(nèi)部知識(shí)轉(zhuǎn)化為外部表現(xiàn),而另一些模型則在這方面存在更大困難。這種差異可能與模型的訓(xùn)練方法、架構(gòu)設(shè)計(jì)或者數(shù)據(jù)處理方式有關(guān),為未來(lái)的AI模型改進(jìn)提供了明確的方向。
**五、深層機(jī)制:為什么AI會(huì)隱藏知識(shí)**
要理解AI為什么會(huì)存在隱性知識(shí)現(xiàn)象,我們需要深入探討AI語(yǔ)言生成的基本機(jī)制。現(xiàn)代大語(yǔ)言模型在生成文本時(shí)采用的是一種叫做"自回歸生成"的方法,這種方法類(lèi)似于一個(gè)人在說(shuō)話(huà)時(shí)逐字逐句地組織語(yǔ)言。
在這個(gè)過(guò)程中,AI需要在每一步都從數(shù)萬(wàn)個(gè)可能的詞匯中選擇下一個(gè)詞。這種選擇通?;诟怕剩篈I會(huì)計(jì)算每個(gè)詞匯的可能性,然后選擇概率最高的那個(gè)。然而,這種機(jī)制存在一個(gè)根本性問(wèn)題:即使AI內(nèi)部"知道"某個(gè)答案是正確的,如果這個(gè)答案由概率較低的詞匯組成,它在生成過(guò)程中就可能永遠(yuǎn)不會(huì)被選中。
這種情況類(lèi)似于一個(gè)知識(shí)淵博但說(shuō)話(huà)謹(jǐn)慎的人。這個(gè)人可能知道一個(gè)不太常見(jiàn)但完全正確的答案,但由于擔(dān)心別人不理解或認(rèn)為這個(gè)答案太過(guò)冷門(mén),就選擇了一個(gè)更常見(jiàn)但可能不夠準(zhǔn)確的表達(dá)。AI的生成機(jī)制在某種程度上也體現(xiàn)了這種"保守傾向":它傾向于生成那些在訓(xùn)練數(shù)據(jù)中經(jīng)常出現(xiàn)的、"安全"的答案,而不是那些可能更準(zhǔn)確但相對(duì)少見(jiàn)的答案。
研究還發(fā)現(xiàn)了AI在不同知識(shí)獲取方式上的表現(xiàn)差異。當(dāng)AI需要主動(dòng)生成答案時(shí),它必須從零開(kāi)始構(gòu)建回答,這個(gè)過(guò)程容易受到各種干擾和限制。但當(dāng)AI只需要判斷給定答案的正確性時(shí),它可以充分利用內(nèi)部的知識(shí)表征來(lái)進(jìn)行比較和評(píng)估,因此表現(xiàn)更好。
這種差異可以用人類(lèi)的認(rèn)知心理學(xué)來(lái)類(lèi)比。心理學(xué)研究表明,人類(lèi)的記憶檢索存在兩種不同的模式:回憶(recall)和再認(rèn)(recognition)。回憶是指在沒(méi)有提示的情況下主動(dòng)想起某個(gè)信息,而再認(rèn)是指在看到某個(gè)信息時(shí)能夠判斷是否之前見(jiàn)過(guò)。一般來(lái)說(shuō),再認(rèn)比回憶更容易,這也解釋了為什么選擇題通常比填空題更容易。
AI的隱性知識(shí)現(xiàn)象可能反映了類(lèi)似的認(rèn)知機(jī)制差異。AI在"再認(rèn)"正確答案方面的能力(內(nèi)在知識(shí))可能遠(yuǎn)超其"回憶"答案的能力(外顯知識(shí))。這種差異不是AI獨(dú)有的缺陷,而可能是信息處理系統(tǒng)的普遍特征。
另一個(gè)可能的解釋與AI的訓(xùn)練過(guò)程有關(guān)。大語(yǔ)言模型在訓(xùn)練時(shí)主要學(xué)習(xí)如何預(yù)測(cè)文本序列中的下一個(gè)詞,這種訓(xùn)練目標(biāo)可能導(dǎo)致模型更擅長(zhǎng)識(shí)別和評(píng)估文本,而不是主動(dòng)生成文本。這就像是一個(gè)人通過(guò)大量閱讀培養(yǎng)了excellent的文學(xué)鑒賞能力,能夠準(zhǔn)確判斷詩(shī)歌的好壞,但自己寫(xiě)詩(shī)的能力卻相對(duì)有限。
**六、對(duì)未來(lái)AI發(fā)展的啟示**
這項(xiàng)研究的發(fā)現(xiàn)對(duì)AI技術(shù)的未來(lái)發(fā)展具有深遠(yuǎn)影響。首先,它揭示了當(dāng)前AI評(píng)估方法的局限性。傳統(tǒng)上,我們主要通過(guò)AI的輸出表現(xiàn)來(lái)評(píng)估其能力,但這項(xiàng)研究表明,這種評(píng)估方法可能?chē)?yán)重低估了AI的真實(shí)能力水平。這就像是僅僅通過(guò)一個(gè)人的口頭表達(dá)能力來(lái)判斷其知識(shí)水平,而忽視了他可能存在的表達(dá)障礙。
對(duì)于A(yíng)I系統(tǒng)的設(shè)計(jì)者來(lái)說(shuō),這項(xiàng)研究提出了一個(gè)新的優(yōu)化方向:如何幫助AI更好地表達(dá)其內(nèi)部知識(shí)。傳統(tǒng)的AI改進(jìn)策略主要關(guān)注如何讓模型學(xué)習(xí)更多知識(shí),但現(xiàn)在看來(lái),改善知識(shí)的外化機(jī)制可能同樣重要。這可能需要開(kāi)發(fā)新的訓(xùn)練方法、解碼策略或模型架構(gòu)。
研究還顯示出不同AI模型在隱性知識(shí)方面的顯著差異,這為模型選擇和應(yīng)用提供了新的考量因素。在選擇AI模型時(shí),除了考慮其整體性能外,還需要考慮其知識(shí)外化的有效性。對(duì)于需要高準(zhǔn)確性的應(yīng)用場(chǎng)景,可能需要選擇那些隱性知識(shí)較少的模型,或者開(kāi)發(fā)特殊的方法來(lái)挖掘隱性知識(shí)。
從安全和可靠性角度來(lái)看,隱性知識(shí)的存在既帶來(lái)了機(jī)遇也帶來(lái)了挑戰(zhàn)。一方面,它意味著AI系統(tǒng)可能具有比我們預(yù)期更強(qiáng)的能力,這為性能提升提供了可能。另一方面,它也意味著AI系統(tǒng)的行為可能比我們想象的更難預(yù)測(cè),因?yàn)槲覀儫o(wú)法完全了解AI內(nèi)部掌握了哪些知識(shí)。
對(duì)于A(yíng)I的實(shí)際應(yīng)用來(lái)說(shuō),這項(xiàng)研究建議了一種新的使用策略:通過(guò)生成多個(gè)候選答案并使用內(nèi)部評(píng)估機(jī)制選擇最佳答案的方法。雖然這種方法需要更多的計(jì)算資源,但在準(zhǔn)確性要求較高的場(chǎng)景中可能是值得的。這類(lèi)似于讓一個(gè)專(zhuān)家在重要決策前多想幾種方案,然后選擇最優(yōu)的那個(gè)。
研究還強(qiáng)調(diào)了開(kāi)發(fā)更好的AI內(nèi)部狀態(tài)探測(cè)方法的重要性。目前使用的線(xiàn)性探測(cè)器雖然有效,但可能還不能完全挖掘AI的內(nèi)部知識(shí)。未來(lái)可能需要開(kāi)發(fā)更精密的探測(cè)技術(shù),就像醫(yī)學(xué)影像技術(shù)的發(fā)展讓我們能夠更清楚地"看到"人體內(nèi)部的情況一樣。
**七、局限性與未來(lái)研究方向**
雖然這項(xiàng)研究取得了重要發(fā)現(xiàn),但研究團(tuán)隊(duì)也誠(chéng)懇地指出了其局限性。首先,由于計(jì)算資源的限制,研究只涉及了相對(duì)較小的AI模型(7-9B參數(shù)),而沒(méi)有測(cè)試那些參數(shù)量達(dá)到數(shù)千億的超大型模型。較大的模型可能在隱性知識(shí)方面表現(xiàn)出不同的特征,這需要未來(lái)的研究來(lái)驗(yàn)證。
其次,研究主要關(guān)注了事實(shí)性知識(shí),而沒(méi)有探討其他類(lèi)型的知識(shí),如推理能力、創(chuàng)造性思維或情感理解等。隱性知識(shí)現(xiàn)象是否也存在于這些其他認(rèn)知領(lǐng)域,目前還不得而知。這就像是這項(xiàng)研究只檢查了大腦的記憶功能,而沒(méi)有測(cè)試其推理或創(chuàng)造功能。
研究使用的知識(shí)定義也相對(duì)簡(jiǎn)化。在現(xiàn)實(shí)世界中,知識(shí)往往是相互關(guān)聯(lián)的網(wǎng)絡(luò),而不是孤立的事實(shí)。比如,要真正"知道"巴黎是法國(guó)首都,可能還需要知道巴黎在法國(guó)的地理位置、法國(guó)的政治體制等相關(guān)信息。當(dāng)前的研究框架還無(wú)法處理這種復(fù)雜的知識(shí)關(guān)聯(lián)。
探測(cè)AI內(nèi)部知識(shí)的方法也有改進(jìn)空間。目前使用的線(xiàn)性探測(cè)器雖然簡(jiǎn)單有效,但可能無(wú)法捕捉到AI內(nèi)部更復(fù)雜的知識(shí)表征模式。就像早期的X光只能看到骨骼,而現(xiàn)代的MRI能夠顯示更精細(xì)的軟組織結(jié)構(gòu)一樣,未來(lái)可能需要開(kāi)發(fā)更先進(jìn)的探測(cè)技術(shù)。
對(duì)于標(biāo)注質(zhì)量的依賴(lài)也是一個(gè)潛在問(wèn)題。研究使用AI判官來(lái)評(píng)估答案的正確性,雖然這種方法比簡(jiǎn)單的字符串匹配要好,但仍可能存在誤判。特別是對(duì)于那些需要深度推理或存在爭(zhēng)議的問(wèn)題,AI判官的準(zhǔn)確性可能會(huì)下降。
**八、更廣闊的科學(xué)意義**
這項(xiàng)研究的意義遠(yuǎn)超出AI技術(shù)本身,它為我們理解智能系統(tǒng)的認(rèn)知機(jī)制提供了新的視角。隱性知識(shí)現(xiàn)象可能不僅存在于人工智能中,也可能是所有復(fù)雜信息處理系統(tǒng)的普遍特征。
從認(rèn)知科學(xué)的角度來(lái)看,這項(xiàng)研究支持了關(guān)于認(rèn)知過(guò)程分離的理論。就像人類(lèi)大腦中存在不同的記憶系統(tǒng)(如程序性記憶和陳述性記憶)一樣,AI系統(tǒng)可能也存在不同層次的知識(shí)表征和訪(fǎng)問(wèn)機(jī)制。這種發(fā)現(xiàn)可能有助于我們更好地理解人類(lèi)認(rèn)知的工作原理。
從哲學(xué)角度來(lái)看,這項(xiàng)研究涉及到關(guān)于"知識(shí)"本質(zhì)的深層問(wèn)題。什么樣的內(nèi)部狀態(tài)才能被稱(chēng)為"知識(shí)"?如果一個(gè)系統(tǒng)內(nèi)部具有正確判斷的能力,但無(wú)法將其外化為行為,這是否仍然算作"知道"?這些問(wèn)題不僅對(duì)AI研究重要,也對(duì)我們理解人類(lèi)知識(shí)和意識(shí)具有啟發(fā)意義。
研究還提出了關(guān)于A(yíng)I透明性和可解釋性的新問(wèn)題。傳統(tǒng)上,我們認(rèn)為通過(guò)觀(guān)察AI的輸入和輸出就能理解其能力邊界,但這項(xiàng)研究表明,AI的真實(shí)能力可能遠(yuǎn)比其外部表現(xiàn)復(fù)雜。這意味著要實(shí)現(xiàn)真正的AI可解釋性,我們需要開(kāi)發(fā)能夠深入AI內(nèi)部"思維過(guò)程"的技術(shù)。
從教育和學(xué)習(xí)的角度來(lái)看,這項(xiàng)研究也提供了有趣的啟示。它表明,評(píng)估學(xué)習(xí)效果不能僅僅依賴(lài)外部表現(xiàn),還需要考慮學(xué)習(xí)者的內(nèi)在理解水平。這可能為開(kāi)發(fā)更有效的教育評(píng)估方法和個(gè)性化學(xué)習(xí)系統(tǒng)提供指導(dǎo)。
說(shuō)到底,這項(xiàng)研究揭示了一個(gè)令人著迷的現(xiàn)象:我們創(chuàng)造的AI系統(tǒng)可能比我們想象的更"聰明",只是它們還沒(méi)有學(xué)會(huì)如何充分表達(dá)自己的智慧。這就像是發(fā)現(xiàn)了一個(gè)內(nèi)向但博學(xué)的朋友,他們知道很多東西,但需要合適的方式才能讓他們分享自己的知識(shí)。
隨著AI技術(shù)的不斷發(fā)展,理解和利用這些隱性知識(shí)將變得越來(lái)越重要。未來(lái)的AI系統(tǒng)可能不僅需要學(xué)習(xí)如何獲取知識(shí),還需要學(xué)習(xí)如何更好地表達(dá)和應(yīng)用這些知識(shí)。這項(xiàng)研究為這個(gè)方向的探索提供了堅(jiān)實(shí)的理論基礎(chǔ)和實(shí)踐指導(dǎo)。
對(duì)于普通用戶(hù)來(lái)說(shuō),這項(xiàng)研究的發(fā)現(xiàn)意味著我們?cè)谂cAI交互時(shí)可能需要采用更多樣化的策略。也許通過(guò)不同的提問(wèn)方式、多次詢(xún)問(wèn)或者讓AI從多個(gè)角度分析問(wèn)題,我們能夠更好地挖掘AI的真實(shí)能力。畢竟,如果AI確實(shí)知道比它表現(xiàn)出來(lái)更多的東西,那么學(xué)會(huì)如何"問(wèn)對(duì)問(wèn)題"就變得格外重要了。
有興趣深入了解這項(xiàng)研究技術(shù)細(xì)節(jié)的讀者,可以通過(guò)arXiv平臺(tái)訪(fǎng)問(wèn)完整論文,研究團(tuán)隊(duì)在論文中提供了詳細(xì)的實(shí)驗(yàn)設(shè)計(jì)、數(shù)據(jù)分析方法和補(bǔ)充材料,為進(jìn)一步的研究和應(yīng)用提供了寶貴的參考。
Q&A
Q1:什么是AI的"隱性知識(shí)"?它和我們平時(shí)看到的AI表現(xiàn)有什么區(qū)別?A:隱性知識(shí)是指AI內(nèi)部掌握但不在對(duì)話(huà)中表達(dá)出來(lái)的知識(shí)。就像一個(gè)人心里知道答案但說(shuō)不出口一樣,AI可能內(nèi)部完全知道正確答案,但在生成回復(fù)時(shí)卻給出錯(cuò)誤或不準(zhǔn)確的答案。研究發(fā)現(xiàn)這種內(nèi)外差異平均達(dá)到40%。
Q2:為什么AI會(huì)隱藏知識(shí)?這是設(shè)計(jì)缺陷嗎?A:這不是故意的設(shè)計(jì)缺陷,而是AI語(yǔ)言生成機(jī)制的固有特性。AI在生成文本時(shí)傾向于選擇概率高的常見(jiàn)答案,即使它內(nèi)部知道一個(gè)不太常見(jiàn)但更準(zhǔn)確的答案。這類(lèi)似于人類(lèi)的"舌尖現(xiàn)象"——知道答案但就是說(shuō)不出來(lái)。
Q3:這個(gè)發(fā)現(xiàn)對(duì)普通用戶(hù)使用AI有什么實(shí)際意義嗎?A:是的,這意味著我們可能需要采用更多樣化的提問(wèn)策略來(lái)挖掘AI的真實(shí)能力。比如讓AI多次回答同一問(wèn)題、從不同角度提問(wèn),或者讓AI在多個(gè)選項(xiàng)中進(jìn)行選擇而不是自由生成答案,這樣可能獲得更準(zhǔn)確的結(jié)果。
進(jìn)劇場(chǎng)、去街區(qū)……五一假期,全城“有戲”!
“老戲骨”顧艷:65歲才華橫溢,婚后定居日本,兒子從小就說(shuō)日語(yǔ)
中戲2002級(jí)同學(xué)聚會(huì),白百何和童瑤缺席,文章滄桑顯老