本文作者是香港中文大學博士三年級薛博陽,導師為黃錦輝教授,目前在倫敦大學學院進行訪問交流,他的研究方向包括可信大模型,模型不確定性,對話系統(tǒng)等,在ACL,EMNLP,TASLP等會議期刊作為第一作者發(fā)表多篇論文,并長期在知乎寫作大模型、機器學習等專欄文章,個人主頁為:
https://amourwaltz.github.io
研究問題
面對無解問題最強模型也會束手無策?
今年初以DeepSeek-r1為代表的大模型在推理任務(wù)上展現(xiàn)強大的性能,引起廣泛的熱度。然而在面對一些無法回答或本身無解的問題時,這些模型竟試圖去虛構(gòu)不存在的信息去推理解答,生成了大量的事實錯誤、無意義思考過程和虛構(gòu)答案,也被稱為模型「幻覺」問題,如下圖(a)所示,造成嚴重資源浪費且會誤導用戶,嚴重損害了模型的可靠性(Reliability)。
對于復雜的推理任務(wù),一個可靠的模型應(yīng)當在思考分析后,對可解問題給出正確答案,對不可解問題則指出無解;如果問題超出模型能力范圍無法判斷可解性,一個次優(yōu)的選擇就是拒答以避免誤導用戶,如上圖(b)和(c)所示,這樣回復才是可靠的,同時也能抑制幻覺發(fā)生。
近期由港中文和華為諾亞實驗室聯(lián)合提出的ReliableMath基準,旨在探究大模型推理任務(wù)的可靠性。該工作文章和數(shù)據(jù)集均已開源,并持續(xù)在leaderboard上更新最新模型結(jié)果,目前已新增了Qwen3、豆包、Gemini等一系列模型的可靠性測試結(jié)果,歡迎大家關(guān)注補充~
論文題目:ReliableMath:BenchmarkofReliableMathematicalReasoningonLargeLanguageModels
論文作者:BoyangXue,QiZhu,RuiWang,ShengWang,HongruWang,FeiMi,YashengWang,LifengShang,QunLiu,Kam-FaiWong
可靠性評估準則
知之為知之,不知為不知,是知也
此前大模型可靠性的研究集中在知識任務(wù)上,探究是否知道某個知識,缺乏對更難的推理任務(wù)的探索。由于推理問題本身可能無解,并且問題可解性以及模型能否回答都需要經(jīng)過推理才能得出,增加了研究挑戰(zhàn)。
根據(jù)前文對推理任務(wù)可靠性的定義,本工作提出一套推理任務(wù)可靠性的評估準則,如下圖所示,將問題分為可解(A)和不可解(U),將模型回復分為成功(S),拒答(R)和失?。‵)。成功表示對可解問題匹配到正確答案或?qū)Σ豢山鈫栴}指出其無解,這是最好的情況;次優(yōu)是拒答,即對可解和不可解問題都回復我不知道;其余回復均認為是失敗。
分別使用精度(Prec.)和謹慎度(Prud.)來表示成功率和拒答率,評估可靠性時優(yōu)先看精度,其次看謹慎度。
ReliableMath數(shù)據(jù)集
首個高質(zhì)量數(shù)學無解問題集
由于缺乏無解的數(shù)學問題,本文提出一個評估數(shù)學推理可靠性的數(shù)據(jù)集ReliableMath,包含可解和不可解的問題??山鈫栴}從當前開源數(shù)學問題集中收集,不可解問題通過對可解問題進行改寫構(gòu)造獲得,改寫方式有兩種:刪除必要數(shù)學條件或增加與已知條件矛盾的條件,如下圖所示。
為了得到高質(zhì)量的無解問題,本文提出一套完整的無解解問題構(gòu)造流程,如下圖所示,包含三步:1)通過對現(xiàn)有可解問題進行改寫使其不可解;2)對改寫問題使用模型驗證,并過濾掉不合格的問題;3)對過濾數(shù)據(jù)再次進行人工驗證評估問題是否無解,保留確實無解的問題,這樣就得到了高質(zhì)量的無解問題構(gòu)成ReliableMath數(shù)據(jù)集。
ReliableMath包含不同難度的數(shù)學任務(wù),包括奧賽級的AIME、AMC、Minerva、及高中級的MATH。人工標注時,對判斷問題無解的難度也進行了標注,對那些很容易判斷出無解的,比如幾何題缺失圖片信息等,難度標為0,而對于需要經(jīng)過思考才能判斷無解的,難度標為1,數(shù)據(jù)統(tǒng)計可參考原文。
實驗分析
揭示大模型推理可靠性的缺陷
本文在一系列慢思考和快思考模型上做了實驗,并指出以下幾條關(guān)鍵發(fā)現(xiàn):
對模型直接輸入無解問題時(standardprompt),模型幾乎不具備拒答或指出不可解的能力,可靠性極差;我們發(fā)現(xiàn)模型能注意到無解問題本身存在問題,但不敢承認其無解或拒答,反而是會不斷地回溯、反思導致生成大量無意義的思考過程,直到截斷或虛構(gòu)一個答案,造成嚴重浪費和幻覺,損害了可靠性;
當在提示詞中加入允許模型拒答或指出問題無解的指令后(reliableprompt),我們發(fā)現(xiàn)在可解問題上的可靠性變化不大,但大部分模型在不可解問題上可靠性有明顯提升,盡管仍低于可解問題的可靠性,并且生成序列長度也有明顯下降,說明使用reliableprompt可以在不損害可解問題性能的前提下,提高不可解問題的可靠性,并減少過度思考。
對較大的模型,使用reliableprompt后慢思考模型的可靠性普遍高于對應(yīng)快思考模型,如Deepseek-r1vs.Deepseek-v3;而對于小模型,使用reliableprompt后慢思考模型在不可解問題上的可靠性仍然很差,并沒有高于對應(yīng)的快思考模型,如Distill-7bvs.Qwen-7b,意味著小模型可靠性有進一步提升空間。
較簡單的數(shù)學測試集的可靠性要高于較難的測試集的可靠性。
此外,本文也對ReliableMath數(shù)據(jù)集做了分析,下圖(a)分別測試了使用移除必要條件和增加矛盾條件兩種改寫方式構(gòu)造的問題的可靠性,結(jié)果表明移除條件構(gòu)造的不可解問題可靠性偏低,這是因為模型傾向于假設(shè)缺失條件虛構(gòu)答案。圖(b)分別展示了不同難度的無解問題的可靠性,發(fā)現(xiàn)難度為1的不可解問題可靠性偏低,即這些問題需要模型經(jīng)過推理才能發(fā)現(xiàn)問題無解,這種情況更難也符合預期,說明大模型與人類在識別問題無解難度的相關(guān)性是一致的,盡管人工評估難度存在主觀性。
可靠性對齊
如何提高大模型可靠性?
本文最后提出一個提高可靠性的對齊策略,在開源訓練集上構(gòu)造一批無解問題。在較強的模型上蒸餾獲得成功回復,然后在小模型上自采樣獲得拒答回復,最后使用監(jiān)督學習訓練小模型提升可靠性,如下圖所示。經(jīng)過對齊后,小模型的可靠性也得到顯著提升。
結(jié)語和展望
十三本讓老書蟲沉迷的精品小說,好看又刺激,根本停不下來!
五本以我開頭的小說,在各自分類都是頭雁般的存在,不可能沒看過
四本意外發(fā)現(xiàn)不錯的完本小說,劇情高能有看點,送給書荒的你
免責聲明:本文內(nèi)容由開放的智能模型自動生成,僅供參考。