時令發(fā)自凹非寺量子位|公眾號QbitAI
這一次,“不會”竟成了大模型的高光時刻。
雖然在IMO第6題上得了零分,OpenAI的金牌模型卻展現(xiàn)了“高智商的誠實”。
正如OpenAI研究員NoamBrown在最新訪談中所揭示的:
當IMO推理模型會在缺乏有效證據(jù)時表示“我不確定”,這會顯著減少隱藏錯誤。
在AI摘下IMO金牌后,OpenAI金牌小分隊成員AlexWei、SherylHsu和NoamBrown參與了紅杉資本組織的一場對話,揭秘模型攻克精英數(shù)學難題的底層突破。
有網(wǎng)友幫忙總結(jié)了個太長不看版:
與過去那些“看起來完美,實則錯誤”的幻覺式答案不同,這一代大模型開始學會“承認自己不會”。
它標志著模型正在從胡編亂造的幻覺式回答,轉(zhuǎn)向更加可靠且具有“自我認意識”的全新階段。
三位成員還在這場對話中,分享了更多關(guān)于沖刺IMO的有趣細節(jié)。
IMO金牌模型能承認自己不知道
盡管數(shù)學家與計算機科學家一致認可IMO金牌模型的價值。
但他們常常抱怨,當模型遇到知識盲區(qū)時,它總會輸出一個令人信服但錯誤的答案。
他們不得不耗費大量精力逐行驗算,才能甄別那些幻覺陷阱。
IMO第6題讓大模型全軍覆沒,當然,OpenAI也對其進行了大量計算。
有一個由2025×2025個單位正方形組成的網(wǎng)格。Matilda希望在網(wǎng)格上放置一些矩形圖塊,這些圖塊的大小不同,但每個圖塊的每一條邊都位于網(wǎng)格線上,并且每個單位正方形最多被一個圖塊覆蓋。網(wǎng)格的每一行和每一列都恰好有一個未被任何瓷磚覆蓋的單位正方形,求出Matilda需要放置的最少瓷磚數(shù)量。
雖然投入海量算力最終僅得到一句“我無法回答”令人有些失望,但AlexWei表示:
能看到模型避免產(chǎn)生幻覺是很好的。
NoamBrown也對模型的這一轉(zhuǎn)變表示贊賞,“如果它不知道,它就會承認它不知道?!?/p>
這代表模型開始具備“自我意識”。
這種“自我意識”可以幫助模型在面對困難問題時,承認自己的無能為力,而不是生成一個看似合理實則錯誤的解決方案。
有趣的是,在AlexWei2024年剛加入OpenAI一周時,NoamBrown就曾問過他,團隊何時能獲得IMO金牌。
當時AlexWei認為2025年不太可能實現(xiàn)。
但令人驚嘆的是,這個三人團隊僅用了兩月,就完成了他們一直在追求的目標——IMO金牌。
NoamBrown還表示:
OpenAI有一個很棒的地方,就是研究人員有很大的自主權(quán)去做他們認為有影響力的研究。
Alex還強調(diào),他們的團隊“真正優(yōu)先考慮通用技術(shù)”,而不是專門開發(fā)用于數(shù)學競賽的系統(tǒng)。
OpenAIIMO金牌核心團隊
OpenAIIMO核心團隊僅由三名研究人員構(gòu)成。
AlexWei,本碩均就讀于哈佛大學,隨后在加州大學伯克利分校獲得計算機科學博士學位。
Alex還曾在谷歌、微軟和Meta實習,后于2024年1月加入OpenAI,現(xiàn)任研究科學家。他曾是FAIR團隊成員,參與開發(fā)了首個用于外交游戲的人類級人工智能——CICERO。
SherylHsu,畢業(yè)于斯坦福大學計算機科學專業(yè),是斯坦福AI實驗室中IRIS實驗室的研究員,于2025年3月加入OpenAI。
NoamBrown,本科就讀于美國羅格斯新澤西州立大學新布朗斯維克分校,隨后在卡內(nèi)基·梅隆大學獲碩士和博士學位。他曾任職于DeepMind和Meta,于2023年6月加入OpenAI。
參考鏈接:[1]https://x.com/chatgpt21/status/1950606890758476264[2]https://www.youtube.com/watch?v=EEIPtofVe2Q
《老婆立正請站好》完了,她入校的軍訓教官就是家里的那個腹黑男
《老婆立正請站好》進了軍校發(fā)現(xiàn),教官是自己家里的腹黑軍少老公
小說:軍訓教官竟是腹黑鄰居?逃不掉訓練,還被拽去民政局領(lǐng)證!
免責聲明:本文內(nèi)容由開放的智能模型自動生成,僅供參考。