昨天(26)舉行的“人工智能的數(shù)學(xué)邊界與基礎(chǔ)重構(gòu)”論壇上,一場沒有硝煙的挑戰(zhàn)賽正在上演:出題方是以首位華人菲爾茲獎獲得者丘成桐為首的“數(shù)學(xué)家天團(tuán)”,答題方則是上海人工智能的“頂流”——人工智能實(shí)驗(yàn)室、商湯科技、階躍星辰和MiniMax。
邏輯推理是數(shù)學(xué)的核心。數(shù)百年來,數(shù)學(xué)家僅憑一張紙、一支筆,就能從迷宮中找到通往真理的路徑,而如今的大模型已展現(xiàn)出強(qiáng)大的推理能力。這場挑戰(zhàn)的結(jié)果是:4個本土大模型均通過“最強(qiáng)數(shù)學(xué)大腦”的命題考驗(yàn),展現(xiàn)了上海AI的硬核實(shí)力。
論壇上還為Hitchin–Ngo實(shí)驗(yàn)室(聚焦代數(shù)幾何與數(shù)學(xué)物理)與Fefferman實(shí)驗(yàn)室(深耕流體力學(xué)與納維-斯托克斯方程)舉行揭牌儀式,標(biāo)志著全球頂尖數(shù)學(xué)力量落戶上海。
賽題設(shè)計(jì)直擊AI推理核心
一開始,大模型并不擅長數(shù)學(xué)。它們常常出現(xiàn)“幻覺”,甚至可能被誤導(dǎo)相信2+2=5。但新一代大型推理模型展現(xiàn)的能力令數(shù)學(xué)家眼前一亮。不同于過去“一錘定音”式輸出結(jié)果,這些模型開始嘗試模擬數(shù)學(xué)家逐步推理的思考過程。
丘成桐對給AI出題表現(xiàn)出巨大興趣,他不僅指派團(tuán)隊(duì)精心遴選多道高質(zhì)量數(shù)學(xué)題并親自審核把關(guān),還邀請英國、日本的院士專門命題。
上海人工智能實(shí)驗(yàn)室拿到的是2025國際數(shù)學(xué)奧林匹克競賽的一道幾何題,但沒有提供圖片,大模型需要根據(jù)文字描述理解題目并給出證明;階躍星辰拿到的是不等式極值求解題,需要給出復(fù)雜分式約束下的最小值證明;MiniMax拿到的是概率遞歸題,需要給N對襪子配對;商湯科技拿到的是平面幾何題,有多種解法。4道題均需完成自然語言推理+形式化驗(yàn)證的雙重挑戰(zhàn),難度對標(biāo)數(shù)學(xué)博士入門級研究。
頂級數(shù)學(xué)家為何熱衷于給AI出題?在中國科學(xué)院院士、數(shù)學(xué)家徐宗本看來,數(shù)學(xué)不僅是工具,也是一門技術(shù),一方面它為AI框定能力邊界和行為準(zhǔn)則,另一方面,人們也能從答題過程中窺見AI的“內(nèi)心戲”。
差異化答題揭示AI數(shù)學(xué)潛力
面對博士級難題,大模型們各顯神通。因?yàn)闆]有給圖片,上海人工智能實(shí)驗(yàn)室的書生模型決定“以力破巧”?!澳P陀贸L時間對上下文進(jìn)行思考后,開始去編寫一個嚴(yán)謹(jǐn)?shù)淖C明,而且整個過程不是以形式化語言(精確的數(shù)學(xué)或機(jī)器可處理的公式定義語言),而是以自然語言形式來完成的。”上海人工智能實(shí)驗(yàn)室技術(shù)專家張文蔚說。
深思熟慮是大模型推理能力提升的重要標(biāo)志。一年前,OpenAI發(fā)布的推理模型o1,展現(xiàn)出此前模型所不具備的超級推理能力。o1與其他模型的最大差別就是它會深入思考,生成一個較長的內(nèi)部思維鏈,包括復(fù)述一遍問題的要求、拆解任務(wù)、明確最終目標(biāo)以及查漏補(bǔ)缺,它甚至還會提醒自己其中可能存在陷阱,并列出需要用到的知識點(diǎn)和步驟。完成這些之后,它才開始工作。張文蔚判斷,書生的解題思路和o1完全一致。
階躍星辰的step大模型則是通過一邊解題、一邊調(diào)用工具糾錯的方式,實(shí)時推演成功。有意思的是,階躍星辰技術(shù)專家萬若斯發(fā)現(xiàn),在解題過程中,step涌現(xiàn)出未被預(yù)設(shè)的全新解題思路。
AI是數(shù)學(xué)家的對手還是助手?從這兩題的解答過程就能窺見一二。西班牙數(shù)學(xué)科學(xué)委員會研究員鄭凡認(rèn)為,AI既可以任勞任怨完成繁瑣的推理工作,也具備“靈光一閃”提出新思路的能力,無論成為哪種角色都潛力巨大。
AI與數(shù)學(xué)“雙引擎”加速耦合
上??萍即髮W(xué)數(shù)學(xué)科學(xué)研究所教授蔡明亮已習(xí)慣于有AI助手,他發(fā)現(xiàn),有思路是解題的第一步,這道理適用于人,也適用于AI。
作為MiniMax拿到的那道題的出題者,他曾用它“考驗(yàn)”過許多AI,如果沒有思路,即便把N設(shè)定為10,大模型也答不出來。當(dāng)詢問MiniMax的M1大模型為何能闖關(guān)成功時,技術(shù)專家周海剛回答里的一個詞提醒了蔡明亮,答案正是思路。周海剛提到,MiniMax在讓大模型獲取高質(zhì)量數(shù)據(jù)時,不會直接給答案,而是像教孩子一樣,把最優(yōu)的解答過程“喂”給大模型,這意味著好的知識沉淀往往要從過程中來。
大模型也深受使用者的影響。商湯科技的日日新大模型在解題時會根據(jù)不同提示詞給出不同解法。這預(yù)示了在未來的工作中,人與AI的協(xié)同是多么重要。
當(dāng)前,AI與數(shù)學(xué)這對“雙引擎”正加速耦合,AI展現(xiàn)的強(qiáng)大推理能力,正將數(shù)學(xué)家從繁復(fù)的計(jì)算與驗(yàn)證中解放出來,使他們得以聚焦于更本源、更具創(chuàng)造性的問題,以及需要深刻直覺和想象力的領(lǐng)域。盡管大多數(shù)專家認(rèn)為真正的創(chuàng)新和突破仍屬人類,但前菲爾茲數(shù)學(xué)科學(xué)研究院院長庫馬爾·穆爾蒂不忘提醒人們,不要忽視想象的力量,甚至不要輕視大模型的幻覺,要把數(shù)學(xué)嵌入到AI之中,跳出思維定式,去提出更好的問題。
召喚萬界強(qiáng)者,蘇鋒成最強(qiáng)帝皇,率土之濱皆為王臣!
免費(fèi)小說:小皇帝獲帝皇系統(tǒng),召喚文臣武將,誓做萬界最強(qiáng)帝皇
《召喚萬界之神話帝皇》:萬界召喚流,成就一代神話帝皇!
免責(zé)聲明:本文內(nèi)容由開放的智能模型自動生成,僅供參考。