杞慕山
金磊發(fā)自凹非寺量子位|公眾號QbitAI
谷歌拿下IMO(國際數(shù)學奧林匹克競賽)金牌的模型——Gemini2.5DeepThink,現(xiàn)在可以用起來了。
根據(jù)谷歌DeepMind的最新消息,這個模型已經(jīng)在GeminiApp中推出。
并且這個發(fā)布的版本,跟拿下IMO金牌的版本還有略微的區(qū)別。
之前的模型需要好幾個小時才能解決復雜的數(shù)學問題,但App中發(fā)布的版本,速度會更快,實用性也會更強。
但相對的,實力定然不如之前的“完全體”,不過同樣是拿IMO’25的試題實驗,可以達到銅牌的水平。
DeepMind在發(fā)布Gemini2.5DeepThink之際,還拉來了數(shù)學家MichelvanGarrel來站臺:
當我問它一個猜想,我大概有三個思路,但它似乎在考慮20甚至100個
不過這個模型只對Ultra的訂閱用戶開放,每月訂閱費為249.99美元,折合人民幣約1803元。
推理性能超越o3、Grok4
除了“發(fā)布”的動作之外,DeepMind這次還秀了一波推理性能的肌肉,對標的選手是OpenAI的o3和馬斯克的Grok4。
主要考量的能力聚焦在了編碼、科學、知識和推理能力上。
結果顯示,在衡量代碼性能的LiveCodeBenchV6測試中,以及在衡量不同領域(包括科學和數(shù)學)專業(yè)知識的Humanity’sLastExam測試中,與不使用工具的其他模型相比,Gemini2.5DeepThink均取得最好的成績。
整體來看,Gemini2.5DeepThink功能具備以下優(yōu)勢:
迭代式開發(fā)與設計:DeepMind團隊對DeepThink在需要逐步構建復雜事物的任務中的表現(xiàn)印象深刻。例如,DeepThink能夠提升網(wǎng)頁開發(fā)任務的美觀性和功能性。
科學與數(shù)學領域的發(fā)現(xiàn):由于能夠通過極其復雜的難題進行推理,深度思考能夠成為研究人員的強大工具。它能夠協(xié)助制定和探索數(shù)學猜想,或者對復雜的科學文獻進行推理分析,從而有可能加快發(fā)現(xiàn)的過程。算法開發(fā)與代碼編寫:DeepThink在處理那些需要精心編寫代碼、對問題表述、權衡利弊以及時間復雜度進行仔細考量的難題方面表現(xiàn)尤為出色。
至于其背后的原理,DeepMind總結了一句話:
擴展Gemini的并行“思考時間”。
具體而言,正如人類在解決復雜問題時,會花時間從不同角度探索、權衡潛在的解決方案并完善最終答案一樣,DeepThink通過使用并行思維技術,拓展了思維能力的邊界。
這種方法讓Gemini能夠一次性生成眾多想法并同時進行考量,甚至隨著時間的推移修正或結合不同的想法,最終得出最佳答案。
此外,通過延長推理時間或“思考時間”,DeepMind為Gemini提供了更多時間去探索不同的假設,并為復雜問題找到創(chuàng)造性的解決方案。
DeepMind還開發(fā)了新穎的強化學習技術,旨在激勵模型利用這些擴展的推理路徑,從而使DeepThink隨著時間的推移,成為一個更出色、更直觀的問題解決者。
團隊成員還表示,Gemini2.5DeepThink用來看論文:
它不只是簡單地復述研究論文,而是能以我前所未見的方式,融合不同論文中的觀點。
參考鏈接:[1]https://blog.google/products/gemini/gemini-2-5-deep-think/[2]https://x.com/SamuelAlbanie/status/1951322935198630356
《兩個女匪王》,巾幗當真不讓須眉!??百度百科
來源:紅網(wǎng)
作者:劉麗卿
編輯:簡坡君
本文為紅辣椒評論 原創(chuàng)文章,僅系作者個人觀點,不代表紅網(wǎng)立場。轉(zhuǎn)載請附原文出處鏈接和本聲明。