機(jī)器之心報道
澤南、楊文
網(wǎng)友:DeepThink簡直太瘋狂了。
本周五,谷歌宣布向GoogleAIUltra訂閱用戶推出DeepThink功能,并將全版本的Gemini2.5DeepThink模型(用于IMO競賽)提供給部分?jǐn)?shù)學(xué)家使用。
新版本融合了一系列早期測試人員的反饋和研究突破,比今年I/O大會上首次發(fā)布的版本有了顯著改進(jìn)。
谷歌表示,2.5DeepThink是最近在今年國際數(shù)學(xué)奧林匹克(IMO)比賽中獲得金牌的模型的變體。雖然該模型需要數(shù)小時才能推理復(fù)雜的數(shù)學(xué)問題,但今天發(fā)布的版本速度更快,日常使用體驗(yàn)也更佳,根據(jù)內(nèi)部評估,其在2025年IMO基準(zhǔn)測試中仍能達(dá)到銅牌級的性能。
GoogleDeepMind表示,Gemini2.5DeepThink對于正在解決難題的研究人員、科學(xué)家和學(xué)者很有用。它不僅能回答問題,還能運(yùn)用并行思維和強(qiáng)化學(xué)習(xí)技術(shù)進(jìn)行頭腦風(fēng)暴。
谷歌展示了一名數(shù)學(xué)家MichelvanGarrel使用深度思考能力證明猜想的經(jīng)歷。
現(xiàn)在,GoogleAIUltra訂閱用戶可以在Gemini應(yīng)用中使用DeepThink,只需在模型下拉菜單中選擇2.5Pro,并在提示欄中切換「DeepThink」即可使用。DeepThink會自動與代碼執(zhí)行、Google搜索等工具配合使用,并且可以生成更長的響應(yīng)。
已經(jīng)有很多網(wǎng)友第一時間進(jìn)行了測試,看看他們實(shí)現(xiàn)的效果。設(shè)計一個小游戲:
賽博朋克核反應(yīng)堆控制界面:
測試過的人表示,使用次數(shù)限制似乎是5條/24小時。
1X機(jī)器人的EricJang表示,看起來我們距離一個能證明簡單猜想,做出新數(shù)學(xué)發(fā)現(xiàn)的AI模型只有不到12個月時間了,距離大語言模型的「初步」自我完善還有不到24個月的時間。
谷歌還計劃在未來幾周內(nèi)通過GeminiAPI向受信任的測試者發(fā)布帶工具和不帶工具的DeepThink,以便更好地了解其在開發(fā)者和企業(yè)用例中的可用性。
延長Gemini的并行「思考時間」
就像人們通過探索不同的角度、權(quán)衡潛在的解決方案并完善最終答案來解決復(fù)雜問題一樣,DeepThink通過使用并行思維技術(shù)推動了思維能力的邊界。這種方法讓Gemini能夠同時生成多個想法并同時考慮它們,甚至可以隨著時間的推移修訂或結(jié)合不同的想法,最終得出最佳答案。
此外,通過延長推理時間或「思考時間」,谷歌為Gemini提供了更多的時間來探索不同的假設(shè),進(jìn)而為復(fù)雜問題找到創(chuàng)造性的解決方案。
谷歌還開發(fā)了新穎的強(qiáng)化學(xué)習(xí)技術(shù),鼓勵模型利用這些延長的推理路徑,使DeepThink能隨著時間的推移成為一個更好的、更直觀的解決問題者。
最先進(jìn)的性能
DeepThink能夠幫助人們解決需要創(chuàng)造力、戰(zhàn)略規(guī)劃和逐步改進(jìn)的難題,例如:
迭代開發(fā)與設(shè)計:DeepThink在需要分步驟構(gòu)建復(fù)雜事物的任務(wù)中的表現(xiàn)亮眼。比如,DeepThink可以同時改進(jìn)網(wǎng)頁開發(fā)任務(wù)的美學(xué)和功能性,僅使用一個提示詞就能讓模型生成了一幅寶塔的體素藝術(shù)圖像。與2.5Pro相比,DeepThink為場景的各個方面添加了越來越多的細(xì)節(jié),從寶塔的建筑結(jié)構(gòu),到樹木的保真度,再到地平面的多樣性,提示的各個方面都得到了更深入的處理。
DeepThink在Gemini應(yīng)用中使用并行思維技術(shù),提供更詳細(xì)、創(chuàng)造性和深思熟慮的回應(yīng)。
科學(xué)與數(shù)學(xué)發(fā)現(xiàn):由于它能夠推理高度復(fù)雜的問題,DeepThink成為研究人員的強(qiáng)大工具。它可以幫助提出和探索數(shù)學(xué)猜想,或推理復(fù)雜的科學(xué)文獻(xiàn),從而加速發(fā)現(xiàn)的過程。算法開發(fā)與編程:DeepThink在處理需要精確問題表述、權(quán)衡取舍和時間復(fù)雜度的重要編碼問題時表現(xiàn)尤為出色。
此外,Gemini2.5DeepThink在多個基準(zhǔn)測試中取得了優(yōu)秀成績,分別在HLE(34.8%,無外部工具使用)、LiveCodeBenchV6(87.6%)、IMO2025(60.7%)和AIME2025(99.2%)中表現(xiàn)突出,展現(xiàn)了其在復(fù)雜問題解決、編程和數(shù)學(xué)領(lǐng)域的強(qiáng)大推理能力。
Gemini2.5DeepThinkModelCard:https://storage.googleapis.com/deepmind-media/Model-Cards/Gemini-2-5-Deep-Think-Model-Card.pdf
谷歌表示,在Gemini的整個訓(xùn)練和部署階段著重提升了安全性。測試中,Gemini2.5DeepThink的內(nèi)容安全性和語氣客觀性相比Gemini2.5Pro有所提升,但拒絕良性請求的傾向有所增強(qiáng)。隨著Gemini問題解決能力的提升,谷歌正在評估相關(guān)風(fēng)險并實(shí)施安全緩解措施,確保其高級功能的安全性。
參考鏈接:
https://blog.google/products/gemini/gemini-2-5-deep-think/