機器之心報道
澤南、楊文
網友:DeepThink簡直太瘋狂了。
本周五,谷歌宣布向GoogleAIUltra訂閱用戶推出DeepThink功能,并將全版本的Gemini2.5DeepThink模型(用于IMO競賽)提供給部分數學家使用。
新版本融合了一系列早期測試人員的反饋和研究突破,比今年I/O大會上首次發(fā)布的版本有了顯著改進。
谷歌表示,2.5DeepThink是最近在今年國際數學奧林匹克(IMO)比賽中獲得金牌的模型的變體。雖然該模型需要數小時才能推理復雜的數學問題,但今天發(fā)布的版本速度更快,日常使用體驗也更佳,根據內部評估,其在2025年IMO基準測試中仍能達到銅牌級的性能。
GoogleDeepMind表示,Gemini2.5DeepThink對于正在解決難題的研究人員、科學家和學者很有用。它不僅能回答問題,還能運用并行思維和強化學習技術進行頭腦風暴。
谷歌展示了一名數學家MichelvanGarrel使用深度思考能力證明猜想的經歷。
現在,GoogleAIUltra訂閱用戶可以在Gemini應用中使用DeepThink,只需在模型下拉菜單中選擇2.5Pro,并在提示欄中切換「DeepThink」即可使用。DeepThink會自動與代碼執(zhí)行、Google搜索等工具配合使用,并且可以生成更長的響應。
已經有很多網友第一時間進行了測試,看看他們實現的效果。設計一個小游戲:
賽博朋克核反應堆控制界面:
測試過的人表示,使用次數限制似乎是5條/24小時。
1X機器人的EricJang表示,看起來我們距離一個能證明簡單猜想,做出新數學發(fā)現的AI模型只有不到12個月時間了,距離大語言模型的「初步」自我完善還有不到24個月的時間。
谷歌還計劃在未來幾周內通過GeminiAPI向受信任的測試者發(fā)布帶工具和不帶工具的DeepThink,以便更好地了解其在開發(fā)者和企業(yè)用例中的可用性。
延長Gemini的并行「思考時間」
就像人們通過探索不同的角度、權衡潛在的解決方案并完善最終答案來解決復雜問題一樣,DeepThink通過使用并行思維技術推動了思維能力的邊界。這種方法讓Gemini能夠同時生成多個想法并同時考慮它們,甚至可以隨著時間的推移修訂或結合不同的想法,最終得出最佳答案。
此外,通過延長推理時間或「思考時間」,谷歌為Gemini提供了更多的時間來探索不同的假設,進而為復雜問題找到創(chuàng)造性的解決方案。
谷歌還開發(fā)了新穎的強化學習技術,鼓勵模型利用這些延長的推理路徑,使DeepThink能隨著時間的推移成為一個更好的、更直觀的解決問題者。
最先進的性能
DeepThink能夠幫助人們解決需要創(chuàng)造力、戰(zhàn)略規(guī)劃和逐步改進的難題,例如:
迭代開發(fā)與設計:DeepThink在需要分步驟構建復雜事物的任務中的表現亮眼。比如,DeepThink可以同時改進網頁開發(fā)任務的美學和功能性,僅使用一個提示詞就能讓模型生成了一幅寶塔的體素藝術圖像。與2.5Pro相比,DeepThink為場景的各個方面添加了越來越多的細節(jié),從寶塔的建筑結構,到樹木的保真度,再到地平面的多樣性,提示的各個方面都得到了更深入的處理。
DeepThink在Gemini應用中使用并行思維技術,提供更詳細、創(chuàng)造性和深思熟慮的回應。
科學與數學發(fā)現:由于它能夠推理高度復雜的問題,DeepThink成為研究人員的強大工具。它可以幫助提出和探索數學猜想,或推理復雜的科學文獻,從而加速發(fā)現的過程。算法開發(fā)與編程:DeepThink在處理需要精確問題表述、權衡取舍和時間復雜度的重要編碼問題時表現尤為出色。
此外,Gemini2.5DeepThink在多個基準測試中取得了優(yōu)秀成績,分別在HLE(34.8%,無外部工具使用)、LiveCodeBenchV6(87.6%)、IMO2025(60.7%)和AIME2025(99.2%)中表現突出,展現了其在復雜問題解決、編程和數學領域的強大推理能力。
Gemini2.5DeepThinkModelCard:https://storage.googleapis.com/deepmind-media/Model-Cards/Gemini-2-5-Deep-Think-Model-Card.pdf
谷歌表示,在Gemini的整個訓練和部署階段著重提升了安全性。測試中,Gemini2.5DeepThink的內容安全性和語氣客觀性相比Gemini2.5Pro有所提升,但拒絕良性請求的傾向有所增強。隨著Gemini問題解決能力的提升,谷歌正在評估相關風險并實施安全緩解措施,確保其高級功能的安全性。
參考鏈接:
https://blog.google/products/gemini/gemini-2-5-deep-think/
免責聲明:本文內容由開放的智能模型自動生成,僅供參考。