IT之家7月22日消息,國際數(shù)學(xué)奧林匹克競賽(IMO)是全球最負(fù)盛名的數(shù)學(xué)競賽之一,每年每個國家由六名高中生代表參賽,他們需在規(guī)定時間內(nèi)解答六道極具挑戰(zhàn)性的數(shù)學(xué)難題。在這一競賽中,僅有約8%的參賽者能夠獲得金牌,這使得IMO的金牌成為數(shù)學(xué)領(lǐng)域的至高榮譽。
在今年的國際數(shù)學(xué)奧林匹克競賽中,OpenAI和谷歌都使用了它們最新的大語言模型(LLM)參賽。
上周末,OpenAI宣布其實驗性推理語言模型在2025年IMO的題目測試中取得了金牌級別的成績。OpenAI的模型在與學(xué)生相同的規(guī)則下進(jìn)行了測試,需要在兩場時長各4.5小時的考試時段內(nèi)完成題目解答,且不能使用任何工具或聯(lián)網(wǎng),最終還需以自然語言形式書寫證明過程。
今日,谷歌也宣布其升級版的GeminiDeepThink成功解決了IMO六道題目中的五道,同樣達(dá)到了金牌水平的表現(xiàn)。這一升級版的GeminiDeepThink采用了谷歌DeepMind最新研究成果中的改進(jìn)推理模式,包括并行思維技術(shù),使其能夠同時探索多種解決方案,而不再局限于逐一嘗試。
IT之家注意到,谷歌DeepMind團(tuán)隊在介紹這一升級版的GeminiDeepThink時表示:“為了充分發(fā)揮DeepThink的推理能力,我們利用了新穎的強化學(xué)習(xí)技術(shù),進(jìn)一步增強了模型的多步推理、問題解決和定理證明能力。此外,我們還為Gemini提供了高質(zhì)量數(shù)學(xué)問題解決方案的精選語料庫,并在其指令中添加了一些關(guān)于如何應(yīng)對IMO問題的通用提示詞和技巧?!?/p>
谷歌計劃在未來不久將這一升級版的DeepThink模型提供給一組受信任的測試者進(jìn)行試用,并將在后續(xù)向谷歌AIUltra訂閱用戶開放使用權(quán)限。