AI發(fā)展的速度比我們想象得更快。
就在上個(gè)月,我們?cè)鴪?bào)道頂尖的大語(yǔ)言模型們還在奧數(shù)級(jí)別的基準(zhǔn)測(cè)試中集體受挫,而僅僅一個(gè)月后,AI便已能在真正的國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽中斬獲金牌。
當(dāng)?shù)貢r(shí)間7月21日,谷歌DeepMind宣布,其研發(fā)的人工智能系統(tǒng)在國(guó)際數(shù)學(xué)奧林匹克(IMO,InternationalMathematicalOlympiad)中取得了歷史性的突破,正式獲得了“金牌”級(jí)別的成績(jī)。這標(biāo)志著人工智能首次在官方認(rèn)證的IMO競(jìng)賽中達(dá)到如此高的成就,同時(shí)也表明AI在復(fù)雜推理能力上邁出了關(guān)鍵一步。
在今年于澳大利亞舉行的第66屆國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽中,谷歌DeepMind參賽的AI模型“GeminiDeepThink”成功解答了全部六道題目中的五道,最終獲得了35分(滿分42分)的優(yōu)異成績(jī)。根據(jù)IMO的評(píng)分標(biāo)準(zhǔn),這一分?jǐn)?shù)足以摘得金牌。IMO主席Prof.Dr.GregorDolinar評(píng)價(jià)這些解答“在許多方面都令人震驚”,認(rèn)為它們“清晰、準(zhǔn)確,大部分都容易理解”。
圖丨本次IMO的題目之一(來(lái)源:DeepMind)
此次谷歌的勝利,不僅在于分?jǐn)?shù)的突破,更重要的是其實(shí)現(xiàn)方式也產(chǎn)生了巨大變革。去年,DeepMind的兩個(gè)系統(tǒng)AlphaGeometry和AlphaProof聯(lián)手獲得了銀牌,解決了六題中的四題。但當(dāng)時(shí)的系統(tǒng)需要人類專家先將自然語(yǔ)言描述的賽題手動(dòng)翻譯成名為“Lean”的形式化計(jì)算機(jī)語(yǔ)言,AI才能進(jìn)行處理,整個(gè)過(guò)程耗時(shí)兩到三天。而今年的GeminiDeepThink則完全不同,它是一個(gè)能夠直接理解并處理自然語(yǔ)言問(wèn)題的“推理系統(tǒng)”,在與人類選手相同的4.5小時(shí)競(jìng)賽時(shí)限內(nèi),端到端地完成了從讀題到生成嚴(yán)謹(jǐn)數(shù)學(xué)證明的全過(guò)程,無(wú)需任何人工干預(yù)。
(來(lái)源:DeepMind)
GeminiDeepThink的成功,得益于谷歌在AI推理技術(shù)上的最新研究成果。該模型采用了一種被稱為“并行思維”(parallelthinking)的先進(jìn)技術(shù),使其能夠同時(shí)探索和整合多個(gè)潛在的解題思路,而不是像傳統(tǒng)AI模型那樣沿循單一的線性推理路徑,從而大大提升了解決復(fù)雜問(wèn)題的效率和創(chuàng)造性。此外,DeepMind團(tuán)隊(duì)還運(yùn)用了新的強(qiáng)化學(xué)習(xí)技術(shù),通過(guò)一個(gè)包含高質(zhì)量數(shù)學(xué)解題方案的精選數(shù)據(jù)庫(kù)對(duì)Gemini進(jìn)行專門訓(xùn)練,使其掌握了更高級(jí)的多步推理和定理證明能力。
有意思的是,在解決其中一道許多人類選手需要?jiǎng)佑醚芯可?jí)別數(shù)學(xué)知識(shí)的難題時(shí),GeminiDeepThink卻另辟蹊徑,僅憑基礎(chǔ)的數(shù)論知識(shí)就給出了一個(gè)“絕妙的觀察”和自洽的證明,其解法比許多人類參賽者的更為簡(jiǎn)潔優(yōu)雅。這在某種程度上也表明,AI在復(fù)雜問(wèn)題面前,已經(jīng)具備了超越常規(guī)思路、發(fā)現(xiàn)創(chuàng)新解法的潛力。
不過(guò),這次成就的發(fā)布過(guò)程頗具戲劇性。就在谷歌公布消息的兩天前,OpenAI的一位研究員在社交媒體上搶先宣布,他們的一款實(shí)驗(yàn)性AI模型也在今年的IMO中取得了出色的“金牌”成績(jī)——同樣是解出五道題,獲得35分。
但區(qū)別在于,OpenAI并未正式參與IMO的官方評(píng)估流程,而是他們組建了一個(gè)由三位前IMO獎(jiǎng)牌得主構(gòu)成的獨(dú)立小組來(lái)為自己的AI打分。而谷歌則是與IMO官方合作,由競(jìng)賽協(xié)調(diào)員根據(jù)學(xué)生評(píng)分標(biāo)準(zhǔn)正式評(píng)定成績(jī),也因此,只有谷歌的成績(jī)得到了IMO官方的認(rèn)證。
此外,據(jù)多方消息透露,IMO官方曾請(qǐng)求所有參與測(cè)試的AI公司在閉幕式后等待一周再公布成績(jī),以便讓焦點(diǎn)首先集中在獲獎(jiǎng)的青少年學(xué)生身上。谷歌DeepMind遵守了這一約定,而OpenAI則在閉幕式當(dāng)天就迫不及待地公布了其“自評(píng)”的成績(jī),這種做法在AI社區(qū)引發(fā)了激烈爭(zhēng)議。DeepMindCEODemisHassabis在社交媒體上含蓄地諷刺了一下友商:“順便說(shuō)一下,我們沒(méi)有在周五宣布,是因?yàn)槲覀冏鹬豂MO委員會(huì)的原始要求,即所有AI實(shí)驗(yàn)室都應(yīng)該在官方結(jié)果得到獨(dú)立專家驗(yàn)證且學(xué)生們理應(yīng)獲得應(yīng)有的贊譽(yù)之后才分享他們的結(jié)果?!?/p>
圖丨相關(guān)推文(來(lái)源:X)
值得注意的是,無(wú)論是谷歌的GeminiDeepThink還是OpenAI的模型,都未能攻克本屆IMO難度最高的第六題。這道題目要求計(jì)算覆蓋一個(gè)給定空間所需的最少矩形數(shù)量,最終只有5名人類學(xué)生成功解出。據(jù)悉,Gemini在解這道題時(shí),從一個(gè)錯(cuò)誤的假設(shè)出發(fā),最終未能找到正確路徑。這也從側(cè)面說(shuō)明,盡管AI在邏輯推理方面取得了長(zhǎng)足進(jìn)步,但在面對(duì)某些極具挑戰(zhàn)性和創(chuàng)造性的問(wèn)題時(shí),與頂尖的人類智慧相比,仍有其局限性,需要從這些年輕的數(shù)學(xué)天才身上學(xué)習(xí)。
著名數(shù)學(xué)家陶哲軒也在社交媒體上詳細(xì)分析了評(píng)估AI能力的復(fù)雜性,他表示,AI系統(tǒng)的表現(xiàn)很大程度上取決于被給予的資源和輔助條件。他用人類參賽者的類比來(lái)說(shuō)明,如果改變競(jìng)賽格式(比如給學(xué)生幾天時(shí)間而不是4.5小時(shí),或者允許使用工具),那么成績(jī)和排名可能會(huì)發(fā)生巨大變化。因此,在不同規(guī)則下對(duì)AI的能力進(jìn)行比較,需要格外謹(jǐn)慎。
圖丨相關(guān)推文(來(lái)源:X)
但無(wú)論如何,這次比賽對(duì)谷歌而言,都堪稱一次“雙贏”——由他們贏兩次,不僅證明其在與OpenAI等對(duì)手的“AI競(jìng)賽”中占據(jù)了有利身位,還因?yàn)楦?jìng)爭(zhēng)對(duì)手本身的搶跑而獲得了好名聲。
基于這次的成功,谷歌方面也公布了后續(xù)的商業(yè)化路徑:計(jì)劃向一組由數(shù)學(xué)家組成的受信任測(cè)試者提供一個(gè)版本的DeepMind模型,之后會(huì)將其推廣給每月支付250美元的GoogleAIUltra訂閱用戶。他們相信,這種結(jié)合了自然語(yǔ)言流暢性和嚴(yán)謹(jǐn)推理能力的AI系統(tǒng),將成為數(shù)學(xué)家、科學(xué)家和工程師的寶貴工具,最終推動(dòng)人類知識(shí)的邊界,加速AGI的到來(lái)。
參考資料:
1.https://deepmind.google/discover/blog/advanced-version-of-gemini-with-deep-think-officially-achieves-gold-medal-standard-at-the-international-mathematical-olympiad/
2.https://x.com/demishassabis/status/1947337618787615175?ref_src=twsrc%5Etfw%7Ctwcamp%5Etweetembed%7Ctwterm%5E1947337618787615175%7Ctwgr%5Ee2bf7e56b25bf6a4597610749ec8ad1afdee0a50%7Ctwcon%5Es1_&ref_url=https%3A%2F%2Fventurebeat.com%2Fai%2Fgoogle-deepmind-makes-ai-history-with-gold-medal-win-at-worlds-toughest-math-competition%2F
運(yùn)營(yíng)/排版:何晨龍
賴貓的獅子倒影第18集
賴貓的獅子倒影|老婆愛(ài)上我首映地區(qū):中國(guó)大陸歐杰影院提供影片《賴貓的獅子倒影18》在線觀看免費(fèi)全集高清完整版于網(wǎng)友上傳收藏分享————。豆瓣評(píng)分:9.9 歐杰影院影迷:導(dǎo)演祝東寧,藍(lán)海瀚通過(guò)細(xì)膩的鏡頭語(yǔ)言和深刻的情感描繪,讓觀眾與劇中人物產(chǎn)生了強(qiáng)烈的共鳴,主演們的表演功不可沒(méi)_。豆瓣影迷:導(dǎo)演以獨(dú)特的視角和深刻的洞察力, 事業(yè)愛(ài)情雙低谷,慕晚晴再對(duì)劉青起疑心最近桃的《賴貓的獅子倒影》想必應(yīng)該有不少朋友在追,其實(shí)這部小說(shuō)《老婆愛(ài)上我》改編的電視劇,早在文字時(shí)代,就已經(jīng)收獲了粉絲無(wú)數(shù);本周隨著女主慕晚晴的前任馮聰正式上線,女主一直以來(lái)遭遇的企業(yè)危機(jī),和個(gè)人綁架車禍的背后黑手也漸漸地浮出了水面|。在本劇中,慕晚晴在劇好了吧!《老婆愛(ài)上我》開(kāi)機(jī),朱亞文楊子姍演繹男版灰姑娘和女總裁的故事