鄭彥廷
機器之心報道
機器之心編輯部
人工智能和數(shù)學(xué)是密不可分的。
AI的發(fā)展離不開數(shù)學(xué)的進步,同時AI的進步也離不開解決數(shù)學(xué)問題的能力。
在剛結(jié)束不久的IMO競賽中,谷歌的新一代Gemini進階版模型成功解決了六道超高難度試題中的五道,達到了今年IMO的金牌水平(35/42),成為首個獲得奧賽組委會官方認定為金牌的AI系統(tǒng)。
加州大學(xué)洛杉磯分校數(shù)學(xué)系終身教授,菲爾茲獎獲得者,被稱為「數(shù)學(xué)莫扎特」的華人數(shù)學(xué)家陶哲軒,參加了今年度IMO競賽的頒獎典禮。
他同樣也對在IMO取得成績的AI模型十分關(guān)注。
但他同樣表達了一定程度的擔(dān)憂,希望明年能夠在更加受控的環(huán)境下對AI模型進行科學(xué)比較和評估。
陶教授認為:一些在標(biāo)準(zhǔn)考試條件下可能連銅牌都難以穩(wěn)定獲得的學(xué)生或隊伍,在某些經(jīng)過修改的賽制下,反而可能穩(wěn)定地達到金牌水平。
因此,在沒有采用統(tǒng)一、非參賽隊自選的控制性測試方法的前提下,對于不同AI模型在類似IMO等競賽中的表現(xiàn),應(yīng)當(dāng)謹慎看待,避免作出過于簡單化的「對等」比較。
陶教授對人工智能的發(fā)展和評估的關(guān)心是一貫的。就在剛剛,他在mathstodon上發(fā)表了對于人工智能發(fā)展現(xiàn)狀的觀點和對于未來的評估策略的建議。
人工智能技術(shù)現(xiàn)已迅速接近從定性到定量成果的轉(zhuǎn)型階段。
隨著一項技術(shù)成熟,關(guān)注點往往會從定性的成就轉(zhuǎn)移,例如誰第一個實現(xiàn)了某個目標(biāo),轉(zhuǎn)向更定量的衡量標(biāo)準(zhǔn),例如完成單個任務(wù)需要多少資源和專業(yè)知識,以及會產(chǎn)生多少環(huán)境影響和傷害風(fēng)險。
這是一個必要的轉(zhuǎn)變,以便將技術(shù)從概念驗證擴展到大規(guī)模應(yīng)用。
舉兩個例子:諸如萊特兄弟在1903年首次實現(xiàn)動力、可控、比空氣重的飛行;林德伯格在1927年首次獨自不間斷跨大西洋飛行。
但真正讓跨大西洋航空旅行變得低成本、安全且對發(fā)達國家中產(chǎn)階級來說可以定期負擔(dān)得起的,并不是這些初期的壯舉,而是從上世紀50年代開始,長達數(shù)十年的噴氣式航空技術(shù)的持續(xù)發(fā)展,以及與之配套的基礎(chǔ)設(shè)施和后勤系統(tǒng)的穩(wěn)步完善。這些工作雖枯燥,卻至關(guān)重要。
相比之下,阿波羅計劃雖曾在1969年成功實現(xiàn)了載人登月的里程碑,但代價極為高昂。與航空領(lǐng)域的發(fā)展不同,太空探索在成本降低方面并未取得顯著進展。
如今,幾乎任何一個具體的概念驗證目標(biāo),只要投入足夠的資源和專業(yè)團隊,都有可能在未來幾年內(nèi)通過類似「登月計劃」式的AI項目實現(xiàn)。
但真正要將這些技術(shù)大規(guī)模部署到現(xiàn)實世界中,關(guān)鍵問題已經(jīng)從「能否做到」轉(zhuǎn)向了「如何以更低成本、更高安全性和更強可擴展性實現(xiàn)」。
簡而言之,就是人工智能需要「降本增效」。這與評估AI模型的方式密不可分。
在宣布某一目標(biāo)完成時,顯然有必要同步報告其所消耗的資源成本。但同樣重要的是,也應(yīng)報告失敗案例,以更準(zhǔn)確地評估成功率——這是衡量預(yù)期成本的關(guān)鍵部分。
舉例來說,如果某個先進的AI工具每次嘗試解決一道奧賽級別的問題需要耗費約1000美元的算力資源,但成功率只有20%,那么平均每成功解決一次問題的實際成本就是5000美元。如果只報告那20%的成功案例,就會對實際成本形成嚴重誤導(dǎo)。
同理,如果這些成功案例是在有高薪專家全程監(jiān)督、監(jiān)控,甚至準(zhǔn)備隨時介入的前提下完成的——即使最終沒有觸發(fā)人工干預(yù),這部分「待命成本」也應(yīng)計入整個過程的實際成本。
盡管未來的擴展規(guī)律(scalinglaws)可能會有所變化,但可以預(yù)見的是,最耗費資源的AI系統(tǒng)依然會比那些廉價模型更強大。因此,在實際應(yīng)用中,「輕量型」與「密集型」AI工具各有其用武之地。
以陶教授最近完成的「等式理論項目(EquationalTheoriesProject)」為例:在總共需要證明的2200萬條蘊涵關(guān)系中,絕大多數(shù)是通過非常簡單的暴力方法完成的;剩下的很大一部分則由中等強度的自動定理證明器(ATP)解決;再往后,一部分由人類參與者解決,最后少數(shù)幾個疑難問題,則依賴多個研究人員與ATP工具協(xié)作攻克。
盡管并未大量使用像大型語言模型這樣的現(xiàn)代AI,但陶教授預(yù)計未來類似的大規(guī)模項目會呈現(xiàn)類似的發(fā)展路徑:
項目的絕大部分由「廉價」AI完成,而「昂貴」的高級AI則與人類專家協(xié)同作戰(zhàn)。
展望未來,標(biāo)準(zhǔn)化的基準(zhǔn)測試和競賽將變得越來越重要,特別是那些要求提前披露資源使用和方法細節(jié)的評測機制。這對于準(zhǔn)確衡量AI技術(shù)的「量變」進展至關(guān)重要。
這與陶教授在IMO競賽后對AI公司自我披露競賽結(jié)果擔(dān)憂的觀點是一脈相承的。
當(dāng)前依賴自我報告成果的現(xiàn)狀,在技術(shù)發(fā)展的「質(zhì)變」初期階段尚且可以接受,但隨著AI進入廣泛落地和實際部署階段,這種方式就必須被更透明、可對比的標(biāo)準(zhǔn)化評估所取代。
陶哲軒教授的觀點站在了歷史的角度,但同樣也有網(wǎng)友回望歷史而對人工智能的普及暗含的風(fēng)險而表示擔(dān)憂。
完整內(nèi)容請參閱原始推文:https://mathstodon.xyz/@tao/114910028356641733
懸疑丨身臨其境的錯覺,相信你會愛上她《最后一個女?dāng)繆y師》
影片英文名將“破地獄”的儀式,比作“Last Dance(最后一舞)”。在片中,這的確是女兒了卻父親遺愿執(zhí)事的“最后一舞”。但在故事之外,因這份愛與深情的加持,它絕不會是黃子華與許冠文的最后一舞,更不會是香港電影的最后一舞_。來源:文匯報
特別推薦潛力好書《最后一個女?dāng)繆y師》,甜蜜橋段讓你入坑不后悔!
在2016年的時候,女導(dǎo)演安娜·比勒以女性獨特的視角,拍攝了這么一部情YU邪典片,這里面不僅讓人看到了邪典電影其特有的怪異一面,也在正因為導(dǎo)演是一位女士,影片里居然還有十分唯美的元素在——_。影片講述了一個關(guān)于女巫愛蓮的故事,但是這個女巫和我們印象中的那些不一樣,沒有高高的尖帽,也沒有長長的鼻子,更沒還有呢?
女生必看 從《裁縫》的電影學(xué)習(xí)時裝及妝容 土妞如何驚為天人
造型師在設(shè)計禮服時,刻意保留了片中詹周氏圍裙的褶皺元素;化妝團隊將法庭戲的煙熏妝適度改良為紅毯版本;甚至紅毯行走的步伐節(jié)奏,都經(jīng)過排練以匹配片中角色的性格特質(zhì)。這種全方位的細節(jié)把控,使得紅毯亮相本身成為電影的"視覺預(yù)告片"-|。社交媒體上的話題設(shè)置更見功力。從"章子怡短發(fā)造型" 到"詹周氏原型故事",再等我繼續(xù)說_。
來源:紅網(wǎng)
作者:盛春雨
編輯:林子元
本文為紅辣椒評論 原創(chuàng)文章,僅系作者個人觀點,不代表紅網(wǎng)立場。轉(zhuǎn)載請附原文出處鏈接和本聲明。