【梗百科】KPOP表情包?中場(chǎng)休息?賽馬娘海外突發(fā)爆火?
母親稱(chēng)14歲兒子在境外被多次轉(zhuǎn)賣(mài)
湖南桂陽(yáng)4歲男童拔乳牙死亡,涉事醫(yī)生停崗
Rapidus 成功生產(chǎn)出日本首個(gè) 2 納米晶體管,這是否意味著日本在芯片制造領(lǐng)域已經(jīng)迎頭趕上?
機(jī)器之心報(bào)道
機(jī)器之心編輯部
人工智能和數(shù)學(xué)是密不可分的。
AI的發(fā)展離不開(kāi)數(shù)學(xué)的進(jìn)步,同時(shí)AI的進(jìn)步也離不開(kāi)解決數(shù)學(xué)問(wèn)題的能力。
在剛結(jié)束不久的IMO競(jìng)賽中,谷歌的新一代Gemini進(jìn)階版模型成功解決了六道超高難度試題中的五道,達(dá)到了今年IMO的金牌水平(35/42),成為首個(gè)獲得奧賽組委會(huì)官方認(rèn)定為金牌的AI系統(tǒng)。
加州大學(xué)洛杉磯分校數(shù)學(xué)系終身教授,菲爾茲獎(jiǎng)獲得者,被稱(chēng)為「數(shù)學(xué)莫扎特」的華人數(shù)學(xué)家陶哲軒,參加了今年度IMO競(jìng)賽的頒獎(jiǎng)典禮。
他同樣也對(duì)在IMO取得成績(jī)的AI模型十分關(guān)注。
但他同樣表達(dá)了一定程度的擔(dān)憂,希望明年能夠在更加受控的環(huán)境下對(duì)AI模型進(jìn)行科學(xué)比較和評(píng)估。
陶教授認(rèn)為:一些在標(biāo)準(zhǔn)考試條件下可能連銅牌都難以穩(wěn)定獲得的學(xué)生或隊(duì)伍,在某些經(jīng)過(guò)修改的賽制下,反而可能穩(wěn)定地達(dá)到金牌水平。
因此,在沒(méi)有采用統(tǒng)一、非參賽隊(duì)自選的控制性測(cè)試方法的前提下,對(duì)于不同AI模型在類(lèi)似IMO等競(jìng)賽中的表現(xiàn),應(yīng)當(dāng)謹(jǐn)慎看待,避免作出過(guò)于簡(jiǎn)單化的「對(duì)等」比較。
陶教授對(duì)人工智能的發(fā)展和評(píng)估的關(guān)心是一貫的。就在剛剛,他在mathstodon上發(fā)表了對(duì)于人工智能發(fā)展現(xiàn)狀的觀點(diǎn)和對(duì)于未來(lái)的評(píng)估策略的建議。
人工智能技術(shù)現(xiàn)已迅速接近從定性到定量成果的轉(zhuǎn)型階段。
隨著一項(xiàng)技術(shù)成熟,關(guān)注點(diǎn)往往會(huì)從定性的成就轉(zhuǎn)移,例如誰(shuí)第一個(gè)實(shí)現(xiàn)了某個(gè)目標(biāo),轉(zhuǎn)向更定量的衡量標(biāo)準(zhǔn),例如完成單個(gè)任務(wù)需要多少資源和專(zhuān)業(yè)知識(shí),以及會(huì)產(chǎn)生多少環(huán)境影響和傷害風(fēng)險(xiǎn)。
這是一個(gè)必要的轉(zhuǎn)變,以便將技術(shù)從概念驗(yàn)證擴(kuò)展到大規(guī)模應(yīng)用。
舉兩個(gè)例子:諸如萊特兄弟在1903年首次實(shí)現(xiàn)動(dòng)力、可控、比空氣重的飛行;林德伯格在1927年首次獨(dú)自不間斷跨大西洋飛行。
但真正讓跨大西洋航空旅行變得低成本、安全且對(duì)發(fā)達(dá)國(guó)家中產(chǎn)階級(jí)來(lái)說(shuō)可以定期負(fù)擔(dān)得起的,并不是這些初期的壯舉,而是從上世紀(jì)50年代開(kāi)始,長(zhǎng)達(dá)數(shù)十年的噴氣式航空技術(shù)的持續(xù)發(fā)展,以及與之配套的基礎(chǔ)設(shè)施和后勤系統(tǒng)的穩(wěn)步完善。這些工作雖枯燥,卻至關(guān)重要。
相比之下,阿波羅計(jì)劃雖曾在1969年成功實(shí)現(xiàn)了載人登月的里程碑,但代價(jià)極為高昂。與航空領(lǐng)域的發(fā)展不同,太空探索在成本降低方面并未取得顯著進(jìn)展。
如今,幾乎任何一個(gè)具體的概念驗(yàn)證目標(biāo),只要投入足夠的資源和專(zhuān)業(yè)團(tuán)隊(duì),都有可能在未來(lái)幾年內(nèi)通過(guò)類(lèi)似「登月計(jì)劃」式的AI項(xiàng)目實(shí)現(xiàn)。
但真正要將這些技術(shù)大規(guī)模部署到現(xiàn)實(shí)世界中,關(guān)鍵問(wèn)題已經(jīng)從「能否做到」轉(zhuǎn)向了「如何以更低成本、更高安全性和更強(qiáng)可擴(kuò)展性實(shí)現(xiàn)」。
簡(jiǎn)而言之,就是人工智能需要「降本增效」。這與評(píng)估AI模型的方式密不可分。
在宣布某一目標(biāo)完成時(shí),顯然有必要同步報(bào)告其所消耗的資源成本。但同樣重要的是,也應(yīng)報(bào)告失敗案例,以更準(zhǔn)確地評(píng)估成功率——這是衡量預(yù)期成本的關(guān)鍵部分。
舉例來(lái)說(shuō),如果某個(gè)先進(jìn)的AI工具每次嘗試解決一道奧賽級(jí)別的問(wèn)題需要耗費(fèi)約1000美元的算力資源,但成功率只有20%,那么平均每成功解決一次問(wèn)題的實(shí)際成本就是5000美元。如果只報(bào)告那20%的成功案例,就會(huì)對(duì)實(shí)際成本形成嚴(yán)重誤導(dǎo)。
同理,如果這些成功案例是在有高薪專(zhuān)家全程監(jiān)督、監(jiān)控,甚至準(zhǔn)備隨時(shí)介入的前提下完成的——即使最終沒(méi)有觸發(fā)人工干預(yù),這部分「待命成本」也應(yīng)計(jì)入整個(gè)過(guò)程的實(shí)際成本。
盡管未來(lái)的擴(kuò)展規(guī)律(scalinglaws)可能會(huì)有所變化,但可以預(yù)見(jiàn)的是,最耗費(fèi)資源的AI系統(tǒng)依然會(huì)比那些廉價(jià)模型更強(qiáng)大。因此,在實(shí)際應(yīng)用中,「輕量型」與「密集型」AI工具各有其用武之地
以陶教授最近完成的「等式理論項(xiàng)目(EquationalTheoriesProject)」為例:在總共需要證明的2200萬(wàn)條蘊(yùn)涵關(guān)系中,絕大多數(shù)是通過(guò)非常簡(jiǎn)單的暴力方法完成的;剩下的很大一部分則由中等強(qiáng)度的自動(dòng)定理證明器(ATP)解決;再往后,一部分由人類(lèi)參與者解決,最后少數(shù)幾個(gè)疑難問(wèn)題,則依賴(lài)多個(gè)研究人員與ATP工具協(xié)作攻克。
盡管并未大量使用像大型語(yǔ)言模型這樣的現(xiàn)代AI,但陶教授預(yù)計(jì)未來(lái)類(lèi)似的大規(guī)模項(xiàng)目會(huì)呈現(xiàn)類(lèi)似的發(fā)展路徑:
項(xiàng)目的絕大部分由「廉價(jià)」AI完成,而「昂貴」的高級(jí)AI則與人類(lèi)專(zhuān)家協(xié)同作戰(zhàn)。
展望未來(lái),標(biāo)準(zhǔn)化的基準(zhǔn)測(cè)試和競(jìng)賽將變得越來(lái)越重要,特別是那些要求提前披露資源使用和方法細(xì)節(jié)的評(píng)測(cè)機(jī)制。這對(duì)于準(zhǔn)確衡量AI技術(shù)的「量變」進(jìn)展至關(guān)重要。
這與陶教授在IMO競(jìng)賽后對(duì)AI公司自我披露競(jìng)賽結(jié)果擔(dān)憂的觀點(diǎn)是一脈相承的。
當(dāng)前依賴(lài)自我報(bào)告成果的現(xiàn)狀,在技術(shù)發(fā)展的「質(zhì)變」初期階段尚且可以接受,但隨著AI進(jìn)入廣泛落地和實(shí)際部署階段,這種方式就必須被更透明、可對(duì)比的標(biāo)準(zhǔn)化評(píng)估所取代
陶哲軒教授的觀點(diǎn)站在了歷史的角度,但同樣也有網(wǎng)友回望歷史而對(duì)人工智能的普及暗含的風(fēng)險(xiǎn)而表示擔(dān)憂。
完整內(nèi)容請(qǐng)參閱原始推文:https://mathstodon.xyz/@tao/114910028356641733