廖朝旭
前幾天,OpenAI遭到了大量「口誅筆伐」,起因是一些人認(rèn)為OpenAI「搶發(fā)」今年國際數(shù)學(xué)奧林匹克競賽(IMO)成績,用「AI斬獲金牌」搶學(xué)生風(fēng)頭。
盡管如此,單從技術(shù)突破的角度來看,OpenAI這一未公開的實(shí)驗(yàn)性大模型也值得期待。
據(jù)OpenAI介紹,他們的模型僅在4.5小時(shí)內(nèi)便獨(dú)立完成今年IMO的6道證明題,且未使用網(wǎng)絡(luò)或計(jì)算器輔助,成績達(dá)到了全球僅不到9%人類參賽者能達(dá)到的金牌標(biāo)準(zhǔn)。
更值得一提的是,OpenAI稱此次成功并非依賴特定任務(wù)的狹隘方法,而是通過通用推理能力實(shí)現(xiàn)的。
那么,這一神秘模型是如何做到輕松超越大部分人類選手、斬獲金牌的?OpenAI在背后做了哪些努力?他們所稱的“通用技術(shù)”又預(yù)示了怎樣的未來?
日前,OpenAI研究員AlexWei、SherylHsu和NoamBrown在做客TrainingData節(jié)目時(shí),分享了這一歷史性成果背后的故事:
從長期以來對IMO金牌的關(guān)注,到僅兩個(gè)月的全力沖刺;從采用通用強(qiáng)化學(xué)習(xí)技術(shù),而非形式化驗(yàn)證工具的獨(dú)特方法,到模型展現(xiàn)出的驚人自我意識——在面對第六題這一難題時(shí),能意識到并承認(rèn)自己無法解決。
他們表示,這一突破不僅在于出色的數(shù)學(xué)能力,更在于其底層架構(gòu)所包含的通用技術(shù),可擴(kuò)展測試時(shí)計(jì)算、處理遠(yuǎn)超競賽數(shù)學(xué)范圍的難以驗(yàn)證任務(wù)。
他們也談及了當(dāng)前成果與真正數(shù)學(xué)研究突破之間的差距,以及未來將通用技術(shù)應(yīng)用于更多領(lǐng)域、解決更復(fù)雜問題的愿景。
學(xué)術(shù)頭條在不改變原文大意的前提下,對訪談內(nèi)容做了適當(dāng)?shù)木幒蛣h減。如下:
SonyaHuang:Alex、Sheryl、Noam,非常感謝你們今天做客節(jié)目。我們請到的是OpenAI首次獲得IMO金牌的團(tuán)隊(duì)。祝賀你們所有人,這是一項(xiàng)重大成就。
合:謝謝。
SonyaHuang:我很想了解一下這件事的故事。IMO金牌一直是人工智能領(lǐng)域所有人長期追逐但又難以企及的目標(biāo)。我記得2021年Sam向我們做演示時(shí),幻燈片上就有這個(gè)目標(biāo),當(dāng)時(shí)我還想:“啊,這看起來還很遙遠(yuǎn)?!蔽液芟肓私庖幌拢瓦@項(xiàng)具體的成果而言,更直接的起源是什么。你們是什么時(shí)候開始考慮這件事的,又是怎么實(shí)現(xiàn)的呢?
AlexWei:我覺得這是我們長期以來一直在思考的事情。我記得在我剛加入OpenAI的第一周,Noam就問我,你覺得這個(gè)模型什么時(shí)候能拿到IMO金牌?我當(dāng)時(shí)覺得,2025年能實(shí)現(xiàn)的可能性不大。但就像你說的,這一直是我們心中的一個(gè)目標(biāo)。但就這項(xiàng)具體的工作而言,我覺得,我們真正開始為今年的IMO做最后的沖刺,大概也就幾個(gè)月的時(shí)間。當(dāng)然,我們一直在改進(jìn)我們的強(qiáng)化學(xué)習(xí)算法。
SonyaHuang:太不可思議了。參與的團(tuán)隊(duì)有多大規(guī)模呢?
AlexWei:我們顯然是在OpenAI很多人的研究基礎(chǔ)上進(jìn)行的,沒有推理部門、規(guī)?;瘓F(tuán)隊(duì)的同事,還有負(fù)責(zé)預(yù)訓(xùn)練和強(qiáng)化學(xué)習(xí)訓(xùn)練的人員的大量幫助,這一切都不可能實(shí)現(xiàn)。但核心人員其實(shí)就我們?nèi)齻€(gè)人。
SonyaHuang:太不可思議了,只有你們?nèi)齻€(gè)人。
NoamBrown:而且主要是Alex在做,Alex研究這項(xiàng)技術(shù)已經(jīng)有一段時(shí)間了,我和Sheryl在臨近IMO的時(shí)候才開始幫忙,因?yàn)槲覀冊絹碓浇咏屵@件事成為現(xiàn)實(shí)。
SonyaHuang:太厲害了。那這一切是怎么推進(jìn)的呢?比如,是你們自己決定要爭取拿下IMO金牌,然后朝著這個(gè)目標(biāo)努力嗎?你們是怎么主動提出要做這樣一件事的呢?
AlexWei:是因?yàn)槲覀冇X得或許有可能,如果我們在這幾個(gè)月里再加把勁,也許就能成功。
NoamBrown:OpenAI的優(yōu)點(diǎn)之一是,研究人員能自主開展他們認(rèn)為有影響力的研究。所以Alex就提出,他有一項(xiàng)新技術(shù),可能會很有幫助。說實(shí)話,當(dāng)時(shí)有不少人持懷疑態(tài)度,當(dāng)然也有人支持,但大家都覺得應(yīng)該給我們探索和嘗試的自由。后來,研究開始顯現(xiàn)出一些積極的跡象,雖然還有人持懷疑態(tài)度,但越來越多的人開始對此感到興奮,最終這件事變得越來越重要,現(xiàn)在大家顯然都對它非常興奮。
SonyaHuang:能再具體說說那些積極的跡象嗎?比如你們看到了哪些早期信號,讓你們決定全力以赴?
AlexWei:我覺得是在難以驗(yàn)證的任務(wù)上取得的進(jìn)展。以前,我們更多關(guān)注的是如果有可驗(yàn)證的結(jié)果,我們能做些什么。而在這些更難驗(yàn)證的任務(wù)上看到了更多改進(jìn),這讓我們很受鼓舞。
SonyaHuang:或許從這個(gè)角度來說,你們是如何驗(yàn)證結(jié)果的正確性的呢?我知道你們在GitHub上發(fā)布了證明過程,但能再說說你們是如何確定已經(jīng)找到正確答案的嗎?因?yàn)槲伊私獾剑P偷慕忸}方式和人類不太一樣。
AlexWei:是啊。我確實(shí)認(rèn)為模型輸出的風(fēng)格有點(diǎn)糟糕。
SonyaHuang:“糟糕”這個(gè)詞我可不會用。應(yīng)該說很有創(chuàng)意,像一種外星語言。
AlexWei:是啊,所以我覺得,因?yàn)槲覀內(nèi)撕苌?,所以我們沒有太注重優(yōu)化輸出結(jié)果的可讀性,但我們是有能力做到的,就像ChatGPT的輸出就很容易理解,我們也能讓模型做到這一點(diǎn)。
SonyaHuang:你們覺得有必要優(yōu)化輸出結(jié)果的可讀性嗎?這很重要嗎?
NoamBrown:我覺得如果要展示給人類看,他們肯定更希望結(jié)果通俗易懂。我們其實(shí)討論過,我們拿到證明后,發(fā)現(xiàn)其實(shí)可以讓ChatGPT把它改得更易讀一些,而且證明的正確性不會受影響,只是可讀性稍微增強(qiáng)了一點(diǎn)。我們當(dāng)時(shí)在想,當(dāng)我們在網(wǎng)上發(fā)布這些內(nèi)容時(shí),是發(fā)布經(jīng)過ChatGPT優(yōu)化的更易讀的版本,還是發(fā)布原始版本?最后我們決定,為了完全透明,還是發(fā)布原始版本,大家應(yīng)該能看懂。
SonyaHuang:OpenAI的員工里有很多IMO獎牌得主和參賽者,對吧?你們會在業(yè)余時(shí)間給模型生成的答案評分嗎?
AlexWei:在測試期間,我們確實(shí)看了很多樣本。但為了給這些結(jié)果評分,我們專門聘請了外部的前IMO獎牌得主。每個(gè)證明都由三位獎牌得主評分,而且他們對每個(gè)證明的正確性都達(dá)成了一致意見。
NoamBrown:我不知道Sheryl怎么樣,反正對我來說,這些證明已經(jīng)超出了我的理解能力。我雖然是數(shù)學(xué)專業(yè)出身,但從來沒參加過數(shù)學(xué)競賽,這個(gè)模型寫出的東西,我已經(jīng)無法評判了。
SherylHsu:是啊,我也是。我覺得這更能體現(xiàn)出這個(gè)模型有多厲害。
SonyaHuang:沒錯(cuò)。那第六題呢?為什么所有模型都沒能解出今年IMO的第六題,你們的模型甚至都沒有嘗試解答,能詳細(xì)解釋一下這個(gè)問題的原因嗎?一般來說,第六題總是IMO中最難的。
AlexWei:是的,我通常認(rèn)為是第三題或第六題。
SonyaHuang:能說說是什么讓這道題與眾不同嗎?以及你從其中學(xué)到了什么?而且我記得你在推特上說,模型知道自己解不出第六題,能再說說嗎?
AlexWei:對于第六題,我覺得它真的是一個(gè)非常棘手的問題。就算給我?guī)讉€(gè)月的時(shí)間去思考,甚至給我一個(gè)關(guān)于解題主要思路的提示,我也解不出來。這道題太難了,有太多種可能的思路,但找到正確的證明路徑卻非常狹窄。我覺得,數(shù)學(xué)本身就是很難的事之一。
SherylHsu:是的。我們在第六題上投入了大量的計(jì)算資源,但看到模型沒有試圖去編造答案,而是直接說解不出來,這其實(shí)是件好事。當(dāng)然,當(dāng)你覺得模型付出了這么多努力,最后卻只說解不出來,確實(shí)有點(diǎn)令人失望,但模型能承認(rèn)這一點(diǎn),還是很好的。
SonyaHuang:這體現(xiàn)了一種驚人的自我認(rèn)知,知道自己的能力上限。因?yàn)槲矣浀镁驮趲啄昵?,這些模型總是會努力給出答案,哪怕是編造一個(gè),對吧?所以現(xiàn)在能看到模型有這樣的表現(xiàn),真的是一種驚人的自我認(rèn)知。
NoamBrown:我們發(fā)布推理模型的時(shí)候,我和一些數(shù)學(xué)家、計(jì)算機(jī)科學(xué)家交流,問他們是否覺得這些模型有價(jià)值。答案通常是肯定的,但他們抱怨的一點(diǎn)是,如果問模型一個(gè)它不知道答案的問題,它會輸出一個(gè)聽起來非常令人信服但實(shí)際上錯(cuò)誤的答案,他們必須仔細(xì)檢查才能發(fā)現(xiàn)問題,比如是不是模型偷偷改了一個(gè)不等式什么的。所以看到這個(gè)模型在不知道答案的時(shí)候,至少能更頻繁地承認(rèn)自己不知道,這很好。
SonyaHuang:我想知道,在內(nèi)部,你們有沒有打賭,比如在預(yù)測市場上押注今年能否拿到IMO金牌,當(dāng)時(shí)內(nèi)部的氛圍是怎樣的?
AlexWei:我覺得我們有很大的機(jī)會,但也不是十拿九穩(wěn)。有些類型的題目,模型可能比人類更吃力,但還有一些類型的題目,模型會表現(xiàn)得非常出色。今年的題目難度適中,像第六題,以目前最先進(jìn)的模型水平來說還是難以攻克。而且我覺得,像第六題這樣的組合數(shù)學(xué)難題,通常更有挑戰(zhàn)性,這也是模型目前還在攻克的難點(diǎn)。
SonyaHuang:組合數(shù)學(xué)和你們擅長的幾何等領(lǐng)域相比,難在哪里呢?
AlexWei:我覺得組合數(shù)學(xué)可能更抽象,維度更高。而且很多時(shí)候,組合數(shù)學(xué)問題需要靈光一閃的洞察力,這正是模型不擅長的。我認(rèn)為模型更擅長解決那些需要一系列小步驟的問題。
SonyaHuang:從你們的角度來看,當(dāng)時(shí)內(nèi)部對拿到金牌是樂觀還是不樂觀呢?
SherylHsu:我覺得情況不是特別樂觀。大家當(dāng)然知道有可能實(shí)現(xiàn),但我覺得就算在一兩個(gè)月前,大家也覺得還需要很大的改進(jìn)才能做到,不過我們確實(shí)做到了。
NoamBrown:我記得大概在比賽前兩個(gè)月,我和OpenAI的另一位研究員聊天,我們說:“好吧,如果要打賭的話,我是愿意打賭的人,我很樂意賭一把?!蔽耶?dāng)時(shí)問他:“你愿意冒多大的險(xiǎn)?”因?yàn)槲以敢獯蛸€我們能拿到金牌。然后他說:“根本不可能。”而且,他說他很樂意以二比一的賠率賭模型贏不了,也就是說,模型贏的概率不到三分之一。但他不想和我們打賭,因?yàn)樗X得和團(tuán)隊(duì)打賭不吉利,所以最后他沒有和我們打賭。
SonyaHuang:那你有沒有從他那里贏點(diǎn)零花錢?
NoamBrown:我希望能啊,我希望能。
SonyaHuang:因?yàn)槲矣浀媚銈冊?5個(gè)月前,在Amy上的預(yù)測是12%,對吧?所以盡管你永遠(yuǎn)不想和OpenAI的規(guī)模化發(fā)展打賭,但你們?nèi)〉玫某删瓦€是非常驚人的。
NoamBrown:我認(rèn)為數(shù)學(xué)進(jìn)步的速度真的非???,Alex也在推特上提到過這一點(diǎn)。要知道就在幾年前,這些模型在小學(xué)數(shù)學(xué)問題上都很吃力。我記得,甚至在2024年,GSM8K數(shù)據(jù)集還被當(dāng)作大家發(fā)布模型時(shí)的標(biāo)準(zhǔn)評估基準(zhǔn),之后短暫地變成了MATH,接著是AMIE,再后來是IMO。它的發(fā)展速度突破了所有這些數(shù)學(xué)基準(zhǔn),這真是令人震驚。
SherylHsu:我還記得兩年前我訓(xùn)練的模型是基于GSM8K的。
SonyaHuang:是啊,那些日子已經(jīng)過去了,對吧?評估基準(zhǔn)已經(jīng)飽和了。接下來會是什么呢?你覺得,到明年這個(gè)時(shí)候,我們能解決千禧年大獎難題嗎?
AlexWei:我覺得還很遙遠(yuǎn)。一方面,想想從GSM8K以來,數(shù)學(xué)領(lǐng)域取得的進(jìn)步,就在兩年前,GSM8K還是大家努力突破的標(biāo)準(zhǔn),這進(jìn)步速度確實(shí)驚人。但另一方面,想想人類解決這些問題需要的時(shí)間,GSM8K的題目就像是小學(xué)水平,數(shù)學(xué)好的人幾秒鐘就能解決。而現(xiàn)在,我們已經(jīng)從幾秒鐘的解題時(shí)間,進(jìn)步到了平均每道題像那些優(yōu)秀學(xué)生也需要一個(gè)半小時(shí)的時(shí)間,而研究級別的數(shù)學(xué)問題可能需要1500個(gè)小時(shí)才能解決,這是上千倍的思考時(shí)間。千禧年大獎難題更是耗費(fèi)了整個(gè)領(lǐng)域的人畢生的精力,而且大多數(shù)問題至今仍沒有太大進(jìn)展。所以,一方面,我們?nèi)〉昧巳绱舜蟮倪M(jìn)步,令人興奮;另一方面,我們還有很長的路要走,從一個(gè)半小時(shí)到數(shù)萬、數(shù)十萬小時(shí)的人類思考時(shí)間,這也讓人感到自己的渺小。
SonyaHuang:完全同意。Noam,我覺得你在這方面很有前瞻性。我記得在你加入OpenAI之前,你就和我們聊過游戲領(lǐng)域的研究成果,以及如果讓模型思考數(shù)小時(shí)甚至數(shù)十小時(shí)會發(fā)生什么,你真的很有遠(yuǎn)見。
NoamBrown:謝謝。是啊,能看到這些成為現(xiàn)實(shí),很令人興奮。
SonyaHuang:那么,當(dāng)把計(jì)算時(shí)間、推理時(shí)間從0.1分鐘級擴(kuò)展到100分鐘級時(shí),會遇到哪些困難呢?我想從一個(gè)較高的層面來了解,因?yàn)槲覀兊穆牨姶蠖嗖皇侨斯ぶ悄苎芯咳藛T,那么在保證模型正常運(yùn)行方面,會遇到哪些難題呢?
NoamBrown:有一個(gè)很明顯的挑戰(zhàn)是,如果讓模型思考1500小時(shí),那么為了評估它,也需要讓它思考1500小時(shí),這樣模型的評估就會成為阻礙進(jìn)度的一大障礙。目前我們還沒到那個(gè)階段,讓模型思考一個(gè)半小時(shí)不成問題,我們可以進(jìn)行測試。但如果要進(jìn)行一個(gè)需要模型思考一個(gè)月的測試,那就得等一個(gè)月才能出結(jié)果。如果要等這樣的結(jié)果,進(jìn)展的速度就會大打折扣。
SonyaHuang:我覺得你們都在多智能體(multi-agent)團(tuán)隊(duì)工作。能幫我理解一下multi-agentsystem在這其中扮演了什么角色嗎?
NoamBrown:除了讓模型長時(shí)間思考,在難以驗(yàn)證的任務(wù)上取得較大進(jìn)展,這還涉及到擴(kuò)展并行計(jì)算,這其中就有multi-agent的成分。具體的技術(shù)細(xì)節(jié)我們可能不便多說,但這確實(shí)是我們能夠?yàn)镮MO擴(kuò)展測試時(shí)計(jì)算的一種方式。順便說一下,關(guān)于multi-agent和可擴(kuò)展并行計(jì)算,我們在這方面的技術(shù)非常注重通用性。比如,我研究過撲克人工智能,Alex和我都研究過外交人工智能,Alex還是“西塞羅”團(tuán)隊(duì)的成員。那些項(xiàng)目我都很自豪,但我們也花了好幾年才取得成果。而人工智能的發(fā)展速度如此之快,花時(shí)間開發(fā)一個(gè)只能完成單一任務(wù)的定制系統(tǒng),似乎不是最佳選擇。所以我們都非常注重通用技術(shù)。我們在擴(kuò)展思考時(shí)間、處理難以驗(yàn)證的任務(wù)以及并行計(jì)算方面使用的技術(shù),都是通用技術(shù),我們計(jì)劃或?qū)⑦@些技術(shù)應(yīng)用到其他系統(tǒng)中。
SonyaHuang:這就是你們沒有選擇用Lean的原因嗎?我的理解是,今年IMO的官方人工智能賽道要求用Lean來解題。這就是你們不選擇用Lean的原因嗎?
NoamBrown:是的。我覺得Lean作為一個(gè)工具當(dāng)然有其價(jià)值,比如數(shù)學(xué)家們覺得它很有用。但對于我們來說,我們的重點(diǎn)是通用推理能力,而Lean有其局限性,所以我們更傾向于使用自然語言。
SonyaHuang:以我這個(gè)外行人的理解,Lean是一種形式化驗(yàn)證工具。那么你們的成果是不是意味著,隨著規(guī)模的擴(kuò)大,非形式化驗(yàn)證能達(dá)到甚至超越形式化驗(yàn)證的水平?這樣理解對嗎?
SonyaHuang:我不這么認(rèn)為,我不覺得這是正確的結(jié)論。Alex怎么看?
AlexWei:我覺得這是兩個(gè)不同的方面。我們覺得非形式化數(shù)學(xué)是一個(gè)有趣的問題,因?yàn)樗w現(xiàn)了在擴(kuò)展測試時(shí)計(jì)算、處理難以驗(yàn)證任務(wù)方面的核心難點(diǎn),而這些難點(diǎn)在我們關(guān)注的眾多通用任務(wù)中都存在。我覺得Lean的應(yīng)用范圍有點(diǎn)狹窄,因?yàn)槭澜缟虾芏鄦栴}都可以通過非形式化推理來解決,而不是都能形式化。
NoamBrown:我覺得專用人工智能沒什么不好,在某些領(lǐng)域,專用人工智能顯然遠(yuǎn)超通用人工智能。我覺得正確的理解是,就像人類數(shù)學(xué)家能從Lean中獲益一樣,通用人工智能也能與專注于形式化數(shù)學(xué)的專用系統(tǒng)相輔相成,兩者結(jié)合會更好。
SonyaHuang:我在推特上看到很多OpenAI的朋友提到,我想你們也提到過這一點(diǎn)。這個(gè)系統(tǒng)的構(gòu)建方法和基礎(chǔ)設(shè)施,與OpenAI最近發(fā)布的很多產(chǎn)品相似,比如上周我們請到了ChatGPTAgent團(tuán)隊(duì)的IsaFulford等人做客節(jié)目。能再說說這種相似的基礎(chǔ)和方法是什么嗎?
SherylHsu:從基礎(chǔ)設(shè)施角度來說,我們都使用相同的基礎(chǔ)設(shè)施。但這個(gè)問題的核心是,就像Noam說的,這里沒有任何專門為IMO定制的東西。我們希望能將Alex在非驗(yàn)證任務(wù)和擴(kuò)展測試時(shí)計(jì)算方面的研究技術(shù),應(yīng)用到其他推理領(lǐng)域或提升模型的整體能力上,從而構(gòu)建更強(qiáng)大的模型,不斷改進(jìn)agent、改進(jìn)ChatGPT等所有產(chǎn)品。
SonyaHuang:能說說IMO比賽當(dāng)天的具體情況嗎?那是什么樣的體驗(yàn)?
NoamBrown:我們一直在等題目公布,因?yàn)橐坏﹨①愓呖纪暝嚭?,題目就會公布。我們大概在凌晨一點(diǎn)左右把題目輸入模型,說實(shí)話,我當(dāng)時(shí)就去睡覺了,因?yàn)橐呀?jīng)凌晨一點(diǎn)了,我不想熬四個(gè)半小時(shí)等著看結(jié)果,早上醒來再看就行。但我覺得他們倆應(yīng)該熬夜了,看著模型并實(shí)時(shí)關(guān)注進(jìn)展。
SherylHsu:是啊,非常有趣。
SonyaHuang:有人想打電話嗎,說“醒醒,醒醒,我們成功了”?
NoamBrown:有幾次Alex實(shí)在太累了,他決定小睡一會兒,我們告訴他,“好吧,確保手機(jī)開著聲音,萬一我們需要叫醒你,可以打電話給你。”有一次我們確實(shí)不得不給他打電話,但我覺得他沒醒。
SonyaHuang:太有意思了。那一定非常激動人心,尤其是在那個(gè)時(shí)候。你們凌晨一點(diǎn)開始,那大概早上九點(diǎn)就知道結(jié)果了吧?
SherylHsu:哦,是四個(gè)半小時(shí)。
SonyaHuang:第一部分要四個(gè)半小時(shí)。
SherylHsu:是啊,我也說不準(zhǔn)。我們能看到題目出來,我主要是確保系統(tǒng)穩(wěn)定運(yùn)行,Alex則在一旁閱讀并查看模型的進(jìn)展。
SonyaHuang:所以你是在現(xiàn)場人工驗(yàn)證證明過程,看看是否正確嗎?
AlexWei:我當(dāng)然對結(jié)果非常焦慮,所以我會查看模型取得的部分進(jìn)展,我們能觀察到這些。而且我也會手動檢查,雖然我們會把這些交給評分員,但我自己也很想手動檢查一下。
SonyaHuang:好吧,下次有這種事一定要叫上我,我也想?yún)⑴c,就算熬夜也愿意。聽起來太棒了。
NoamBrown:這些模型有個(gè)很酷的地方,就是雖然我看不懂證明過程,但當(dāng)模型在思考時(shí),它會用自然語言表達(dá)自己的不確定或自信,在整個(gè)過程中,它會說一些話,暗示它的狀態(tài)。比如,如果它非常確定自己找到了答案,就會經(jīng)常說“很好”,如果不確定,就會用很多問號。所以雖然我不能確定它是否正確,但能跟著感受它的進(jìn)展,這很有趣。
SherylHsu:是啊,你會看到令人頭疼的“似乎很難”。第六題就出現(xiàn)了這個(gè)。出現(xiàn)了很多次?!皼]有進(jìn)展,很難?!薄八坪鹾茈y。”“太糟糕了。”
SonyaHuang:太棒了。那展望未來,你們已經(jīng)在競賽數(shù)學(xué)中取得了最高成就?;蛟S明年可以去參加普特南數(shù)學(xué)競賽,但基本上已經(jīng)站在頂端了,那接下來會做什么呢?
AlexWei:是啊。其實(shí)對于普特南數(shù)學(xué)競賽的題目,我覺得因?yàn)槊康李}的時(shí)間比IMO短,而且更注重知識儲備,我們在評估中發(fā)現(xiàn)模型其實(shí)很擅長解普特南的題目,甚至比解IMO的題目更擅長。所以我覺得,現(xiàn)在的前沿已經(jīng)不再是這些有時(shí)間限制的競賽題,而是那些需要更長時(shí)間、更深入思考才能解決的問題。
SonyaHuang:這真的很酷。那你們接下來要開始證明新的定理了嗎?
AlexWei:不過我覺得,有時(shí)間限制的競賽題和真正的研究突破之間,存在著巨大的差距,真正的研究突破可能需要一年的時(shí)間,也就是大約1500個(gè)小時(shí),而不是1.5個(gè)小時(shí)。
SonyaHuang:是啊,完全同意。我最近聽了Demis的播客,他提到最難的其實(shí)是提出值得解決的有趣問題。我很好奇你們是否同意這個(gè)觀點(diǎn)。
NoamBrown:我覺得有一定道理,這些模型現(xiàn)在確實(shí)很擅長解決問題,而提出問題仍然是一個(gè)挑戰(zhàn)。但我也想說,我們正見證著驚人的進(jìn)步速度,而且總會有下一個(gè)挑戰(zhàn)。最初語言模型出現(xiàn)時(shí),問題是如何讓它們進(jìn)行推理;然后我們做到了讓它們推理,但接著又面臨如何讓它們對難以驗(yàn)證的任務(wù)進(jìn)行推理的問題;現(xiàn)在它們已經(jīng)能做到這一點(diǎn)了。我覺得下一個(gè)挑戰(zhàn)將是如何讓它們提出新的問題。要知道,即便是出一道IMO的題目都很有挑戰(zhàn)性,需要很多數(shù)學(xué)家付出大量努力。但我認(rèn)為,沒有什么根本性的障礙能阻止我們實(shí)現(xiàn)這一目標(biāo)。
SonyaHuang:我很喜歡這個(gè)觀點(diǎn)。那你們在數(shù)學(xué)方面的成果,是否能完全推廣到其他領(lǐng)域呢?比如,在科學(xué)推理、一般推理方面也會更出色,也就是說,在競賽數(shù)學(xué)中表現(xiàn)出色,是否意味著在其他所有方面都能表現(xiàn)出色?
AlexWei:我覺得我們的目標(biāo)并不是要在競賽數(shù)學(xué)中表現(xiàn)出色,而是專注于開發(fā)通用技術(shù),來改進(jìn)我們的強(qiáng)化學(xué)習(xí)。我們非常期待能將這些技術(shù)應(yīng)用到數(shù)學(xué)之外的其他領(lǐng)域,希望能讓模型在日常使用中更有用。
NoamBrown:這是一個(gè)最新的成果,說實(shí)話,即使是OpenAI內(nèi)部的人也感到很驚訝。下一步是將其更廣泛地融入我們的模型中,全面提升推理能力。但這個(gè)過程需要時(shí)間,才能部署到實(shí)際應(yīng)用中。所以我覺得這一天會到來,但還需要一點(diǎn)時(shí)間。
SonyaHuang:對于這些模型來說,解IMO的題目和物理奧林匹克競賽的題目,哪個(gè)更難?
AlexWei:我覺得肯定是物理奧林匹克競賽,因?yàn)樗幸粋€(gè)實(shí)驗(yàn)部分。
SonyaHuang:我們首先需要解決機(jī)器人技術(shù)的問題。我之前沒意識到這一點(diǎn)。我以為也只是在紙上答題。
AlexWei:是啊,所以我覺得模型在筆試部分可能會表現(xiàn)不錯(cuò),但要完成實(shí)驗(yàn)部分,還需要一段時(shí)間。
SonyaHuang:畢竟還沒有完善的世界模型,好的。那你們會發(fā)布這個(gè)模型讓用戶使用嗎?
NoamBrown:我們希望能讓數(shù)學(xué)家們用上這個(gè)模型,目前還在研究具體的實(shí)現(xiàn)方式。但我覺得我們開發(fā)出了一個(gè)在數(shù)學(xué)方面非常出色的系統(tǒng),很想看看數(shù)學(xué)家們能用它來做些什么。其實(shí)我已經(jīng)和斯坦福大學(xué)的一位數(shù)學(xué)教授通過郵件了,大約一年前,在我們發(fā)布相關(guān)成果之前,他就通過郵件問我,要不要合作解決一些難的數(shù)學(xué)問題。我當(dāng)時(shí)告訴他,我覺得我們只要提升通用推理能力,最終就能幫他解決那些難的數(shù)學(xué)問題,這也是最有希望的途徑。他當(dāng)時(shí)有點(diǎn)懷疑,但每次我們發(fā)布新的推理模型,他都會通過郵件跟進(jìn),問這個(gè)模型能不能解決那個(gè)問題。我會把問題輸入模型,然后把輸出結(jié)果回復(fù)給他,他說還是不對。這次他又發(fā)郵件問同一個(gè)問題,問現(xiàn)在這個(gè)模型能不能解決。雖然還是不能解決,但至少這次模型意識到自己解決不了,我覺得這是一個(gè)很大的進(jìn)步。我們也很想知道,數(shù)學(xué)家們還有其他問題想挑戰(zhàn)這個(gè)模型,看看它能不能解決。
SonyaHuang:太棒了,祝賀你們所有人。我覺得這是整個(gè)領(lǐng)域期待已久的重大成果,而且事實(shí)上是由三個(gè)人在兩個(gè)月內(nèi)完成的,這真是太了不起了。
訪談鏈接:
https://www.youtube.com/watch?v=EEIPtofVe2Q&ab_channel=SequoiaCapital
整理:小瑜
如需轉(zhuǎn)載或投稿,請直接在公眾號內(nèi)留言
孫甲智:人文社《桃花扇(插圖版)》注釋獻(xiàn)疑??古代小說研究
來源:紅網(wǎng)
作者:檀芷文
編輯:陳信智
本文為紅辣椒評論 原創(chuàng)文章,僅系作者個(gè)人觀點(diǎn),不代表紅網(wǎng)立場。轉(zhuǎn)載請附原文出處鏈接和本聲明。