前幾天,OpenAI遭到了大量「口誅筆伐」,起因是一些人認(rèn)為OpenAI「搶發(fā)」今年國際數(shù)學(xué)奧林匹克競賽(IMO)成績,用「AI斬獲金牌」搶學(xué)生風(fēng)頭。
盡管如此,單從技術(shù)突破的角度來看,OpenAI這一未公開的實驗性大模型也值得期待。
據(jù)OpenAI介紹,他們的模型僅在4.5小時內(nèi)便獨立完成今年IMO的6道證明題,且未使用網(wǎng)絡(luò)或計算器輔助,成績達(dá)到了全球僅不到9%人類參賽者能達(dá)到的金牌標(biāo)準(zhǔn)。
更值得一提的是,OpenAI稱此次成功并非依賴特定任務(wù)的狹隘方法,而是通過通用推理能力實現(xiàn)的。
那么,這一神秘模型是如何做到輕松超越大部分人類選手、斬獲金牌的?OpenAI在背后做了哪些努力?他們所稱的“通用技術(shù)”又預(yù)示了怎樣的未來?
日前,OpenAI研究員AlexWei、SherylHsu和NoamBrown在做客TrainingData節(jié)目時,分享了這一歷史性成果背后的故事:
從長期以來對IMO金牌的關(guān)注,到僅兩個月的全力沖刺;從采用通用強(qiáng)化學(xué)習(xí)技術(shù),而非形式化驗證工具的獨特方法,到模型展現(xiàn)出的驚人自我意識——在面對第六題這一難題時,能意識到并承認(rèn)自己無法解決。
他們表示,這一突破不僅在于出色的數(shù)學(xué)能力,更在于其底層架構(gòu)所包含的通用技術(shù),可擴(kuò)展測試時計算、處理遠(yuǎn)超競賽數(shù)學(xué)范圍的難以驗證任務(wù)。
他們也談及了當(dāng)前成果與真正數(shù)學(xué)研究突破之間的差距,以及未來將通用技術(shù)應(yīng)用于更多領(lǐng)域、解決更復(fù)雜問題的愿景。
學(xué)術(shù)頭條在不改變原文大意的前提下,對訪談內(nèi)容做了適當(dāng)?shù)木幒蛣h減。如下:
SonyaHuang:Alex、Sheryl、Noam,非常感謝你們今天做客節(jié)目。我們請到的是OpenAI首次獲得IMO金牌的團(tuán)隊。祝賀你們所有人,這是一項重大成就。
合:謝謝。
SonyaHuang:我很想了解一下這件事的故事。IMO金牌一直是人工智能領(lǐng)域所有人長期追逐但又難以企及的目標(biāo)。我記得2021年Sam向我們做演示時,幻燈片上就有這個目標(biāo),當(dāng)時我還想:“啊,這看起來還很遙遠(yuǎn)?!蔽液芟肓私庖幌拢瓦@項具體的成果而言,更直接的起源是什么。你們是什么時候開始考慮這件事的,又是怎么實現(xiàn)的呢?
AlexWei:我覺得這是我們長期以來一直在思考的事情。我記得在我剛加入OpenAI的第一周,Noam就問我,你覺得這個模型什么時候能拿到IMO金牌?我當(dāng)時覺得,2025年能實現(xiàn)的可能性不大。但就像你說的,這一直是我們心中的一個目標(biāo)。但就這項具體的工作而言,我覺得,我們真正開始為今年的IMO做最后的沖刺,大概也就幾個月的時間。當(dāng)然,我們一直在改進(jìn)我們的強(qiáng)化學(xué)習(xí)算法。
SonyaHuang:太不可思議了。參與的團(tuán)隊有多大規(guī)模呢?
AlexWei:我們顯然是在OpenAI很多人的研究基礎(chǔ)上進(jìn)行的,沒有推理部門、規(guī)?;瘓F(tuán)隊的同事,還有負(fù)責(zé)預(yù)訓(xùn)練和強(qiáng)化學(xué)習(xí)訓(xùn)練的人員的大量幫助,這一切都不可能實現(xiàn)。但核心人員其實就我們?nèi)齻€人。
SonyaHuang:太不可思議了,只有你們?nèi)齻€人。
NoamBrown:而且主要是Alex在做,Alex研究這項技術(shù)已經(jīng)有一段時間了,我和Sheryl在臨近IMO的時候才開始幫忙,因為我們越來越接近讓這件事成為現(xiàn)實。
SonyaHuang:太厲害了。那這一切是怎么推進(jìn)的呢?比如,是你們自己決定要爭取拿下IMO金牌,然后朝著這個目標(biāo)努力嗎?你們是怎么主動提出要做這樣一件事的呢?
AlexWei:是因為我們覺得或許有可能,如果我們在這幾個月里再加把勁,也許就能成功。
NoamBrown:OpenAI的優(yōu)點之一是,研究人員能自主開展他們認(rèn)為有影響力的研究。所以Alex就提出,他有一項新技術(shù),可能會很有幫助。說實話,當(dāng)時有不少人持懷疑態(tài)度,當(dāng)然也有人支持,但大家都覺得應(yīng)該給我們探索和嘗試的自由。后來,研究開始顯現(xiàn)出一些積極的跡象,雖然還有人持懷疑態(tài)度,但越來越多的人開始對此感到興奮,最終這件事變得越來越重要,現(xiàn)在大家顯然都對它非常興奮。
SonyaHuang:能再具體說說那些積極的跡象嗎?比如你們看到了哪些早期信號,讓你們決定全力以赴?
AlexWei:我覺得是在難以驗證的任務(wù)上取得的進(jìn)展。以前,我們更多關(guān)注的是如果有可驗證的結(jié)果,我們能做些什么。而在這些更難驗證的任務(wù)上看到了更多改進(jìn),這讓我們很受鼓舞。
SonyaHuang:或許從這個角度來說,你們是如何驗證結(jié)果的正確性的呢?我知道你們在GitHub上發(fā)布了證明過程,但能再說說你們是如何確定已經(jīng)找到正確答案的嗎?因為我了解到,模型的解題方式和人類不太一樣。
AlexWei:是啊。我確實認(rèn)為模型輸出的風(fēng)格有點糟糕。
SonyaHuang:“糟糕”這個詞我可不會用。應(yīng)該說很有創(chuàng)意,像一種外星語言。
AlexWei:是啊,所以我覺得,因為我們?nèi)撕苌?,所以我們沒有太注重優(yōu)化輸出結(jié)果的可讀性,但我們是有能力做到的,就像ChatGPT的輸出就很容易理解,我們也能讓模型做到這一點。
SonyaHuang:你們覺得有必要優(yōu)化輸出結(jié)果的可讀性嗎?這很重要嗎?
NoamBrown:我覺得如果要展示給人類看,他們肯定更希望結(jié)果通俗易懂。我們其實討論過,我們拿到證明后,發(fā)現(xiàn)其實可以讓ChatGPT把它改得更易讀一些,而且證明的正確性不會受影響,只是可讀性稍微增強(qiáng)了一點。我們當(dāng)時在想,當(dāng)我們在網(wǎng)上發(fā)布這些內(nèi)容時,是發(fā)布經(jīng)過ChatGPT優(yōu)化的更易讀的版本,還是發(fā)布原始版本?最后我們決定,為了完全透明,還是發(fā)布原始版本,大家應(yīng)該能看懂。
SonyaHuang:OpenAI的員工里有很多IMO獎牌得主和參賽者,對吧?你們會在業(yè)余時間給模型生成的答案評分嗎?
AlexWei:在測試期間,我們確實看了很多樣本。但為了給這些結(jié)果評分,我們專門聘請了外部的前IMO獎牌得主。每個證明都由三位獎牌得主評分,而且他們對每個證明的正確性都達(dá)成了一致意見。
NoamBrown:我不知道Sheryl怎么樣,反正對我來說,這些證明已經(jīng)超出了我的理解能力。我雖然是數(shù)學(xué)專業(yè)出身,但從來沒參加過數(shù)學(xué)競賽,這個模型寫出的東西,我已經(jīng)無法評判了。
SherylHsu:是啊,我也是。我覺得這更能體現(xiàn)出這個模型有多厲害。
SonyaHuang:沒錯。那第六題呢?為什么所有模型都沒能解出今年IMO的第六題,你們的模型甚至都沒有嘗試解答,能詳細(xì)解釋一下這個問題的原因嗎?一般來說,第六題總是IMO中最難的。
AlexWei:是的,我通常認(rèn)為是第三題或第六題。
SonyaHuang:能說說是什么讓這道題與眾不同嗎?以及你從其中學(xué)到了什么?而且我記得你在推特上說,模型知道自己解不出第六題,能再說說嗎?
AlexWei:對于第六題,我覺得它真的是一個非常棘手的問題。就算給我?guī)讉€月的時間去思考,甚至給我一個關(guān)于解題主要思路的提示,我也解不出來。這道題太難了,有太多種可能的思路,但找到正確的證明路徑卻非常狹窄。我覺得,數(shù)學(xué)本身就是很難的事之一。
SherylHsu:是的。我們在第六題上投入了大量的計算資源,但看到模型沒有試圖去編造答案,而是直接說解不出來,這其實是件好事。當(dāng)然,當(dāng)你覺得模型付出了這么多努力,最后卻只說解不出來,確實有點令人失望,但模型能承認(rèn)這一點,還是很好的。
SonyaHuang:這體現(xiàn)了一種驚人的自我認(rèn)知,知道自己的能力上限。因為我記得就在幾年前,這些模型總是會努力給出答案,哪怕是編造一個,對吧?所以現(xiàn)在能看到模型有這樣的表現(xiàn),真的是一種驚人的自我認(rèn)知。
NoamBrown:我們發(fā)布推理模型的時候,我和一些數(shù)學(xué)家、計算機(jī)科學(xué)家交流,問他們是否覺得這些模型有價值。答案通常是肯定的,但他們抱怨的一點是,如果問模型一個它不知道答案的問題,它會輸出一個聽起來非常令人信服但實際上錯誤的答案,他們必須仔細(xì)檢查才能發(fā)現(xiàn)問題,比如是不是模型偷偷改了一個不等式什么的。所以看到這個模型在不知道答案的時候,至少能更頻繁地承認(rèn)自己不知道,這很好。
SonyaHuang:我想知道,在內(nèi)部,你們有沒有打賭,比如在預(yù)測市場上押注今年能否拿到IMO金牌,當(dāng)時內(nèi)部的氛圍是怎樣的?
AlexWei:我覺得我們有很大的機(jī)會,但也不是十拿九穩(wěn)。有些類型的題目,模型可能比人類更吃力,但還有一些類型的題目,模型會表現(xiàn)得非常出色。今年的題目難度適中,像第六題,以目前最先進(jìn)的模型水平來說還是難以攻克。而且我覺得,像第六題這樣的組合數(shù)學(xué)難題,通常更有挑戰(zhàn)性,這也是模型目前還在攻克的難點。
SonyaHuang:組合數(shù)學(xué)和你們擅長的幾何等領(lǐng)域相比,難在哪里呢?
AlexWei:我覺得組合數(shù)學(xué)可能更抽象,維度更高。而且很多時候,組合數(shù)學(xué)問題需要靈光一閃的洞察力,這正是模型不擅長的。我認(rèn)為模型更擅長解決那些需要一系列小步驟的問題。
SonyaHuang:從你們的角度來看,當(dāng)時內(nèi)部對拿到金牌是樂觀還是不樂觀呢?
SherylHsu:我覺得情況不是特別樂觀。大家當(dāng)然知道有可能實現(xiàn),但我覺得就算在一兩個月前,大家也覺得還需要很大的改進(jìn)才能做到,不過我們確實做到了。
NoamBrown:我記得大概在比賽前兩個月,我和OpenAI的另一位研究員聊天,我們說:“好吧,如果要打賭的話,我是愿意打賭的人,我很樂意賭一把。”我當(dāng)時問他:“你愿意冒多大的險?”因為我愿意打賭我們能拿到金牌。然后他說:“根本不可能?!倍遥f他很樂意以二比一的賠率賭模型贏不了,也就是說,模型贏的概率不到三分之一。但他不想和我們打賭,因為他覺得和團(tuán)隊打賭不吉利,所以最后他沒有和我們打賭。
SonyaHuang:那你有沒有從他那里贏點零花錢?
NoamBrown:我希望能啊,我希望能。
SonyaHuang:因為我記得你們在15個月前,在Amy上的預(yù)測是12%,對吧?所以盡管你永遠(yuǎn)不想和OpenAI的規(guī)?;l(fā)展打賭,但你們?nèi)〉玫某删瓦€是非常驚人的。
NoamBrown:我認(rèn)為數(shù)學(xué)進(jìn)步的速度真的非???,Alex也在推特上提到過這一點。要知道就在幾年前,這些模型在小學(xué)數(shù)學(xué)問題上都很吃力。我記得,甚至在2024年,GSM8K數(shù)據(jù)集還被當(dāng)作大家發(fā)布模型時的標(biāo)準(zhǔn)評估基準(zhǔn),之后短暫地變成了MATH,接著是AMIE,再后來是IMO。它的發(fā)展速度突破了所有這些數(shù)學(xué)基準(zhǔn),這真是令人震驚。
SherylHsu:我還記得兩年前我訓(xùn)練的模型是基于GSM8K的。
SonyaHuang:是啊,那些日子已經(jīng)過去了,對吧?評估基準(zhǔn)已經(jīng)飽和了。接下來會是什么呢?你覺得,到明年這個時候,我們能解決千禧年大獎難題嗎?
AlexWei:我覺得還很遙遠(yuǎn)。一方面,想想從GSM8K以來,數(shù)學(xué)領(lǐng)域取得的進(jìn)步,就在兩年前,GSM8K還是大家努力突破的標(biāo)準(zhǔn),這進(jìn)步速度確實驚人。但另一方面,想想人類解決這些問題需要的時間,GSM8K的題目就像是小學(xué)水平,數(shù)學(xué)好的人幾秒鐘就能解決。而現(xiàn)在,我們已經(jīng)從幾秒鐘的解題時間,進(jìn)步到了平均每道題像那些優(yōu)秀學(xué)生也需要一個半小時的時間,而研究級別的數(shù)學(xué)問題可能需要1500個小時才能解決,這是上千倍的思考時間。千禧年大獎難題更是耗費了整個領(lǐng)域的人畢生的精力,而且大多數(shù)問題至今仍沒有太大進(jìn)展。所以,一方面,我們?nèi)〉昧巳绱舜蟮倪M(jìn)步,令人興奮;另一方面,我們還有很長的路要走,從一個半小時到數(shù)萬、數(shù)十萬小時的人類思考時間,這也讓人感到自己的渺小。
SonyaHuang:完全同意。Noam,我覺得你在這方面很有前瞻性。我記得在你加入OpenAI之前,你就和我們聊過游戲領(lǐng)域的研究成果,以及如果讓模型思考數(shù)小時甚至數(shù)十小時會發(fā)生什么,你真的很有遠(yuǎn)見。
NoamBrown:謝謝。是啊,能看到這些成為現(xiàn)實,很令人興奮。
SonyaHuang:那么,當(dāng)把計算時間、推理時間從0.1分鐘級擴(kuò)展到100分鐘級時,會遇到哪些困難呢?我想從一個較高的層面來了解,因為我們的聽眾大多不是人工智能研究人員,那么在保證模型正常運行方面,會遇到哪些難題呢?
NoamBrown:有一個很明顯的挑戰(zhàn)是,如果讓模型思考1500小時,那么為了評估它,也需要讓它思考1500小時,這樣模型的評估就會成為阻礙進(jìn)度的一大障礙。目前我們還沒到那個階段,讓模型思考一個半小時不成問題,我們可以進(jìn)行測試。但如果要進(jìn)行一個需要模型思考一個月的測試,那就得等一個月才能出結(jié)果。如果要等這樣的結(jié)果,進(jìn)展的速度就會大打折扣。
SonyaHuang:我覺得你們都在多智能體(multi-agent)團(tuán)隊工作。能幫我理解一下multi-agentsystem在這其中扮演了什么角色嗎?
NoamBrown:除了讓模型長時間思考,在難以驗證的任務(wù)上取得較大進(jìn)展,這還涉及到擴(kuò)展并行計算,這其中就有multi-agent的成分。具體的技術(shù)細(xì)節(jié)我們可能不便多說,但這確實是我們能夠為IMO擴(kuò)展測試時計算的一種方式。順便說一下,關(guān)于multi-agent和可擴(kuò)展并行計算,我們在這方面的技術(shù)非常注重通用性。比如,我研究過撲克人工智能,Alex和我都研究過外交人工智能,Alex還是“西塞羅”團(tuán)隊的成員。那些項目我都很自豪,但我們也花了好幾年才取得成果。而人工智能的發(fā)展速度如此之快,花時間開發(fā)一個只能完成單一任務(wù)的定制系統(tǒng),似乎不是最佳選擇。所以我們都非常注重通用技術(shù)。我們在擴(kuò)展思考時間、處理難以驗證的任務(wù)以及并行計算方面使用的技術(shù),都是通用技術(shù),我們計劃或?qū)⑦@些技術(shù)應(yīng)用到其他系統(tǒng)中。
SonyaHuang:這就是你們沒有選擇用Lean的原因嗎?我的理解是,今年IMO的官方人工智能賽道要求用Lean來解題。這就是你們不選擇用Lean的原因嗎?
NoamBrown:是的。我覺得Lean作為一個工具當(dāng)然有其價值,比如數(shù)學(xué)家們覺得它很有用。但對于我們來說,我們的重點是通用推理能力,而Lean有其局限性,所以我們更傾向于使用自然語言。
SonyaHuang:以我這個外行人的理解,Lean是一種形式化驗證工具。那么你們的成果是不是意味著,隨著規(guī)模的擴(kuò)大,非形式化驗證能達(dá)到甚至超越形式化驗證的水平?這樣理解對嗎?
SonyaHuang:我不這么認(rèn)為,我不覺得這是正確的結(jié)論。Alex怎么看?
AlexWei:我覺得這是兩個不同的方面。我們覺得非形式化數(shù)學(xué)是一個有趣的問題,因為它體現(xiàn)了在擴(kuò)展測試時計算、處理難以驗證任務(wù)方面的核心難點,而這些難點在我們關(guān)注的眾多通用任務(wù)中都存在。我覺得Lean的應(yīng)用范圍有點狹窄,因為世界上很多問題都可以通過非形式化推理來解決,而不是都能形式化。
NoamBrown:我覺得專用人工智能沒什么不好,在某些領(lǐng)域,專用人工智能顯然遠(yuǎn)超通用人工智能。我覺得正確的理解是,就像人類數(shù)學(xué)家能從Lean中獲益一樣,通用人工智能也能與專注于形式化數(shù)學(xué)的專用系統(tǒng)相輔相成,兩者結(jié)合會更好。
SonyaHuang:我在推特上看到很多OpenAI的朋友提到,我想你們也提到過這一點。這個系統(tǒng)的構(gòu)建方法和基礎(chǔ)設(shè)施,與OpenAI最近發(fā)布的很多產(chǎn)品相似,比如上周我們請到了ChatGPTAgent團(tuán)隊的IsaFulford等人做客節(jié)目。能再說說這種相似的基礎(chǔ)和方法是什么嗎?
SherylHsu:從基礎(chǔ)設(shè)施角度來說,我們都使用相同的基礎(chǔ)設(shè)施。但這個問題的核心是,就像Noam說的,這里沒有任何專門為IMO定制的東西。我們希望能將Alex在非驗證任務(wù)和擴(kuò)展測試時計算方面的研究技術(shù),應(yīng)用到其他推理領(lǐng)域或提升模型的整體能力上,從而構(gòu)建更強(qiáng)大的模型,不斷改進(jìn)agent、改進(jìn)ChatGPT等所有產(chǎn)品。
SonyaHuang:能說說IMO比賽當(dāng)天的具體情況嗎?那是什么樣的體驗?
NoamBrown:我們一直在等題目公布,因為一旦參賽者考完試后,題目就會公布。我們大概在凌晨一點左右把題目輸入模型,說實話,我當(dāng)時就去睡覺了,因為已經(jīng)凌晨一點了,我不想熬四個半小時等著看結(jié)果,早上醒來再看就行。但我覺得他們倆應(yīng)該熬夜了,看著模型并實時關(guān)注進(jìn)展。
SherylHsu:是啊,非常有趣。
SonyaHuang:有人想打電話嗎,說“醒醒,醒醒,我們成功了”?
NoamBrown:有幾次Alex實在太累了,他決定小睡一會兒,我們告訴他,“好吧,確保手機(jī)開著聲音,萬一我們需要叫醒你,可以打電話給你?!庇幸淮挝覀兇_實不得不給他打電話,但我覺得他沒醒。
SonyaHuang:太有意思了。那一定非常激動人心,尤其是在那個時候。你們凌晨一點開始,那大概早上九點就知道結(jié)果了吧?
SherylHsu:哦,是四個半小時。
SonyaHuang:第一部分要四個半小時。
SherylHsu:是啊,我也說不準(zhǔn)。我們能看到題目出來,我主要是確保系統(tǒng)穩(wěn)定運行,Alex則在一旁閱讀并查看模型的進(jìn)展。
SonyaHuang:所以你是在現(xiàn)場人工驗證證明過程,看看是否正確嗎?
AlexWei:我當(dāng)然對結(jié)果非常焦慮,所以我會查看模型取得的部分進(jìn)展,我們能觀察到這些。而且我也會手動檢查,雖然我們會把這些交給評分員,但我自己也很想手動檢查一下。
SonyaHuang:好吧,下次有這種事一定要叫上我,我也想?yún)⑴c,就算熬夜也愿意。聽起來太棒了。
NoamBrown:這些模型有個很酷的地方,就是雖然我看不懂證明過程,但當(dāng)模型在思考時,它會用自然語言表達(dá)自己的不確定或自信,在整個過程中,它會說一些話,暗示它的狀態(tài)。比如,如果它非常確定自己找到了答案,就會經(jīng)常說“很好”,如果不確定,就會用很多問號。所以雖然我不能確定它是否正確,但能跟著感受它的進(jìn)展,這很有趣。
SherylHsu:是啊,你會看到令人頭疼的“似乎很難”。第六題就出現(xiàn)了這個。出現(xiàn)了很多次?!皼]有進(jìn)展,很難?!薄八坪鹾茈y?!薄疤愀饬??!?/p>
SonyaHuang:太棒了。那展望未來,你們已經(jīng)在競賽數(shù)學(xué)中取得了最高成就。或許明年可以去參加普特南數(shù)學(xué)競賽,但基本上已經(jīng)站在頂端了,那接下來會做什么呢?
AlexWei:是啊。其實對于普特南數(shù)學(xué)競賽的題目,我覺得因為每道題的時間比IMO短,而且更注重知識儲備,我們在評估中發(fā)現(xiàn)模型其實很擅長解普特南的題目,甚至比解IMO的題目更擅長。所以我覺得,現(xiàn)在的前沿已經(jīng)不再是這些有時間限制的競賽題,而是那些需要更長時間、更深入思考才能解決的問題。
SonyaHuang:這真的很酷。那你們接下來要開始證明新的定理了嗎?
AlexWei:不過我覺得,有時間限制的競賽題和真正的研究突破之間,存在著巨大的差距,真正的研究突破可能需要一年的時間,也就是大約1500個小時,而不是1.5個小時。
SonyaHuang:是啊,完全同意。我最近聽了Demis的播客,他提到最難的其實是提出值得解決的有趣問題。我很好奇你們是否同意這個觀點。
NoamBrown:我覺得有一定道理,這些模型現(xiàn)在確實很擅長解決問題,而提出問題仍然是一個挑戰(zhàn)。但我也想說,我們正見證著驚人的進(jìn)步速度,而且總會有下一個挑戰(zhàn)。最初語言模型出現(xiàn)時,問題是如何讓它們進(jìn)行推理;然后我們做到了讓它們推理,但接著又面臨如何讓它們對難以驗證的任務(wù)進(jìn)行推理的問題;現(xiàn)在它們已經(jīng)能做到這一點了。我覺得下一個挑戰(zhàn)將是如何讓它們提出新的問題。要知道,即便是出一道IMO的題目都很有挑戰(zhàn)性,需要很多數(shù)學(xué)家付出大量努力。但我認(rèn)為,沒有什么根本性的障礙能阻止我們實現(xiàn)這一目標(biāo)。
SonyaHuang:我很喜歡這個觀點。那你們在數(shù)學(xué)方面的成果,是否能完全推廣到其他領(lǐng)域呢?比如,在科學(xué)推理、一般推理方面也會更出色,也就是說,在競賽數(shù)學(xué)中表現(xiàn)出色,是否意味著在其他所有方面都能表現(xiàn)出色?
AlexWei:我覺得我們的目標(biāo)并不是要在競賽數(shù)學(xué)中表現(xiàn)出色,而是專注于開發(fā)通用技術(shù),來改進(jìn)我們的強(qiáng)化學(xué)習(xí)。我們非常期待能將這些技術(shù)應(yīng)用到數(shù)學(xué)之外的其他領(lǐng)域,希望能讓模型在日常使用中更有用。
NoamBrown:這是一個最新的成果,說實話,即使是OpenAI內(nèi)部的人也感到很驚訝。下一步是將其更廣泛地融入我們的模型中,全面提升推理能力。但這個過程需要時間,才能部署到實際應(yīng)用中。所以我覺得這一天會到來,但還需要一點時間。
SonyaHuang:對于這些模型來說,解IMO的題目和物理奧林匹克競賽的題目,哪個更難?
AlexWei:我覺得肯定是物理奧林匹克競賽,因為它有一個實驗部分。
SonyaHuang:我們首先需要解決機(jī)器人技術(shù)的問題。我之前沒意識到這一點。我以為也只是在紙上答題。
AlexWei:是啊,所以我覺得模型在筆試部分可能會表現(xiàn)不錯,但要完成實驗部分,還需要一段時間。
SonyaHuang:畢竟還沒有完善的世界模型,好的。那你們會發(fā)布這個模型讓用戶使用嗎?
NoamBrown:我們希望能讓數(shù)學(xué)家們用上這個模型,目前還在研究具體的實現(xiàn)方式。但我覺得我們開發(fā)出了一個在數(shù)學(xué)方面非常出色的系統(tǒng),很想看看數(shù)學(xué)家們能用它來做些什么。其實我已經(jīng)和斯坦福大學(xué)的一位數(shù)學(xué)教授通過郵件了,大約一年前,在我們發(fā)布相關(guān)成果之前,他就通過郵件問我,要不要合作解決一些難的數(shù)學(xué)問題。我當(dāng)時告訴他,我覺得我們只要提升通用推理能力,最終就能幫他解決那些難的數(shù)學(xué)問題,這也是最有希望的途徑。他當(dāng)時有點懷疑,但每次我們發(fā)布新的推理模型,他都會通過郵件跟進(jìn),問這個模型能不能解決那個問題。我會把問題輸入模型,然后把輸出結(jié)果回復(fù)給他,他說還是不對。這次他又發(fā)郵件問同一個問題,問現(xiàn)在這個模型能不能解決。雖然還是不能解決,但至少這次模型意識到自己解決不了,我覺得這是一個很大的進(jìn)步。我們也很想知道,數(shù)學(xué)家們還有其他問題想挑戰(zhàn)這個模型,看看它能不能解決。
SonyaHuang:太棒了,祝賀你們所有人。我覺得這是整個領(lǐng)域期待已久的重大成果,而且事實上是由三個人在兩個月內(nèi)完成的,這真是太了不起了。
訪談鏈接:
https://www.youtube.com/watch?v=EEIPtofVe2Q&ab_channel=SequoiaCapital
整理:小瑜
如需轉(zhuǎn)載或投稿,請直接在公眾號內(nèi)留言
精華!《明朝那些事兒·第7部:大結(jié)局》讓人百看不厭,忍不住珍藏!
天啟七年正月初八,阿敏出兵朝鮮。朝軍的表現(xiàn)相當(dāng)穩(wěn)定,依然是一如以往地不經(jīng)打,一個月后平壤就失陷了。再過一個月,朝鮮國王就簽了結(jié)盟書,表示愿意服從后金————。朝鮮失陷,明朝是不高興的,但不高興也沒辦法,今天不同往日了,家里比較困難,實在沒法拉兄弟一把-。失陷,就失陷了吧——|。一邊談判,一邊干這種事,實在太過分了,所以在來往 《明朝那些事兒·第7部:大結(jié)局》作者:當(dāng)年明月明朝那些事兒大結(jié)局震撼來襲,第七部2020版帶你領(lǐng)略大明風(fēng)云