宰溶
即便在Transformer與ChatGPT尚未誕生的年代,Ilya已敏銳預(yù)見深度學(xué)習的廣闊前景,展現(xiàn)出令人嘆服的遠見與清醒。這是一段10年前Ilya對于如今AI時代的預(yù)言。
IlyaSutskever因在深度學(xué)習方面的遠見卓識而聞名。
他現(xiàn)在許多廣為流傳的言論其實都來自于他在2023年參加Dwarkesh播客時的發(fā)言。
此后,直到2025年Ilya創(chuàng)辦SSI后,幾乎不再有公開的言論,此前曾探討過Ilya的去向。
最近,一位名為NathanLambert的博主聲稱他收到了一段Ilya在10年前,也就是2015年談?wù)撋疃葘W(xué)習的語音片段。
令他感到震驚的是,Ilya在那么多年前就已準確預(yù)見了這一切,尤其是他的直覺從那時至今幾乎沒有任何改變。
在進行資料整理,同樣震驚我們的是:
早在2015年,Ilya對于深度學(xué)習的理解就已經(jīng)遠超如今絕大部分人(即使是10年后今天)。
這個視頻片段來自一個已經(jīng)停播的博客節(jié)目《TalkingMachines》,我們在其官網(wǎng)找到最初的采訪錄音。
此時的Ilya還是谷歌的研究員,節(jié)目中談?wù)摿怂墓ぷ?、他是如何對機器學(xué)習產(chǎn)生興趣的,以及為何機器學(xué)習(MachineLearning)會和魔法思維(MagicalThinking)產(chǎn)生聯(lián)系。
現(xiàn)在就讓我們將時間回撥10年,看看當年的Ilya是如何洞察深度學(xué)習的。
在編輯這篇文章時,我們也驚訝地發(fā)現(xiàn),即使只是通過文字記錄,Ilya的觀點歷經(jīng)10年歲月洗禮,依然鮮明犀利。
數(shù)學(xué)出身的Ilya,認為「機器學(xué)習」違反直覺
Ilya首先講述了他通往人工智能的道路,對于這樣一位才華橫溢的人物來說,這并不令人意外。
我十幾歲時就一直對人工智能感興趣。
我覺得那非常棒而且引人入勝。之后我繼續(xù)攻讀了數(shù)學(xué)專業(yè)本科。
當你學(xué)習數(shù)學(xué)的時候,你會深知數(shù)學(xué)注重的是證明事物。
如果你看到某種規(guī)律,在沒有經(jīng)過證明之前,它并不意味著就是正確的。
因此,對于擁有數(shù)學(xué)背景的我來說,學(xué)習(機器學(xué)習)似乎是非常違反直覺的,因為學(xué)習強調(diào)的是進行歸納推理,而這些歸納步驟看起來很難用嚴謹?shù)姆椒ㄈソ忉屒宄?/p>
如果你習慣于嚴格地證明結(jié)果,那么歸納似乎幾乎就像魔法一樣。
因此,我當時對學(xué)習特別感興趣,因為我深知人類具備這種能力,而從單純的數(shù)學(xué)角度來看,學(xué)習似乎根本不可能實現(xiàn),這讓我感到不可思議。
大二和Hinton合作
于是我開始四處尋找,結(jié)果發(fā)現(xiàn)多倫多有一個非常出色且強大的學(xué)習研究團隊。
我在本科二年級時便開始與JeffHinton(AI之父)合作。
相比硬科學(xué),機器學(xué)習的理解更加容易
機器學(xué)習確實是一門復(fù)雜的科學(xué)。
我想這不像物理學(xué)。
我認為在物理學(xué)、數(shù)學(xué)以及許多其他硬科學(xué)領(lǐng)域,一個人需要掌握大量知識后才能開始發(fā)揮作用。
雖然我不太確定,因為我從未涉足這些領(lǐng)域。
這只是我的印象。
而機器學(xué)習則更多地是,那些重要的想法,甚至是與前沿研究相關(guān)的想法,都離表面非常近。
這個觀點和我們?nèi)缃竦默F(xiàn)狀是如此的吻合。
尤其是在一個遠離真正訓(xùn)練前沿的實驗室中,在沒有特別努力尋找的情況下,周圍的機器學(xué)習的低垂果實之多令人驚訝。
深度學(xué)習之所以有效,很大程度上是因為人們愿意付出努力去把握這些機會。
Ilya認為:
只要有正確的指導(dǎo)和方向,無需多年學(xué)習就能理解機器學(xué)習背后的主要思想、有效方法的主要理念以及主要的直覺認識。
監(jiān)督學(xué)習是機器學(xué)習中最成功的領(lǐng)域
Ilya在訪談中談到,到目前為止(2015年),監(jiān)督學(xué)習是機器學(xué)習中最成功的領(lǐng)域。
主持人隨后請Ilya解釋他最近的工作,Ilya繼續(xù)深入講解了深度學(xué)習如何得出答案的另一個核心要點。
所以你說,好,數(shù)據(jù)會告訴我們最佳的連接方式。
因為深度神經(jīng)網(wǎng)絡(luò)是一種非常強大、非常豐富的模型,它可以完成很多復(fù)雜的任務(wù)。
我們很難想象它有哪些事情是無法做到的。
正因如此,每當我們擁有大型數(shù)據(jù)集時,我們可以應(yīng)用一種簡單的學(xué)習算法來找到最佳的神經(jīng)網(wǎng)絡(luò),并取得良好的結(jié)果。
因此,我當時致力于將深度監(jiān)督學(xué)習方法應(yīng)用于神經(jīng)網(wǎng)絡(luò),解決輸入是序列、輸出也是序列的問題。
從概念上講,這與我之前所討論的內(nèi)容并沒有實質(zhì)差別,主要是一個技術(shù)問題。
其關(guān)鍵在于確保模型能夠處理輸入和輸出都是長度不再預(yù)先固定的序列。
但它的基本方法是一樣的,并且使用了相同的基本學(xué)習算法。
因此,再次強調(diào),由于這些模型具有很強的表達能力和功能,它們確實能夠解決許多困難的、非平凡的模式識別問題,以及用其他任何手段幾乎無法想象能解決的問題。
再者,令人驚訝的是,盡管這種方法最終表現(xiàn)得如此強大,它實際上卻非常簡單易懂。
學(xué)習算法極其簡單。也許只需要一個小時,一個聰明的學(xué)生就能理解它全部的工作原理。
這個觀點也和我們當下的現(xiàn)狀極度吻合。
不論是LLM還是Transformer,我們都可以在簡單學(xué)習后,了解它的基本原理。
甚至就像2023年那次采訪的題目,為何「預(yù)測下一個單詞」這么簡單的模型就能超越人類的智能。
只是為了增加數(shù)據(jù)
在Ilya看來,將深度學(xué)習中成功的圖像分類技術(shù)應(yīng)用到序列分類(即更接近文本)上只是「一個技術(shù)細節(jié)」。
人們所做的很多工作更像是在為模型構(gòu)建數(shù)據(jù)加載器,而不是我們提出的架構(gòu)本身有多新穎。
Ilya如此注重數(shù)據(jù)和通用性,那么后來像Transformer這樣的架構(gòu)席卷整個機器學(xué)習領(lǐng)域也許并不會讓他感到意外。
神經(jīng)網(wǎng)絡(luò)的目標函數(shù)非常復(fù)雜
它高度非凸。
而且從數(shù)學(xué)上完全沒有任何保證能確保優(yōu)化成功。
因此,如果你和一位研究優(yōu)化理論的學(xué)者討論,他們會告訴你,從理論上根本沒有理由相信這種優(yōu)化會奏效。
然而,事實證明它確實能成功——這是經(jīng)驗證明的結(jié)果。
純粹靠理論,我們很難解釋太多細節(jié)。
并不是因為這里有什么「魔法」,而只是說明我們還沒完全搞清楚原理。
我們其實不清楚,為什么這些看似簡單的啟發(fā)式優(yōu)化算法在這些問題上表現(xiàn)得如此出色。
因為沒有任何數(shù)學(xué)定理或理論可以說明它們必然會成功。
我們真正期待的定理,應(yīng)該反映「在現(xiàn)有條件下做到最好」這種理念。
然而,人類的智慧并不追求絕對最優(yōu),就像我們設(shè)計飛機或汽車時也不會力求完美。
我們只需要一個「夠好」的工程系統(tǒng)就行。
深度學(xué)習和非凸優(yōu)化給我們的,正是一群「夠好」的系統(tǒng)。雖然它們可能不是最優(yōu)解,卻依然非常有用、充滿潛力。
這就是事實。
深度學(xué)習追求的是「夠好」
在許多領(lǐng)域,尤其是學(xué)術(shù)界,人們過度追求最優(yōu),反而忽略了真正重要的目標。
深度學(xué)習是一門務(wù)實的科學(xué),它在現(xiàn)有資源條件下追求「夠好」。
隨著數(shù)據(jù)量和算力的飛速增長,「夠好」往往就能帶來驚人的成果。
這種「夠好」的思路,也讓現(xiàn)代人工智能更像「煉金術(shù)」而非傳統(tǒng)科學(xué).
因為傳統(tǒng)科學(xué)的進展通常要慢得多。
也許正是這種因為深度學(xué)習是務(wù)實的,在如今算力爆炸和數(shù)據(jù)豐富的時代,LLM雖然還是「黑箱」,但已經(jīng)切實的改變了我們的工作和生活。
某種意義上,也算「預(yù)言」了整個LLM時代。
初始化的尺度直接決定了模型的可訓(xùn)性
關(guān)于這一點,還有一些不那么直觀但非常重要的細節(jié)值得討論。
你可以這樣理解:神經(jīng)網(wǎng)絡(luò)里有大量神經(jīng)元和連接,每層都會先將輸入乘以隨機權(quán)重,再經(jīng)過非線性變換。
第一層處理完后,第二層又會重復(fù)相同的過程:乘權(quán)重、做非線性變換。
如果這些隨機權(quán)重太小,信號在多次相乘后就會迅速衰減到幾乎為零。
當信號到達輸出層時,你幾乎感受不到任何輸入的影響。
這樣一來,學(xué)習算法就無法發(fā)現(xiàn)輸入和輸出之間的關(guān)聯(lián),也就沒法改進模型。
因此,我們必須讓隨機初始化的權(quán)重大多數(shù)情況下足夠大,才能保證輸入的變化一路傳遞到輸出層。
一旦滿足了這個條件,梯度就能夠找到正確的方向,有效地優(yōu)化網(wǎng)絡(luò)。
…因此在實際應(yīng)用中,當研究人員希望在一個真實數(shù)據(jù)集上訓(xùn)練神經(jīng)網(wǎng)絡(luò)時,初始化的尺度是你需要關(guān)注的最重要的參數(shù)之一。
以上內(nèi)容節(jié)選自音頻對話內(nèi)容,絕大部分來源于Ilya本人。
這就是Ilya2015年對機器學(xué)習的深刻洞察。
那時,距離Transformer發(fā)布還有4年,距離ChatGPT發(fā)布還有7年的時間。
但是Ilya已經(jīng)深刻地體會到神經(jīng)網(wǎng)絡(luò)的威力。
最后想說的是,Ilya對于這場改變我們所有人的科技革命的直覺。就來自于在這次訪談中他想要告訴我們的:追求務(wù)實,擁抱簡單。
十分暢銷的《農(nóng)門惡女甜又狠》,安得與君相決絕,免教生死作相思
超高人氣的《農(nóng)門惡女甜又狠》,追完又相信愛情了《農(nóng)門惡女甜又狠》作者:葉初一
種田:她剛重生就發(fā)現(xiàn)被休,上老母,下小弟,她該如何打破僵局
(點擊書簽可以免費閱讀)第三本:《農(nóng)門惡女》作者:瀟湘非傾城簡介:獵豹特種部隊,葉清,25歲,英勇犧牲,為國捐軀。但誰特么的想死,她連男人是什么滋味都沒嘗過呢||?! 碜?1世紀女特種兵葉清成了一個受人欺凌的鄉(xiāng)下小丫頭,三餐不飽,面黃肌瘦_。不要以為她是特種兵一身正氣就不敢打你們這些刁民,龍還有呢?
眾人點贊《農(nóng)門惡女有點甜》優(yōu)質(zhì)片段追到不愿放手!
4《農(nóng)門惡女》作者:瀟湘非傾城文案:獵豹特種部隊,葉清,25歲,英勇犧牲——-。之后,葉清成了一個受人欺凌的鄉(xiāng)下小丫頭,三餐不飽,面黃肌瘦?! 。c擊下方即可閱讀)精彩片段:5本古言種田,腹黑女主穿越成鄉(xiāng)下丫頭,男主是糙漢《農(nóng)門惡女》。葉清說:“我給你一百文銀,買你這一罐茶葉?!庇终f:“茶葉放久后面會介紹_-。
來源:紅網(wǎng)
作者:涂承宣
編輯:來麗珠
本文為紅辣椒評論 原創(chuàng)文章,僅系作者個人觀點,不代表紅網(wǎng)立場。轉(zhuǎn)載請附原文出處鏈接和本聲明。