即便在Transformer與ChatGPT尚未誕生的年代,Ilya已敏銳預見深度學習的廣闊前景,展現(xiàn)出令人嘆服的遠見與清醒。這是一段10年前Ilya對于如今AI時代的預言。
IlyaSutskever因在深度學習方面的遠見卓識而聞名。
他現(xiàn)在許多廣為流傳的言論其實都來自于他在2023年參加Dwarkesh播客時的發(fā)言。
此后,直到2025年Ilya創(chuàng)辦SSI后,幾乎不再有公開的言論,此前曾探討過Ilya的去向。
最近,一位名為NathanLambert的博主聲稱他收到了一段Ilya在10年前,也就是2015年談論深度學習的語音片段。
令他感到震驚的是,Ilya在那么多年前就已準確預見了這一切,尤其是他的直覺從那時至今幾乎沒有任何改變。
在進行資料整理,同樣震驚我們的是:
早在2015年,Ilya對于深度學習的理解就已經(jīng)遠超如今絕大部分人(即使是10年后今天)。
這個視頻片段來自一個已經(jīng)停播的博客節(jié)目《TalkingMachines》,我們在其官網(wǎng)找到最初的采訪錄音。
此時的Ilya還是谷歌的研究員,節(jié)目中談論了他的工作、他是如何對機器學習產生興趣的,以及為何機器學習(MachineLearning)會和魔法思維(MagicalThinking)產生聯(lián)系。
現(xiàn)在就讓我們將時間回撥10年,看看當年的Ilya是如何洞察深度學習的。
在編輯這篇文章時,我們也驚訝地發(fā)現(xiàn),即使只是通過文字記錄,Ilya的觀點歷經(jīng)10年歲月洗禮,依然鮮明犀利。
數(shù)學出身的Ilya,認為「機器學習」違反直覺
Ilya首先講述了他通往人工智能的道路,對于這樣一位才華橫溢的人物來說,這并不令人意外。
我十幾歲時就一直對人工智能感興趣。
我覺得那非常棒而且引人入勝。之后我繼續(xù)攻讀了數(shù)學專業(yè)本科。
當你學習數(shù)學的時候,你會深知數(shù)學注重的是證明事物。
如果你看到某種規(guī)律,在沒有經(jīng)過證明之前,它并不意味著就是正確的。
因此,對于擁有數(shù)學背景的我來說,學習(機器學習)似乎是非常違反直覺的,因為學習強調的是進行歸納推理,而這些歸納步驟看起來很難用嚴謹?shù)姆椒ㄈソ忉屒宄?/p>
如果你習慣于嚴格地證明結果,那么歸納似乎幾乎就像魔法一樣。
因此,我當時對學習特別感興趣,因為我深知人類具備這種能力,而從單純的數(shù)學角度來看,學習似乎根本不可能實現(xiàn),這讓我感到不可思議。
大二和Hinton合作
于是我開始四處尋找,結果發(fā)現(xiàn)多倫多有一個非常出色且強大的學習研究團隊。
我在本科二年級時便開始與JeffHinton(AI之父)合作。
相比硬科學,機器學習的理解更加容易
機器學習確實是一門復雜的科學。
我想這不像物理學。
我認為在物理學、數(shù)學以及許多其他硬科學領域,一個人需要掌握大量知識后才能開始發(fā)揮作用。
雖然我不太確定,因為我從未涉足這些領域。
這只是我的印象。
而機器學習則更多地是,那些重要的想法,甚至是與前沿研究相關的想法,都離表面非常近。
這個觀點和我們如今的現(xiàn)狀是如此的吻合。
尤其是在一個遠離真正訓練前沿的實驗室中,在沒有特別努力尋找的情況下,周圍的機器學習的低垂果實之多令人驚訝。
深度學習之所以有效,很大程度上是因為人們愿意付出努力去把握這些機會。
Ilya認為:
只要有正確的指導和方向,無需多年學習就能理解機器學習背后的主要思想、有效方法的主要理念以及主要的直覺認識。
監(jiān)督學習是機器學習中最成功的領域
Ilya在訪談中談到,到目前為止(2015年),監(jiān)督學習是機器學習中最成功的領域。
主持人隨后請Ilya解釋他最近的工作,Ilya繼續(xù)深入講解了深度學習如何得出答案的另一個核心要點。
所以你說,好,數(shù)據(jù)會告訴我們最佳的連接方式。
因為深度神經(jīng)網(wǎng)絡是一種非常強大、非常豐富的模型,它可以完成很多復雜的任務。
我們很難想象它有哪些事情是無法做到的。
正因如此,每當我們擁有大型數(shù)據(jù)集時,我們可以應用一種簡單的學習算法來找到最佳的神經(jīng)網(wǎng)絡,并取得良好的結果。
因此,我當時致力于將深度監(jiān)督學習方法應用于神經(jīng)網(wǎng)絡,解決輸入是序列、輸出也是序列的問題。
從概念上講,這與我之前所討論的內容并沒有實質差別,主要是一個技術問題。
其關鍵在于確保模型能夠處理輸入和輸出都是長度不再預先固定的序列。
但它的基本方法是一樣的,并且使用了相同的基本學習算法。
因此,再次強調,由于這些模型具有很強的表達能力和功能,它們確實能夠解決許多困難的、非平凡的模式識別問題,以及用其他任何手段幾乎無法想象能解決的問題。
再者,令人驚訝的是,盡管這種方法最終表現(xiàn)得如此強大,它實際上卻非常簡單易懂。
學習算法極其簡單。也許只需要一個小時,一個聰明的學生就能理解它全部的工作原理。
這個觀點也和我們當下的現(xiàn)狀極度吻合。
不論是LLM還是Transformer,我們都可以在簡單學習后,了解它的基本原理。
甚至就像2023年那次采訪的題目,為何「預測下一個單詞」這么簡單的模型就能超越人類的智能。
只是為了增加數(shù)據(jù)
在Ilya看來,將深度學習中成功的圖像分類技術應用到序列分類(即更接近文本)上只是「一個技術細節(jié)」。
人們所做的很多工作更像是在為模型構建數(shù)據(jù)加載器,而不是我們提出的架構本身有多新穎。
Ilya如此注重數(shù)據(jù)和通用性,那么后來像Transformer這樣的架構席卷整個機器學習領域也許并不會讓他感到意外。
神經(jīng)網(wǎng)絡的目標函數(shù)非常復雜
它高度非凸。
而且從數(shù)學上完全沒有任何保證能確保優(yōu)化成功。
因此,如果你和一位研究優(yōu)化理論的學者討論,他們會告訴你,從理論上根本沒有理由相信這種優(yōu)化會奏效。
然而,事實證明它確實能成功——這是經(jīng)驗證明的結果。
純粹靠理論,我們很難解釋太多細節(jié)。
并不是因為這里有什么「魔法」,而只是說明我們還沒完全搞清楚原理。
我們其實不清楚,為什么這些看似簡單的啟發(fā)式優(yōu)化算法在這些問題上表現(xiàn)得如此出色。
因為沒有任何數(shù)學定理或理論可以說明它們必然會成功。
我們真正期待的定理,應該反映「在現(xiàn)有條件下做到最好」這種理念。
然而,人類的智慧并不追求絕對最優(yōu),就像我們設計飛機或汽車時也不會力求完美。
我們只需要一個「夠好」的工程系統(tǒng)就行。
深度學習和非凸優(yōu)化給我們的,正是一群「夠好」的系統(tǒng)。雖然它們可能不是最優(yōu)解,卻依然非常有用、充滿潛力。
這就是事實。
深度學習追求的是「夠好」
在許多領域,尤其是學術界,人們過度追求最優(yōu),反而忽略了真正重要的目標。
深度學習是一門務實的科學,它在現(xiàn)有資源條件下追求「夠好」。
隨著數(shù)據(jù)量和算力的飛速增長,「夠好」往往就能帶來驚人的成果。
這種「夠好」的思路,也讓現(xiàn)代人工智能更像「煉金術」而非傳統(tǒng)科學.
因為傳統(tǒng)科學的進展通常要慢得多。
也許正是這種因為深度學習是務實的,在如今算力爆炸和數(shù)據(jù)豐富的時代,LLM雖然還是「黑箱」,但已經(jīng)切實的改變了我們的工作和生活。
某種意義上,也算「預言」了整個LLM時代。
初始化的尺度直接決定了模型的可訓性
關于這一點,還有一些不那么直觀但非常重要的細節(jié)值得討論。
你可以這樣理解:神經(jīng)網(wǎng)絡里有大量神經(jīng)元和連接,每層都會先將輸入乘以隨機權重,再經(jīng)過非線性變換。
第一層處理完后,第二層又會重復相同的過程:乘權重、做非線性變換。
如果這些隨機權重太小,信號在多次相乘后就會迅速衰減到幾乎為零。
當信號到達輸出層時,你幾乎感受不到任何輸入的影響。
這樣一來,學習算法就無法發(fā)現(xiàn)輸入和輸出之間的關聯(lián),也就沒法改進模型。
因此,我們必須讓隨機初始化的權重大多數(shù)情況下足夠大,才能保證輸入的變化一路傳遞到輸出層。
一旦滿足了這個條件,梯度就能夠找到正確的方向,有效地優(yōu)化網(wǎng)絡。
…因此在實際應用中,當研究人員希望在一個真實數(shù)據(jù)集上訓練神經(jīng)網(wǎng)絡時,初始化的尺度是你需要關注的最重要的參數(shù)之一。
以上內容節(jié)選自音頻對話內容,絕大部分來源于Ilya本人。
這就是Ilya2015年對機器學習的深刻洞察。
那時,距離Transformer發(fā)布還有4年,距離ChatGPT發(fā)布還有7年的時間。
但是Ilya已經(jīng)深刻地體會到神經(jīng)網(wǎng)絡的威力。
最后想說的是,Ilya對于這場改變我們所有人的科技革命的直覺。就來自于在這次訪談中他想要告訴我們的:追求務實,擁抱簡單。