封面新聞記者邊雪上海報道
站在十字路口的大模型,既需仰望星空的大膽設(shè)想,也離不開腳踏實地的智慧。7月26日,一場聚焦大模型技術(shù)路線、數(shù)據(jù)瓶頸與商業(yè)落地的圓桌對話,引發(fā)業(yè)界高度關(guān)注。
在商湯承辦的2025WAIC大模型論壇上,商湯科技聯(lián)合創(chuàng)始人林達華、階躍星辰首席科學家張祥雨,上海人工智能實驗室青年領(lǐng)軍科學家、書生大模型負責人陳愷,北京智譜華章科技股份有限公司總裁王紹蘭,范式集團聯(lián)合創(chuàng)始人、首席科學家陳雨強及英偉達全球開發(fā)者生態(tài)副總裁NeilTrevett,圍繞大模型發(fā)展至關(guān)鍵十字路口的現(xiàn)狀,他們從技術(shù)路線抉擇、數(shù)據(jù)瓶頸突破與商業(yè)落地路徑三大維度,展開了一場關(guān)乎AI未來命運的深度思辨。
模型如何像人一樣自主探索?
“我們所知的預訓練將終結(jié)?!绷诌_華在討論伊始,就援引了OpenAI前首席科學家IlyaSutskever在NeurIPS2024上的論斷,直指行業(yè)范式遷移——從“預訓練+監(jiān)督微調(diào)”走向“強化學習驅(qū)動推理”。
“強化學習讓模型第一次擁有了‘帶反思的思維鏈’,解決了僅靠壓縮語料無法完成的因果推理難題?!彪A躍星辰首席科學家張祥雨表示,預訓練本質(zhì)是行為克?。˙ehaviorCloning),其固有缺陷無法通過擴大數(shù)據(jù)或模型解決。
張祥雨進一步預測,下一階段強化學習將接受自然語言反饋,實現(xiàn)“Test-TimeTraining”,讓模型像人一樣在真實環(huán)境中自主探索。
上海AI實驗室陳愷則揭示了強化學習發(fā)展的前置條件:“強化學習大放異彩的背后,恰恰印證了預訓練的重要性。RL極度依賴高質(zhì)量的‘冷啟動模型’作為探索基礎(chǔ)?!彼井斍癛L面臨兩大瓶頸:確定性獎勵局限(僅適用于數(shù)學編程等封閉問題)與基礎(chǔ)設(shè)施挑戰(zhàn)(探索學習需消耗海量算力)。
封面新聞記者在會上注意到,Transformer架構(gòu)革新也面臨“暗流涌動”。當討論深入到模型架構(gòu)時,張祥雨拋出“傳統(tǒng)Transformer已到瓶頸”的判斷。他認為,在即將到來的“智能體時代”,模型需具備“無限上下文”能力,而Transformer的串行生成機制難以勝任。
“RNN類結(jié)構(gòu)會在兩年內(nèi)重回主流,但需要引入深層到淺層的反向交互,以支持持續(xù)學習?!睆埾橛曛毖?。
“互聯(lián)網(wǎng)數(shù)據(jù)枯竭是量的問題,但更致命的是質(zhì)的問題。”王紹蘭認為,基座模型相當于通識教育畢業(yè)生,行業(yè)落地則需“企業(yè)入職培訓”——通過行業(yè)數(shù)據(jù)預訓練結(jié)合RL對齊,使模型掌握專屬知識。
“這正是垂類公司的生存壁壘,”王紹蘭強調(diào):“當企業(yè)擁有獨有行業(yè)數(shù)據(jù)和RL訓練能力,就無需畏懼基座模型的碾壓。”
數(shù)據(jù)短缺如何破解?
數(shù)據(jù)枯竭,被視為橫亙在AGI面前的“最后一道墻”。
“數(shù)據(jù)短缺將成為一個關(guān)鍵難題,尤其是對于那些無法獲取、成本高昂、不道德、危險或涉及隱私的數(shù)據(jù)。”NeilTrevett在圓桌中首次系統(tǒng)闡釋了英偉達的破局思路:“填補這一缺口的方法之一,就是利用物理仿真來生成模擬場景,用于訓練大語言模型。”
“英偉達在機器人和自動駕駛領(lǐng)域長期深耕,通過Cosmos世界基礎(chǔ)模型,能夠生成極為逼真的場景,從而獲得可用于訓練的真實世界數(shù)據(jù)。”NeilTrevett表示,這些數(shù)據(jù)通常精確且已標注,非常適合訓練,尤其擅長生成那些罕見或極端案例——例如車禍,或機器人遭遇異常狀況——這些場景在現(xiàn)實世界中幾乎無法采集或難以復現(xiàn)。
“但是,我們不能完全依賴這類合成數(shù)據(jù)。合成數(shù)據(jù)不可避免地會存在缺陷、誤差和偏差,因此我們必須建立反饋閉環(huán):通過真實世界的基準測試與驗證來持續(xù)校準訓練過程,也許需要人工介入?!盢eilTrevett直言,目前,許多相關(guān)技術(shù)正在開發(fā)中。“未來,我們將看到一種強大的混合流程:結(jié)合自監(jiān)督學習,以最大限度減少所需數(shù)據(jù)量;引入主動學習,讓訓練系統(tǒng)自主識別最有價值的場景進行訓練;僅在絕對必要時,通過人工驗證與糾偏,確保訓練過程始終緊貼現(xiàn)實,從而避免模型崩潰?!?/p>
NeilTrevett也提醒到,合成數(shù)據(jù)不能包打天下,“必須建立真實世界的反饋閉環(huán),用人在回路持續(xù)校準,避免模型崩潰”。他預測,行業(yè)將走向“自監(jiān)督+主動學習+人類驗證”的混合管線,從而把數(shù)據(jù)需求壓到最低。
智譜華章總裁王紹蘭用“大學生和師傅”的比喻形容產(chǎn)業(yè)分工:基座模型如同大學畢業(yè)的通才,企業(yè)用行業(yè)知識庫做“二輪預訓練”,再用強化學習配“師傅帶教”,才能解決真實業(yè)務(wù)問題?!靶袠I(yè)數(shù)據(jù)既是模型精調(diào)的燃料,也是垂類公司最深的護城河?!彼粲醺餍袠I(yè)成立數(shù)據(jù)聯(lián)盟,把非敏感行業(yè)語料共享出來,形成正向循環(huán)。
陳雨強則從金融反欺詐案例指出,高敏感場景甚至需要“獨立訓練”基座模型,企業(yè)當務(wù)之急是建立統(tǒng)一的開源/閉源模型調(diào)度平臺,以最快速度吸收前沿能力,同時保護私有數(shù)據(jù)。
開源仍是“最大鯰魚”?
面對“開源是否會削弱商業(yè)模型競爭力”的尖銳提問,陳愷直言,開源不會做出最頂尖模型,但能逼迫所有玩家把資源投入到真正差異化的環(huán)節(jié),“若閉源模型無法超越開源,就失去存在意義?!?/p>
站在產(chǎn)業(yè)視角,NeilTrevett直言:開源力量“不可否認”,但每家公司需自行權(quán)衡開源帶來的成本節(jié)省與商業(yè)優(yōu)勢流失,“未來不會是非黑即白,而是開放權(quán)重、部分閉源和混合架構(gòu)的長期共存”。他提出混合架構(gòu)設(shè)想——部分組件開源推動生態(tài),核心模塊閉源保護商業(yè)。
人工智能已不再是單一公司或單一技術(shù)的競賽,而是全人類共同構(gòu)建AGI生態(tài)的偉大協(xié)作。隨著WAIC2025的議程推進,這些前沿思考將在實驗室、機房與千行百業(yè)中加速落地,推動通用人工智能從“下一代”走向“這一代”。
延伸閱讀:與 未來機:會在!!哪 的相關(guān)文章