炒股就看金麒麟分析師研報(bào),權(quán)威,專業(yè),及時,全面,助您挖掘潛力主題機(jī)會!
來源:騰訊研究院
后臺回復(fù)“十大趨勢”,即可下載PDF版報(bào)告全文
我們曾習(xí)慣于將AI視為一個無所不知的“工具箱”。當(dāng)我們想知道答案,會打開搜索框;當(dāng)我們想完成任務(wù),會發(fā)出一連串精準(zhǔn)的指令。它強(qiáng)大、高效,卻也總是隔著一塊冷冰冰的屏幕,靜靜地等待著我們的下一個問題。它認(rèn)識我們輸入的文字,卻不理解我們輸入時的心情。
但現(xiàn)在,這一切正在悄然改變。
想象一下,那個曾經(jīng)只能理解命令的系統(tǒng),如今開始聽懂你語氣中的疲憊。在你深夜加班后,它不再是機(jī)械地播報(bào)日程,而是用一句溫暖的聲音提醒你:“看起來你很累了,要不要來點(diǎn)舒緩的音樂,幫你放松一下?”它第一次真正擁有了“五感”,能像我們一樣,同時看到視頻里人物的表情、聽懂他的語調(diào)、理解他話語的深意,并作出有溫度的回應(yīng)。這,就是AI正在經(jīng)歷的深刻躍遷。
這場躍遷的核心,是AI的角色正在從“工具”向“伙伴”演進(jìn)。在工作場景中,不斷融入工作流,成為一名高效的“數(shù)字員工”。當(dāng)它走進(jìn)生活,不僅我們記憶的延伸、靈感的火花、更可能成為一位真正懂你的“人生合伙人”。它了解你的生活習(xí)慣,記得你對咖啡的偏好,甚至能從你雜亂無章的語音筆記中,為你整理出一份條理清晰的行動計(jì)劃。它不再需要你“手把手”地教,而是通過理解你的世界,與你一同成長。
而這,還不是終點(diǎn)。
這位伙伴,正準(zhǔn)備走出屏幕,進(jìn)入我們生活的物理世界。那個曾經(jīng)只存在于比特世界的“數(shù)字大腦”,正長出“手-腳”,成為能在現(xiàn)實(shí)世界中行動的“代理人”。它將化身為更靈巧的機(jī)器人,在產(chǎn)線上完成超越人類精度的操作;它將融入自動駕駛系統(tǒng),以近乎全局的視野感知和預(yù)測路況;它甚至能成為養(yǎng)老院里那位細(xì)心的看護(hù),在老人需要時,穩(wěn)穩(wěn)地遞上一杯水。AI正從“會聊天”進(jìn)化到“懂世界”,再到“能行動”。
這不再是遙遠(yuǎn)的科幻想象,而是正在發(fā)生的未來。我們正共同站在一個偉大時代的開端,見證AI從高效的工具,蛻變?yōu)榕c我們協(xié)同思考、共同創(chuàng)造的共生伙伴。這篇報(bào)告所要描繪的,正是這一演化新篇章的宏偉藍(lán)圖。它關(guān)乎技術(shù),但更關(guān)乎我們每一個人——關(guān)乎我們將如何與下一代AI建立信任、展開合作,共同書寫一個更富想象力、也更具溫度的未來。
今天,在2025世界人工智能大會·騰訊論壇上,騰訊研究院聯(lián)合騰訊優(yōu)圖實(shí)驗(yàn)室、騰訊云智能、騰訊科技聯(lián)合發(fā)布了《共生伙伴:2025人工智能十大趨勢》報(bào)告?;隍v訊研究院多位研究員對全球技術(shù)、產(chǎn)業(yè)趨勢的長期觀察,通過10個關(guān)鍵趨勢勾勒出2025人工智能發(fā)展的三大主題基礎(chǔ)模型的躍遷、智能行動者的崛起以及AI走向物理世界,深入剖析了AI從“智能工具”邁向“共生伙伴”的關(guān)鍵躍遷。
推薦序
從智能工具到共生伙伴:AI演化的新篇章
司曉騰訊副總裁騰訊研究院院長
隨著技術(shù)的快速演進(jìn),基礎(chǔ)模型正迎來一場深層次的躍遷。2025年,大模型的訓(xùn)練重點(diǎn)從“數(shù)據(jù)+規(guī)?!鞭D(zhuǎn)向“后訓(xùn)練+多模態(tài)”。這場變革的核心在于,強(qiáng)化學(xué)習(xí)開始在大模型后訓(xùn)練中發(fā)揮關(guān)鍵作用,并有望賦予模型自我優(yōu)化與持續(xù)進(jìn)化能力。例如,DeepSeek-R1-Zero通過純強(qiáng)化學(xué)習(xí)展現(xiàn)出推理能力,這不僅為DeepSeekR1的訓(xùn)練提供了關(guān)鍵支撐,更全面地將大模型應(yīng)用推向了推理時代。想象一下,未來在諸多場景下AI都不再需要人類工程師“手把手”教學(xué),而是能像圍棋大師AlphaGo那樣,通過可驗(yàn)證的獎勵信號,在工業(yè)機(jī)器人路徑優(yōu)化、復(fù)雜物流網(wǎng)絡(luò)調(diào)度等領(lǐng)域自主找到最優(yōu)解,甚至發(fā)現(xiàn)超越人類經(jīng)驗(yàn)的全新策略,從而在未知環(huán)境中展現(xiàn)出卓越的適應(yīng)性。同時,原生多模態(tài)生成技術(shù)實(shí)現(xiàn)了從底層結(jié)構(gòu)上對圖像、語音、文本等多模態(tài)數(shù)據(jù)的統(tǒng)一建模,使AI能夠在同一上下文中理解和生成跨模態(tài)信息。例如,一段視頻中人物的表情、語調(diào)與語義內(nèi)容可以被同時感知并融合處理,從而推動了AI從“看懂”、“聽懂”到“合成表達(dá)”的一體化躍遷。此外,聲音模型的突破,為其帶來了更加擬人化的語音能力,使其能夠跨越語言和文化的障礙,實(shí)現(xiàn)全球范圍的情感交流。我們不再只是與冷冰冰的機(jī)器對話,而是與一個能理解你語氣中的疲憊、并用溫暖聲音回應(yīng)的智能系統(tǒng)交流,這顯著提升了人機(jī)交互的自然度和沉浸感,為構(gòu)建擬人化、實(shí)時反應(yīng)的智能系統(tǒng)奠定了堅(jiān)實(shí)基礎(chǔ)。
進(jìn)入智能行動構(gòu)建者(Agent)的領(lǐng)域,AI的角色正在發(fā)生深刻的變化——從傳統(tǒng)的“工具”角色,逐步演變?yōu)槊總€人的“共生伙伴”。端到端Agent模型的崛起進(jìn)一步推動了智能助手的進(jìn)化,從單純的執(zhí)行任務(wù)轉(zhuǎn)向成為更加可信的合作伙伴,能在多個場景下為用戶提供更具深度的智能支持。借助大模型的推理與決策能力,這類智能體已能夠主動感知用戶意圖、調(diào)度任務(wù)和協(xié)調(diào)資源,實(shí)現(xiàn)如行程安排、信息篩選和跨平臺事務(wù)處理等日常操作的智能自主完成。智能助理將有望從小眾工具走向大眾應(yīng)用,實(shí)現(xiàn)“人手一個”,進(jìn)一步提升生活和工作效率。更有甚者,AI有望成為用戶生活的個性化操作系統(tǒng)LifeOS。通過對用戶日常生活相關(guān)的多模態(tài)數(shù)據(jù)(如語音、文本、行為軌跡、健康參數(shù)等)的長期整合與理解,構(gòu)建起一個持續(xù)進(jìn)化的“人生合伙人”。根據(jù)用戶的習(xí)慣、偏好與情緒狀態(tài)主動提供建議與支持,全面優(yōu)化工作與生活的體驗(yàn)。
在行業(yè)應(yīng)用方面,垂直行業(yè)智能體的出現(xiàn)正推動各個行業(yè)的智能化升級。AI不再僅僅提供通用模型或技術(shù)接口,而是以智能化工作流的形式深度嵌入醫(yī)療、金融、制造、零售和政務(wù)等關(guān)鍵行業(yè)。通過行業(yè)語料訓(xùn)練、場景邏輯建模和工作流集成,這些智能體能夠承擔(dān)風(fēng)控審查、設(shè)備運(yùn)維和客戶服務(wù)等具體職能,顯著提升業(yè)務(wù)效率與決策質(zhì)量,推動從數(shù)字化到智能化的關(guān)鍵躍遷。而游戲智能體的沉浸式進(jìn)化則為虛擬世界帶來了全新的體驗(yàn),AI不僅僅在游戲中扮演角色,更能通過高度自適應(yīng)的行為與玩家進(jìn)行深度互動,推動虛擬世界向著更加動態(tài)和不可預(yù)測的方向演進(jìn)。
另一方面,智能的應(yīng)用正在從語言智能走向空間智能??臻g智能的興起意味著AI從處理詞元(Token)進(jìn)化到理解體素(Voxel),初步具備了理解和處理三維世界的核心能力,包括3D環(huán)境的感知、推理、交互和生成。這一技術(shù)突破讓AI能夠像預(yù)測下一個詞元一樣去預(yù)測下一個體素,并再次基礎(chǔ)上實(shí)現(xiàn)能力的涌現(xiàn)??臻g智能正在重塑自動駕駛、機(jī)器人制造、XR混合現(xiàn)實(shí)、醫(yī)療手術(shù)、建筑設(shè)計(jì)和智慧城市等領(lǐng)域的工作方式,為AI邁向通用人工智能(AGI)補(bǔ)全了關(guān)鍵的物理常識和因果推理能力,推動AI從“會聊天”到真正“懂世界”的跨越式發(fā)展。
與此同時,具身智能的崛起,標(biāo)志著圖靈測試正從抽象的語言推理,邁向真實(shí)世界的感知—行動協(xié)同。AI不僅能“想得明白”,更能“動得精準(zhǔn)”。通過與機(jī)器人平臺、自動駕駛系統(tǒng)、智能穿戴設(shè)備等硬件深度整合,AI開始具備類人感知與靈活執(zhí)行力,在復(fù)雜、多變的物理環(huán)境中完成導(dǎo)航、操控、交互等任務(wù)。從配送機(jī)器人在城市街區(qū)的自主行動,到養(yǎng)老機(jī)器人在特定情境中提供主動服務(wù),具身智能正在重塑人機(jī)交互的邊界,推動AI從“數(shù)字大腦”走向“現(xiàn)實(shí)代理人”,深刻改變?nèi)祟惖纳罘绞脚c生產(chǎn)模式。
綜合來看,2025年強(qiáng)化學(xué)習(xí)和多模態(tài)融合讓大模型真正“長出五官”,Agent在工作與生活各個領(lǐng)域的應(yīng)用,逐步使其成為人類真正的“共生伙伴”,空間智能與具身智能有望讓它走出比特世界,進(jìn)入原子世界。大模型產(chǎn)業(yè)將真正跨入“技術(shù)-產(chǎn)品-社會”三位一體的深水區(qū),我們不僅將見證效率的飛躍,更將共同探索如何與下一代AI建立更深層次的信任與合作,共同書寫人類與AI和諧共存、持續(xù)發(fā)展的未來篇章。
?
01強(qiáng)化學(xué)習(xí):引領(lǐng)大模型推理和行動能力新突破
強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)正在大語言模型領(lǐng)域引發(fā)一場深刻的范式變革。當(dāng)前,強(qiáng)化學(xué)習(xí)在大語言模型中的應(yīng)用正從最初的人類反饋強(qiáng)化學(xué)習(xí)(RLHF)——主要旨在使模型輸出符合人類偏好——向基于可驗(yàn)證獎勵的強(qiáng)化學(xué)習(xí)(RLVR)大規(guī)模演進(jìn)。RLVR將獎勵信號直接綁定到客觀、可驗(yàn)證的結(jié)果上(例如編程或數(shù)學(xué)問題的正確答案),從而將優(yōu)化目標(biāo)從“聽起來正確”轉(zhuǎn)向“確實(shí)正確”,顯著提升了大模型的核心推理能力。這種轉(zhuǎn)變正推動大模型超越簡單的內(nèi)容生成,向解決實(shí)際問題、實(shí)現(xiàn)復(fù)雜目標(biāo)的高級智能邁進(jìn)。
02原生多模態(tài)生成:統(tǒng)一感知與生成的新時代
人工智能的早期發(fā)展主要聚焦于單一模態(tài),如計(jì)算機(jī)視覺專注于圖像理解,自然語言處理專注于文本分析。進(jìn)入深度學(xué)習(xí)時代,特別是隨著Transformer架構(gòu)的突破性成功,為徹底的多模態(tài)整合鋪平了道路。這催生了“原生多模態(tài)模型”(NativelyMultimodalModels),其核心理念在于從架構(gòu)設(shè)計(jì)之初就將多種模態(tài)(如文本、圖像、音頻、視頻)視為一個統(tǒng)一的輸入空間。通過共享或緊密耦合的表示層,模型能夠?qū)崿F(xiàn)跨模態(tài)信息的深度交互、對齊與融合。這種“原生”設(shè)計(jì)讓模型能在單一框架內(nèi)同時完成多模態(tài)的聯(lián)合感知,并基于模態(tài)間深度關(guān)聯(lián)的理解進(jìn)行多模態(tài)生成。從OpenAI的GPT-4o實(shí)現(xiàn)文本、圖像、音頻的無縫交互,到Sora、Veo3等模型在視頻生成領(lǐng)域的突破,這些標(biāo)志性成果無不預(yù)示著統(tǒng)一感知與生成新時代的全面到來,即將改變多個行業(yè)的范式。
03聲音模型廣進(jìn)化:邁向通情達(dá)義的情感智能
聲音模型正快速邁向具備情感智能的新階段,成為推動人機(jī)交互自然化、個性化的核心技術(shù)力量。從早期的機(jī)械朗讀發(fā)展到具備語境理解和情感表達(dá)能力的語音合成系統(tǒng),再到可創(chuàng)作完整音樂作品和驅(qū)動視覺內(nèi)容生成的多模態(tài)聲音智能,AI聲音技術(shù)正在實(shí)現(xiàn)從“工具”到“伙伴”的躍遷。聲音的實(shí)時性與情感表達(dá)優(yōu)勢,使其在未來的VoiceAgent、沉浸式內(nèi)容創(chuàng)作、教育與醫(yī)療輔助等領(lǐng)域具備廣闊應(yīng)用前景。隨著模型個性化、低延遲和端側(cè)部署的進(jìn)步,聲音智能將走向更貼近用戶、更普惠的交互形態(tài),開啟“人人皆可創(chuàng)、處處能互動”的智能新時代。
04智能體雙軌進(jìn)化:編排類與端到端的分途并進(jìn)
AIAgent作為人工智能領(lǐng)域的重要發(fā)展方向,正經(jīng)歷著從概念驗(yàn)證向生產(chǎn)應(yīng)用的關(guān)鍵轉(zhuǎn)變。自2023年探索性發(fā)展至今,已逐漸分化為兩條主要技術(shù)路線:編排類Agent(Orchestration-basedAgents)和端到端Agent模型(End-to-EndAgentModels)。編排類Agent采用“外掛式”架構(gòu),將大語言模型作為中央決策器,通過預(yù)定義的代碼路徑編排LLM與外部工具、API的交互,實(shí)現(xiàn)復(fù)雜任務(wù)的分解與執(zhí)行。端到端Agent模型則采用“內(nèi)化式”架構(gòu),通過強(qiáng)化學(xué)習(xí)等技術(shù)將推理、規(guī)劃、工具使用等能力直接訓(xùn)練到模型內(nèi)部,讓模型能夠動態(tài)指導(dǎo)自己的過程和工具使用。以O(shè)penAI的o3、DeepResearch等為代表,這一路線仍處于早期階段,但在特定專業(yè)領(lǐng)域已展現(xiàn)出突破性效果。兩條路線各有優(yōu)勢和適用場景,將在未來長期并行發(fā)展,共同推動AIAgent技術(shù)向更加實(shí)用和強(qiáng)大的方向演進(jìn)。
05LifeOS:AI成為個性化生活的操作系統(tǒng)
隨著生成式AI技術(shù)的快速成熟,人工智能正從輔助工具逐漸演化為人類生活深處的“共生伙伴”。OpenAI創(chuàng)始人SamAltman最近提出了一個前瞻性的愿景:“LifeOS”描繪了一個超越傳統(tǒng)工具范疇的AI未來。他指出,人們對AI的使用方式正在從偶發(fā)性的單一任務(wù)轉(zhuǎn)變?yōu)槌掷m(xù)性的智能交互,AI不再只是回答問題的工具,而是貫穿用戶一生、主動提供幫助的智能伴侶。這一愿景預(yù)示著AI將更深層次地融入我們的日常生活,成為一個具備終身記憶、個性化推理和主動行動能力的“生活操作系統(tǒng)”。這一趨勢背后的技術(shù)基礎(chǔ),包括長序列記憶模型、上下文理解引擎和主動決策引擎,正在不斷突破和完善。深入理解LifeOS的發(fā)展方向,不僅幫助我們洞察下一代人工智能應(yīng)用的演變軌跡,更將重新定義人與機(jī)器的關(guān)系,深刻影響未來人類生活與社會運(yùn)行模式。
06智力即服務(wù):智能化工作流賦能產(chǎn)業(yè)升級
隨著AI能力從“算力驅(qū)動”邁向“智力驅(qū)動”,企業(yè)正進(jìn)入“智力即服務(wù)”階段,Agent逐步成為企業(yè)知識系統(tǒng)、流程結(jié)構(gòu)與組織角色的原生組成。在與知識的關(guān)系上,企業(yè)正從“有知識”走向“能調(diào)用”。RAG、數(shù)據(jù)飛輪和知識結(jié)構(gòu)化機(jī)制的演進(jìn),使企業(yè)知識從“沉默資產(chǎn)”轉(zhuǎn)變?yōu)楸恢悄荏w實(shí)時調(diào)度的認(rèn)知系統(tǒng)。在與人的關(guān)系上,Agent正從被動工具向數(shù)字員工演化。它們開始承擔(dān)閉環(huán)流程、具備權(quán)限邊界,并成為流程體系中的原生節(jié)點(diǎn)。企業(yè)不再部署AI功能,而是部署具備行為責(zé)任的“數(shù)字崗位”。在與流程的關(guān)系上,智能化不再依賴單一Agent,而依賴系統(tǒng)性的Agent網(wǎng)絡(luò)與調(diào)度平臺。組織開始圍繞任務(wù)流、感知流與控制流重新編排流程邊界,邁向由Agent協(xié)作驅(qū)動的系統(tǒng)智能時代。
07游戲智能體:AI在虛擬世界的沉浸式進(jìn)化
游戲智能體正在重新定義虛擬世界中AI與人類的交互邊界。從早期簡單的腳本化NPC到如今具備深度學(xué)習(xí)能力的自主智能體,這一演進(jìn)不僅體現(xiàn)了技術(shù)的飛躍,更預(yù)示著虛擬世界正在向著一個充滿生命力的數(shù)字生態(tài)系統(tǒng)轉(zhuǎn)變。當(dāng)代游戲智能體通過強(qiáng)化學(xué)習(xí)、大語言模型、多模態(tài)感知等前沿技術(shù),已經(jīng)能夠理解復(fù)雜的游戲環(huán)境、學(xué)習(xí)玩家行為模式、生成個性化的互動內(nèi)容,甚至展現(xiàn)出類似人類的情感反應(yīng)和社交能力。這種沉浸式進(jìn)化使得AI不再是虛擬世界的配角,而是成為推動游戲敘事、創(chuàng)造涌現(xiàn)式玩法、構(gòu)建動態(tài)社交網(wǎng)絡(luò)的核心驅(qū)動力。隨著技術(shù)的持續(xù)突破,游戲智能體正在為元宇宙時代的到來奠定堅(jiān)實(shí)基礎(chǔ),讓虛擬世界真正成為人類生活、工作、娛樂的第二空間。
08具身智能的“GPT-2時刻”:基礎(chǔ)模型、數(shù)據(jù)工程與軟件平臺的協(xié)同進(jìn)化
從生成式人工智能特別是GPT展現(xiàn)出的歷程來看,具身智能領(lǐng)域正通過規(guī)模效應(yīng)蓄積飛躍動能:2025年極有可能成為具身智能領(lǐng)域的“GPT-2時刻”。以VLA(視覺-語言-動作)多模態(tài)大模型突破為代表的諸多進(jìn)展標(biāo)志著具身智能從專用場景和單一任務(wù)向更通用、更智能、更具自主性的機(jī)器智能邁出了關(guān)鍵一步,其影響將進(jìn)一步激活機(jī)器人在人居環(huán)境的應(yīng)用潛能。具體來說:一是強(qiáng)大的端到端多模態(tài)基礎(chǔ)模型正在被構(gòu)建,它們將賦能機(jī)器人大小腦向更高級認(rèn)知與執(zhí)行能力躍升,并展現(xiàn)出一定到泛化性;二是大規(guī)模的真實(shí)與合成數(shù)據(jù)正在以前所未有的規(guī)模被生成和利用,為模型的訓(xùn)練提供支撐;三是跨模態(tài)跨本體的軟件平臺正在統(tǒng)一開發(fā)流程;騰訊、英偉達(dá)等互聯(lián)網(wǎng)公司通過構(gòu)建機(jī)器人模擬和訓(xùn)練平臺,加速技術(shù)的落地,激活萬億級的上下游生態(tài)。
09空間智能:從看見到理解三維世界
隨著AI技術(shù)的不斷突破,智能的應(yīng)用正在從語言智能走向空間智能??臻g智能的興起意味著AI從處理詞元(Token)進(jìn)化到理解體素(Voxel),具備了理解和處理三維世界的核心能力,包括3D環(huán)境的感知、推理、交互和生成。這一技術(shù)突破讓AI能夠像預(yù)測下一句文本一樣去預(yù)測三維空間并涌現(xiàn)??臻g智能正在重塑自動駕駛、機(jī)器人制造、XR混合現(xiàn)實(shí)、醫(yī)療手術(shù)、建筑設(shè)計(jì)、智慧城市等領(lǐng)域的工作方式,為AI走向通用人工智能(AGI)提供關(guān)鍵的物理常識和因果推理能力,推動AI從“會聊天”到真正“懂世界”的跨越式發(fā)展。
10測試轉(zhuǎn)量產(chǎn),應(yīng)用推動具身智能本體加速成熟
2025年3月發(fā)布的《2025年國務(wù)院政府工作報(bào)告》,首次將智能機(jī)器人定位為“新一代智能終端和智能制造裝備”,其納入“人工智能+”行動計(jì)劃。同時《工作報(bào)告》還明確提出“培育具身智能等未來產(chǎn)業(yè)”,這標(biāo)志著具身智能已上升至國家戰(zhàn)略高度。隨著技術(shù)突破和應(yīng)用場景的不斷拓展,具身智能本體-機(jī)器人正從實(shí)驗(yàn)室走向產(chǎn)業(yè)化,迎來從測試到量產(chǎn)的關(guān)鍵轉(zhuǎn)折點(diǎn)。本專題深入分析具身智能本體發(fā)展由“測試”向“量產(chǎn)”的重大轉(zhuǎn)變,其硬件配置、能力提升和產(chǎn)業(yè)影響三個維度的最新發(fā)展趨勢,并探討其如何在應(yīng)用驅(qū)動下加速走向成熟。