出品|虎嗅黃青春頻道
作者|商業(yè)消費(fèi)主筆黃青春
頭圖|電影《Her》
字節(jié)跳動(dòng)又盯上“情感大模型”了。
虎嗅獲悉,字節(jié)跳動(dòng)旗下火山方舟大模型平臺(tái)將上線一批“情感大模型”,向企業(yè)提供API調(diào)用、AI對(duì)話解決方案(如客服、信息檢索服務(wù)等);豆包則在自研新“情感大模型”——與年初接入DeepSeek時(shí)策略一樣,字節(jié)跳動(dòng)依然堅(jiān)持“火山開放,豆包自研”的路線,兼顧生態(tài)與自有產(chǎn)品。
虎嗅就上述信息向字節(jié)方面求證,火山引擎相關(guān)負(fù)責(zé)人回應(yīng)稱,有關(guān)“情感大模型”信息不實(shí),沒有此模型計(jì)劃。
簡(jiǎn)單來說,字節(jié)跳動(dòng)之所以盯上“情感大模型”,源于其并非普通數(shù)據(jù)處理大模型,而是以“擬人化情感理解”為核心,即通過技術(shù)識(shí)別、理解來模擬人類情感——去年,HumeAI推出具有情商的對(duì)話式AI,已經(jīng)能檢測(cè)到用戶53種情緒,未來電影《Her》中主人公迷戀上Samantha的劇情或?qū)⒄者M(jìn)現(xiàn)實(shí)。
不止“聊天”,更懂“人心”
很多讀者或許會(huì)好奇,“情感大模型”到底有什么特別之處?
區(qū)別于傳統(tǒng)聊天機(jī)器人機(jī)械的交互,“情感大模型”不僅追求對(duì)話能力,更注重用戶情感體驗(yàn)(如接近真人的語音、可打斷對(duì)話等)——具體而言,“情感大模型”會(huì)通過分析用戶的語調(diào)、停頓、表情理解情感,從而生成符合情緒的回應(yīng),即通過“理解情緒+精準(zhǔn)回應(yīng)”使交互更生動(dòng)、真實(shí)。
簡(jiǎn)單概括就是:“情感大模型”不止“聊天”,更懂“人心”,更能“共情”。
可別小瞧了這個(gè)隱秘的新風(fēng)口:
騰訊研究院《2024大模型十大趨勢(shì)》報(bào)告顯示,“情感大模型”的發(fā)展將引領(lǐng)AI陪伴市場(chǎng)的快速增長(zhǎng),預(yù)計(jì)在接下來的2-3年內(nèi),人機(jī)陪伴市場(chǎng)將迎來產(chǎn)品和用戶數(shù)量的爆發(fā)式增長(zhǎng);
另?yè)?jù)非凡產(chǎn)研數(shù)據(jù),人工智能伴侶平臺(tái)的月活躍用戶數(shù)量2018-2023年間增長(zhǎng)了30倍,全球市場(chǎng)規(guī)模預(yù)計(jì)將在2023-2030年間,從3000萬美元飆升至1500億美元,年均復(fù)合增長(zhǎng)率達(dá)到236%。
“情感大模型”之所以突然成為市場(chǎng)關(guān)注的焦點(diǎn),一個(gè)重要原因在于:它正推動(dòng)AI從“工具屬性”向“情感伴侶”延伸,從而打開全新的應(yīng)用場(chǎng)景。
基于此,“情感大模型”的技術(shù)演化形成了兩條路徑:一是在通用大模型的基礎(chǔ)上,通過增強(qiáng)多模態(tài)情感計(jì)算能力,催生出具有更好情感理解與響應(yīng)能力的AI情感應(yīng)用,如豆包實(shí)時(shí)語音大模型可實(shí)現(xiàn)端到端對(duì)話、低時(shí)延、接近真人交互。
二是專注于情感領(lǐng)域的生成式大模型,如HumeAI的移情語音界面(EVI)、祝語未來科技的AEGMV等,這也是字節(jié)正在布局的方向。
以Character.AI為例,不僅支持1對(duì)1聊天,還可以進(jìn)行創(chuàng)作角色、發(fā)展劇情,甚至拉角色開“群聊派對(duì)”,其7月5日新發(fā)布的TalkingMachines(自回歸擴(kuò)散模型)可以實(shí)時(shí)進(jìn)行AI角色視頻互動(dòng)——用戶只需要輸入一張圖片和聲音信號(hào),該模型就能實(shí)現(xiàn)類似FaceTime的通話視覺互動(dòng)。
與之對(duì)應(yīng),僅去年上半年,Character.AI在移動(dòng)端累計(jì)下載量已突破3432萬,網(wǎng)頁(yè)端單月訪問量高達(dá)3.1億,在相關(guān)榜單僅次于ChatGPT。
一位大模型工程師向虎嗅解釋,“情感大模型”多以Transformer為基礎(chǔ)不斷改善網(wǎng)絡(luò)結(jié)構(gòu),采取全模態(tài)關(guān)聯(lián),中間不進(jìn)行模型轉(zhuǎn)換動(dòng)作,而是通過小組件改善準(zhǔn)確率。
基于這樣的技術(shù)特點(diǎn),企業(yè)要如何落地應(yīng)用呢?
虎嗅了解到,“情感大模型”與傳統(tǒng)大語言模型在參數(shù)量和算力上有差異,業(yè)內(nèi)普遍做法是有更多NLP專家參與,采用通用加分散專家模式,相比傳統(tǒng)模型在算力上有所節(jié)省,但對(duì)特殊數(shù)據(jù)要求高。
與之對(duì)應(yīng),情感模型領(lǐng)域多采用端到端形式,不能像正常架構(gòu)那樣轉(zhuǎn)換數(shù)據(jù),否則模型效果差——有鑒于此,為保證長(zhǎng)時(shí)間生成領(lǐng)域效果,訓(xùn)練時(shí)所需算力比通用版本高30%-50%。
一位大模型創(chuàng)業(yè)者向虎嗅分析,“現(xiàn)階段,國(guó)內(nèi)外‘情感大模型’發(fā)展存在一定差距,國(guó)內(nèi)大概比國(guó)外晚一年左右;也可以將‘情感大模型’視作通用大模型發(fā)展的一個(gè)節(jié)點(diǎn),涉及到多模態(tài)多端學(xué)習(xí)和MoE架構(gòu)(即混合專家模型,是一種新型的大模型架構(gòu),其核心思想是“術(shù)業(yè)有專攻”,通過多個(gè)“專家”模型共同協(xié)作來處理復(fù)雜的任務(wù)),國(guó)內(nèi)在相關(guān)技術(shù)研究上已取得一定進(jìn)展?!?/p>
聚焦到產(chǎn)品,開源證券研報(bào)指出,GPT-4o等多模態(tài)大模型正加速推進(jìn)AI情感陪伴大模型落地,提供實(shí)用性Agent功能。
比如,國(guó)外Miko公司推出第一代AI伴侶,初步實(shí)現(xiàn)AI與IP聯(lián)動(dòng);Curio于2023年12月推出針對(duì)3-12歲兒童的AI玩具,包括Gabbo、Grem和Grok三款產(chǎn)品。
至于國(guó)內(nèi),F(xiàn)oloToy聯(lián)合火山引擎推出“顯眼包”,躍然創(chuàng)新持續(xù)迭代BubblePal(截至2024年10月已銷售數(shù)萬臺(tái));Looi推出可移動(dòng)手機(jī)支架形態(tài)的桌面機(jī)器人,具有調(diào)整情感反應(yīng)和性格特征等功能;CASIO推出AI寵物機(jī)器人Moflin,提供情感治愈價(jià)值。
字節(jié)埋“伏筆”
面對(duì)這樣的市場(chǎng)與技術(shù)趨勢(shì),字節(jié)跳動(dòng)如何布局?
虎嗅了解到,字節(jié)跳動(dòng)計(jì)劃通過不同垂類大模型帶動(dòng)豆包月活在2025年實(shí)現(xiàn)翻倍。
與之匹配的動(dòng)作包括:一方面,字節(jié)會(huì)圍繞抖音等C端體系推進(jìn)娛樂、社交、陪伴、游戲場(chǎng)景滲透;另一方面,字節(jié)跳動(dòng)會(huì)進(jìn)一步提升火山引擎在ToB領(lǐng)域的輸出能力,為企業(yè)提供API調(diào)用、AI對(duì)話解決方案等服務(wù),例如,為客服、銷售、售后等崗位提供個(gè)性化服務(wù),還能與智能家居、音箱、耳機(jī)(比如OlaFriend智能體耳機(jī)主打賣點(diǎn)就是接入豆包AI大模型)等硬件結(jié)合,未來能在唱歌、作曲等領(lǐng)域有更好的發(fā)展。
一個(gè)有趣的切面是,“情感大模型”在語音層面學(xué)習(xí)時(shí),會(huì)將語音、語調(diào)、面部關(guān)鍵點(diǎn)參數(shù)(如唇形等面部landmark參數(shù))以及對(duì)應(yīng)的文字以數(shù)據(jù)對(duì)形式放入模型,在語速、語調(diào)、視覺等多模態(tài)之間建立統(tǒng)一關(guān)聯(lián)——這不僅涉及用戶表達(dá)、短語分析,更深層次還需理解用戶真實(shí)感受,敏銳地捕捉到用戶內(nèi)心愉悅、生氣、擔(dān)憂等情感狀態(tài)。
比如,HumeAI在2024年發(fā)布的EVI能夠從用戶那里檢測(cè)到約53種不同的情緒,宣稱是“第一個(gè)具有情商的對(duì)話式人工智能”。
對(duì)此,HumeAI首席執(zhí)行官艾倫·考恩(AlanCowen)表示,“情商包括從行為中推斷意圖和偏好的能力——這是人工智能界面試圖實(shí)現(xiàn)的核心:推斷用戶想要什么并執(zhí)行它。因此,從用戶真實(shí)需求層面來看,情商是人工智能界面最重要的要求?!?/p>
有鑒于此,“情感大模型”能大幅提高用戶體驗(yàn)與交互效果,適用于助手類效率提升產(chǎn)品,在信息檢索、陪伴、知識(shí)協(xié)作、AI玩具、社交游戲等領(lǐng)域有顯著優(yōu)勢(shì)——更隱秘的躁動(dòng)則涌向了AI情趣機(jī)器人,一度帶動(dòng)二級(jí)市場(chǎng)產(chǎn)業(yè)上下游關(guān)聯(lián)企業(yè)股價(jià)攀升。
有從業(yè)者告訴虎嗅,通用大模型未來會(huì)融合各種細(xì)分模型,如“情感大模型”、文生視頻大模型、圖生視頻大模型等,從而變得更加全面、強(qiáng)大;至于大模型下一階段進(jìn)化方向,行業(yè)資深從業(yè)者的共識(shí)是世界模型(媲美人腦,通過學(xué)習(xí)現(xiàn)實(shí)世界中的物理和因果規(guī)律,具備“物理直覺”,可在內(nèi)部模擬環(huán)境變化,并基于當(dāng)前環(huán)境狀態(tài)推演未來狀態(tài),同時(shí)評(píng)估自身行為后果)。
至于市場(chǎng)潛力,“情感大模型”熱浪或?qū)⑼苿?dòng)消費(fèi)類機(jī)器人加速升級(jí)——群智咨詢顯示2024年全球機(jī)器人出貨規(guī)模約4700萬臺(tái),未來5年復(fù)合增長(zhǎng)率超20%,消費(fèi)類機(jī)器人占比約81%;高盛預(yù)測(cè)2035年全球人形機(jī)器人市場(chǎng)規(guī)模達(dá)1540億美元。
當(dāng)然,“情感大模型”現(xiàn)階段仍面臨諸多問題,如算力消耗非線性增長(zhǎng)、模型長(zhǎng)效記憶能力、數(shù)據(jù)收集與隱私安全等,這些既是大廠跑馬圈地過程中的阻礙,也能成為業(yè)務(wù)突破后的技術(shù)護(hù)城河。
小說:異世界偽裝游戲騙玩家,陸期期卻反套路稱帝!
2020年最想推薦的10本網(wǎng)文??中國(guó)青年報(bào)
小說:異世界偽裝游戲騙玩家,陸期期卻反套路建國(guó)稱王