陳左琴
作者:周源/華爾街見聞
在2025世界人工智能大會暨人工智能全球治理高級別會議(WAIC2025)展覽現(xiàn)場,社交平臺SoulApp展示了其自研的全雙工通話大模型。
該模型即將在Soul平臺開啟內(nèi)測,后續(xù)計劃應用于虛擬人實時通話、AI匹配等1V1及多對多互動場景,是社交領域的一項新探索。
就眼下Soul的“虛擬人”應對用戶互動場景的表現(xiàn)來看,已深具“真實感”,但這種互動目前僅限于文字形式。
此次推出自研全雙工通話大模型,若能實現(xiàn)實時通話,則其智能性確然會有更大提升。
調整傳統(tǒng)交互模式
傳統(tǒng)語音交互長期依賴VAD(話音活性檢測)機制與延遲控制邏輯,形成輪次對話模式。
這種模式的人機對話,呈現(xiàn)一問一答刻板節(jié)奏:用戶發(fā)言結束后,AI才開始響應,中間存在明顯延遲,影響了交互的自然性。
在很多時候,用戶發(fā)言過程中會出現(xiàn)短暫停頓,這可能被系統(tǒng)誤判為發(fā)言結束,導致AI過早介入,打斷用戶思路,交流顯得過于生硬。
Soul自研的端到端全雙工語音通話大模型,對這一傳統(tǒng)模式做了調整:不再采用VAD機制,嘗試通過算法讓AI自主把控對話節(jié)奏。
在實際交互中,AI可實時監(jiān)測對話動態(tài),有能力做出主動打破沉默、適時打斷用戶、邊聽邊說等操作。
比如,用戶講述事情時稍作停頓思考,AI能察覺并非發(fā)言結束,補充引導性話語推動話題;在多人交流場景中,AI能判斷發(fā)言時機加入討論,與用戶發(fā)言相互交織,使對話更流暢,接近人與人面對面交流的狀態(tài)。
在理論上,這種交互模式使AI從被動的回應者轉變?yōu)橹鲃拥膮⑴c者,在一定程度上能提升人機對話的自然度。
為讓AI在交互中更接近“真人”,Soul的全雙工通話大模型構建了多維度感知體系,包括時間感知、環(huán)境感知、事件感知等。通過分析這些維度的信息,AI試圖更好地理解用戶意圖和情感狀態(tài),給出貼合情境的回應。
從時間感知來看,AI會依據(jù)對話時間調整語言風格和話題。清晨可能以“早上好,新的一天有什么安排嗎?”開啟對話;深夜用戶傾訴煩惱時,回應會更溫柔,給予情感支持。
在環(huán)境感知上,模型能識別用戶所處環(huán)境,嘈雜時適當提高音量保證清晰,安靜時聲音則更輕柔。
在事件感知方面,AI能結合討論的事件給出針對性觀點。用戶分享工作中完成重要項目時,AI會表示祝賀并詢問細節(jié),增加對話的真實感。
此外,模型在口語化表達和音色復刻上做了優(yōu)化:能模擬語氣詞、結巴、情緒起伏等日常口語特征,還可根據(jù)用戶需求復刻特定音色。
還有情緒表達,AI的聲音情緒會隨對話推進變化,用戶分享喜悅時語調上揚,用戶情緒低落時聲音低沉關切。
這些處理在一定程度上提升了AI交互的真實感,但距離完全模擬真人還有差距,仍有較大的提升空間。
事實上,在該大模型推出前,Soul虛擬人在1V1或在響應用戶評論時的互動中,其表現(xiàn)也有較高的自然性和智能性。若Soul沒有標注“虛擬人”標簽,其應對內(nèi)容已具有高度的“真人”感。
AI推升電子社交真實性
全雙工通話大模型在Soul平臺的多個應用場景中得以應用,在1V1和多對多互動場景中,會對用戶的社交體驗產(chǎn)生影響。
在虛擬人實時通話場景中,該模型有望讓虛擬人與用戶的交流更自然。
以往虛擬人對話較刻板,有了這一模型后,虛擬人可實時捕捉用戶情緒和話語變化,調整回應方式和語氣,提供更個性化的陪伴服務,使用戶感受到更真實的情感反饋。
在AI匹配的1V1互動場景中,模型發(fā)揮了怎樣的作用?比如能通過算法幫助用戶篩選契合的聊天對象,提高社交匹配效率。
在交流過程中,模型分析雙方對話內(nèi)容和情緒,適時提供話題建議或引導:當匹配雙方初次交流出現(xiàn)冷場,AI會拋出與雙方興趣相關的話題,如“聽說你們都喜歡攝影,最近有拍到滿意的作品嗎?”打破僵局,讓交流更順暢。
在多人語音互動場景如群聊派對中,AI主持人具備相應功能:用戶進入群聊派對后,AI主持人能管理群聊秩序,控制發(fā)言順序、提醒文明交流,還能與用戶語音互動。
當群內(nèi)氣氛沉悶時,發(fā)起如“大家最近有看什么好電影,分享一下吧?”的話題,吸引用戶參與;新成員加入時,熱情打招呼并引導相互認識,幫助新成員融入,在一定程度上可能提升群聊派對的參與度。
Soul全雙工通話大模型的出現(xiàn),為自身平臺發(fā)展帶來了新的方向,也為AI社交行業(yè)提供了參考案例。
這個模型展示了AI技術在社交領域的一種應用可能:即通過技術創(chuàng)新突破傳統(tǒng)交互限制,實現(xiàn)更自然的社交體驗。
隨著該技術的推廣應用,其他社交平臺可能會增加AI技術研發(fā)投入,探索將AI技術融入社交場景,推動行業(yè)技術發(fā)展。比如提升對話流暢性,或在多維度感知方面深入研究,增強社交體驗的沉浸感。
Soul的實踐會吸引更多開發(fā)者關注AI社交領域,促使新的社交應用和服務出現(xiàn)。AI社交的發(fā)展會影響人們的社交方式和觀念,打破地域、時間限制,讓人們更便捷地結識不同地區(qū)的朋友,拓展社交圈。
隨著AI在社交中作用漸顯,人們對“社交”的定義可能發(fā)生變化,更注重與AI及其他用戶的情感共鳴和信息交流。
Soul全雙工通話大模型即將內(nèi)測并應用,是AI社交領域的一次新嘗試:憑借新的技術架構和應用場景,為用戶帶來新的社交體驗,為行業(yè)發(fā)展提供思路。
來源:紅網(wǎng)
作者:暴嬌
編輯:黃婉誠
本文為紅辣椒評論 原創(chuàng)文章,僅系作者個人觀點,不代表紅網(wǎng)立場。轉載請附原文出處鏈接和本聲明。