西風發(fā)自凹非寺量子位|公眾號QbitAI
WAIC現場,這個展臺被觀眾擠爆了!
湊近一瞧,好家伙,展臺里擺滿了各式新奇的“AI玩具”,它們有個共同點——
全都能實時與玩家流暢對話,延遲極低
比如這款“AI毛球”,活脫脫一個電子寵物,不僅能實時理解你的話語,還能默默陪伴左右,提供滿滿的情緒價值:
視頻鏈接:https://mp.weixin.qq.com/s/hjGitmrcspKgXYxVCQKOqQ
此外,現場還有數字人全息倉、能對話的卡皮巴拉等,賺足了觀眾眼球:
其實它們有個共同的“幕后推手”,這些產品的實時對話能力,全都依托于聲網的對話式AI引擎
更值得一提的是,聲網剛宣布,他們的對話式AI引擎已完成全新升級
新增選擇性注意力鎖定功能,讓它在嘈雜會場也能精準捕捉你的聲音,實現“只聽你說”;同時新增視覺理解能力;還能與主流數字人方案無縫集成
一句話概括,新版對話式AI引擎,變得更“耳聰目明”了。
要知道,聲網是做RTE(RealTimeEngagement,實時互動)技術起家的,在音視頻處理和實時通信領域深耕多年,現在轉身做多模態(tài)AI交互,屬實是“專業(yè)對口”,一出手就有狠活。
這次對話式AI引擎升級背后到底帶來了哪些AI交互新體驗?接下來就為你詳細揭秘。
三大升級,AI聽得準看得清
量子位拿到demoapp,直接體驗了這波升級。支持事先調整預設
聽力開掛:嘈雜環(huán)境里只聽你的話
使用對話式AI第一步,自然是考驗它能否從各種干擾中準確識別出用戶的指令,這直接決定了AI對話體驗的好壞。
聲網新版對話式AI引擎的第一個殺手锏,就是選擇性注意力鎖定功能。
剛開始對話時屏幕上就會提醒用戶“在對話初期大聲、清晰地說話”,由此它就會將你的聲音鎖定
在后續(xù)對話中面對環(huán)境人聲和噪聲干擾,它能夠根據鎖定用戶的聲紋特征精準識別,屏蔽95%的干擾。即使在復雜的聲音環(huán)境中,它也能準確捕捉到你的每一個指令。
來看實測對比,當用戶在對話初期沒有大聲清晰地說話,導致聲音未被鎖定時,AI常會受到周圍的環(huán)境人聲、電視聲、音樂聲干擾,出現誤識別或響應延遲的情況。
(PS:我們同時播放電視劇、歌曲、短視頻作為干擾。)
視頻鏈接:https://mp.weixin.qq.com/s/hjGitmrcspKgXYxVCQKOqQ
而開啟選擇性注意力鎖定后,即使旁邊有其他人在交談或音頻播放,AI依然能夠精準鎖定目標用戶的聲音。
視頻鏈接:https://mp.weixin.qq.com/s/hjGitmrcspKgXYxVCQKOqQ
詢問旅游規(guī)劃等需要它長時間回答的問題,它也不會因為環(huán)境干擾音而終止或是暫停對話:
視頻鏈接:https://mp.weixin.qq.com/s/hjGitmrcspKgXYxVCQKOqQ
視覺理解,實時看圖識物
如果說聲音識別是AI的“耳朵”,那么視覺理解就是AI的“眼睛”。而最新版引擎為AI也實現了這樣的能力,可以實時看圖識物
就像和真人打電話一樣,打開攝像頭即可使用:
我們向它展示了一張房間平面草圖,它不僅能夠正確識別出這是什么,還能準確指出設計中的結構特點,額外提出了一些注意事項。
視頻鏈接:https://mp.weixin.qq.com/s/hjGitmrcspKgXYxVCQKOqQ
當我們展示一張技術報告中的圖表時,它同樣能夠理解其中邏輯,并用自然語言解釋。
視頻鏈接:https://mp.weixin.qq.com/s/hjGitmrcspKgXYxVCQKOqQ
測試中我們還發(fā)現,聲網新版對話式AI引擎具有很強的上下文感知能力,當我們連續(xù)提問幾個問題后,它能夠理解問題之間的關聯性,并給出連貫的分析。
數字人支持,對話更有“人情味”
第三個重要升級是數字人功能。
據介紹,新版引擎支持與主流數字人方案的無縫集成,包括商湯數字人等業(yè)界領先方案。
在預設中即可挑選配置:
在與數字人的對話中,它不僅能夠準確響應語音指令,還能通過面部表情和肢體語言傳達更豐富的信息
當我們詢問復雜問題時,數字人會露出思考的表情;在解釋概念時,還會配合手勢動作,整個交互過程自然流暢。
例如詢問“出門露營要帶些什么東西?有什么注意事項?”數字人立馬繪聲繪色講解:
視頻鏈接:https://mp.weixin.qq.com/s/hjGitmrcspKgXYxVCQKOqQ
這種情感同步讓人機交互體驗更加自然真實。
總之,聲網此次對其對話式AI引擎的升級,通過融合多模態(tài)打造了更加沉浸式的AI實時交互體驗,而這也正是其技術實力的集中展現。
接下來劃重點:這種能力可輕松接入DeepSeek等任意大模型。只要與OpenAI接口協議兼容,就能原生支持,且接入僅需兩行代碼
并且價格更是低至每分鐘0.098元,還不到一毛錢。
這么多眼熟的應用,背后竟都有它
實際上,聲網首版對話式AI引擎早在今年3月份就上線了,憑借效果優(yōu)、開發(fā)接入極簡、靈活性強,已在各行各業(yè)落地。
你可能都沒發(fā)現,我們日常熟知的不少AI應用,背后都有它
在教育領域,豆神AI近期宣布將推出AI超擬人多對一直播課,課程采用真人教師與AI教師“雙師”協作體系,實現千人千面的定制化訓練與輔導,精準契合不同學生的學習需求。
在聲網對話式AI引擎的加持下,AI教師能夠在AI實時訓練體系、課堂答疑、情境創(chuàng)設、AI實時判卷等環(huán)節(jié)中,全程與學生展開低延時、自然流暢的對話交互。
聲網技術支撐不僅保障了AI語音交互的實時性和穩(wěn)定性,更讓學生在與AI教師的互動中獲得如真人般自然的學習體驗。
智能硬件領域,更是令人眼前一亮。
我們前面所展示“AI毛球”是Robopoet珞博智能所打造的首款AI情感陪伴產品“芙崽Fuzozo”。
傳統(tǒng)陪伴機器人常給人冷冰冰的機械感,難以讓用戶產生情感聯結。而芙崽不同,用戶每日互動中可與芙崽積累親密度,由此孕育出的每只芙崽都擁有獨特性格,與用戶形成獨一無二的專屬情感羈絆。
通過與聲網的合作,芙崽AI交互的實時性和穩(wěn)定性得到大幅優(yōu)化。與此同時,聲網的端到端解決方案,也從軟硬件全方位為珞博智能提供支持。
同樣令人印象深刻的,還有Enabot(賦之科技)的智能家庭陪伴機器人EBOAir2Plus
Enabot與聲網合作,依托聲網的對話式AI引擎技術,EBO能精準識別用戶的打斷意圖,即便周圍環(huán)境嘈雜,也能鎖定對話人聲,確保識別準確;同時,借助聲網高質量的實時音視頻服務,它還支持雙向視頻通話,用戶無論身處全球何地,都能與家人實現零距離視頻交流。
除此之外,無論是MiniMaxChat星野的語音對話功能,還是智譜清言的視頻通話功能商湯商量的實時音視頻交互,背后統(tǒng)統(tǒng)都有聲網的技術支撐。
從娛樂聊天到知識問答,聲網的技術方案已覆蓋廣泛場景。
這些成功應用案例不僅證明了聲網對話式AI引擎在不同場景下的適應性和實用性,驗證了其技術的可靠性,也為更多企業(yè)提供了可借鑒的落地經驗。
那么為何大家都選擇了聲網?大概是源于聲網多年的RTE基因。
用RTE基因重塑AI交互體驗
近期國內外AI廠商持續(xù)加大多模態(tài)領域的投入,融合視覺、語音等能力的AI應用不斷涌現,再加上WAIC現場的種種跡象,一個趨勢非常之明顯:
單一模態(tài)的AI交互正在成為歷史,多模態(tài)AI交互已是明確的未來方向。
用戶不再滿足于只能“聽”或只能“說”的AI,更期待的是能夠像人類一樣,通過視覺、聽覺等多種感官實時理解世界的智能體。
作為實時互動技術領域的領軍企業(yè),聲網在多模態(tài)AI交互方面天然具有技術優(yōu)勢。多年來在RTE領域的深耕,為其積累了豐富的音視頻處理、低延遲傳輸、多媒體融合等核心技術能力。
更關鍵的是,聲網做多模態(tài)AI交互不是技術的簡單疊加,而是始終致力于提升對話式AI的交互體驗。每一個功能升級背后,都指向同一個目標:
讓AI對話更具真實感和自然感
無論是選擇性注意力鎖定帶來的精準語音識別,還是視覺理解賦予AI的觀察能力,抑或是數字人支持創(chuàng)造的情感化交互,這些功能都解決了用戶在實際使用中遇到的真實痛點。
這種以用戶體驗為核心的產品思路,可能比單純追求技術指標更能決定產品的市場競爭力。
可以預見,隨著多模態(tài)AI應用的普及,那些能夠提供低延遲、高穩(wěn)定性、自然交互體驗的技術平臺,將在下一輪競爭中占據更加有利的位置。
軍校聯賽的崛起:霍含馥的植物機甲之路
「星際文-星際第一」星際第一系列文合集66本
11本已完結星際文明類科幻小說,無垠星空,文明光輝,流浪與冒險