西風(fēng)發(fā)自凹非寺量子位|公眾號(hào)QbitAI
WAIC現(xiàn)場(chǎng),這個(gè)展臺(tái)被觀眾擠爆了!
湊近一瞧,好家伙,展臺(tái)里擺滿了各式新奇的“AI玩具”,它們有個(gè)共同點(diǎn)——
全都能實(shí)時(shí)與玩家流暢對(duì)話,延遲極低
比如這款“AI毛球”,活脫脫一個(gè)電子寵物,不僅能實(shí)時(shí)理解你的話語(yǔ),還能默默陪伴左右,提供滿滿的情緒價(jià)值:
視頻鏈接:https://mp.weixin.qq.com/s/hjGitmrcspKgXYxVCQKOqQ
此外,現(xiàn)場(chǎng)還有數(shù)字人全息倉(cāng)、能對(duì)話的卡皮巴拉等,賺足了觀眾眼球:
其實(shí)它們有個(gè)共同的“幕后推手”,這些產(chǎn)品的實(shí)時(shí)對(duì)話能力,全都依托于聲網(wǎng)的對(duì)話式AI引擎
更值得一提的是,聲網(wǎng)剛宣布,他們的對(duì)話式AI引擎已完成全新升級(jí)
新增選擇性注意力鎖定功能,讓它在嘈雜會(huì)場(chǎng)也能精準(zhǔn)捕捉你的聲音,實(shí)現(xiàn)“只聽你說(shuō)”;同時(shí)新增視覺(jué)理解能力;還能與主流數(shù)字人方案無(wú)縫集成
一句話概括,新版對(duì)話式AI引擎,變得更“耳聰目明”了。
要知道,聲網(wǎng)是做RTE(RealTimeEngagement,實(shí)時(shí)互動(dòng))技術(shù)起家的,在音視頻處理和實(shí)時(shí)通信領(lǐng)域深耕多年,現(xiàn)在轉(zhuǎn)身做多模態(tài)AI交互,屬實(shí)是“專業(yè)對(duì)口”,一出手就有狠活。
這次對(duì)話式AI引擎升級(jí)背后到底帶來(lái)了哪些AI交互新體驗(yàn)?接下來(lái)就為你詳細(xì)揭秘。
三大升級(jí),AI聽得準(zhǔn)看得清
量子位拿到demoapp,直接體驗(yàn)了這波升級(jí)。支持事先調(diào)整預(yù)設(shè)
聽力開掛:嘈雜環(huán)境里只聽你的話
使用對(duì)話式AI第一步,自然是考驗(yàn)它能否從各種干擾中準(zhǔn)確識(shí)別出用戶的指令,這直接決定了AI對(duì)話體驗(yàn)的好壞。
聲網(wǎng)新版對(duì)話式AI引擎的第一個(gè)殺手锏,就是選擇性注意力鎖定功能。
剛開始對(duì)話時(shí)屏幕上就會(huì)提醒用戶“在對(duì)話初期大聲、清晰地說(shuō)話”,由此它就會(huì)將你的聲音鎖定
在后續(xù)對(duì)話中面對(duì)環(huán)境人聲和噪聲干擾,它能夠根據(jù)鎖定用戶的聲紋特征精準(zhǔn)識(shí)別,屏蔽95%的干擾。即使在復(fù)雜的聲音環(huán)境中,它也能準(zhǔn)確捕捉到你的每一個(gè)指令。
來(lái)看實(shí)測(cè)對(duì)比,當(dāng)用戶在對(duì)話初期沒(méi)有大聲清晰地說(shuō)話,導(dǎo)致聲音未被鎖定時(shí),AI常會(huì)受到周圍的環(huán)境人聲、電視聲、音樂(lè)聲干擾,出現(xiàn)誤識(shí)別或響應(yīng)延遲的情況。
(PS:我們同時(shí)播放電視劇、歌曲、短視頻作為干擾。)
視頻鏈接:https://mp.weixin.qq.com/s/hjGitmrcspKgXYxVCQKOqQ
而開啟選擇性注意力鎖定后,即使旁邊有其他人在交談或音頻播放,AI依然能夠精準(zhǔn)鎖定目標(biāo)用戶的聲音。
視頻鏈接:https://mp.weixin.qq.com/s/hjGitmrcspKgXYxVCQKOqQ
詢問(wèn)旅游規(guī)劃等需要它長(zhǎng)時(shí)間回答的問(wèn)題,它也不會(huì)因?yàn)榄h(huán)境干擾音而終止或是暫停對(duì)話:
視頻鏈接:https://mp.weixin.qq.com/s/hjGitmrcspKgXYxVCQKOqQ
視覺(jué)理解,實(shí)時(shí)看圖識(shí)物
如果說(shuō)聲音識(shí)別是AI的“耳朵”,那么視覺(jué)理解就是AI的“眼睛”。而最新版引擎為AI也實(shí)現(xiàn)了這樣的能力,可以實(shí)時(shí)看圖識(shí)物
就像和真人打電話一樣,打開攝像頭即可使用:
我們向它展示了一張房間平面草圖,它不僅能夠正確識(shí)別出這是什么,還能準(zhǔn)確指出設(shè)計(jì)中的結(jié)構(gòu)特點(diǎn),額外提出了一些注意事項(xiàng)。
視頻鏈接:https://mp.weixin.qq.com/s/hjGitmrcspKgXYxVCQKOqQ
當(dāng)我們展示一張技術(shù)報(bào)告中的圖表時(shí),它同樣能夠理解其中邏輯,并用自然語(yǔ)言解釋。
視頻鏈接:https://mp.weixin.qq.com/s/hjGitmrcspKgXYxVCQKOqQ
測(cè)試中我們還發(fā)現(xiàn),聲網(wǎng)新版對(duì)話式AI引擎具有很強(qiáng)的上下文感知能力,當(dāng)我們連續(xù)提問(wèn)幾個(gè)問(wèn)題后,它能夠理解問(wèn)題之間的關(guān)聯(lián)性,并給出連貫的分析。
數(shù)字人支持,對(duì)話更有“人情味”
第三個(gè)重要升級(jí)是數(shù)字人功能。
據(jù)介紹,新版引擎支持與主流數(shù)字人方案的無(wú)縫集成,包括商湯數(shù)字人等業(yè)界領(lǐng)先方案。
在預(yù)設(shè)中即可挑選配置:
在與數(shù)字人的對(duì)話中,它不僅能夠準(zhǔn)確響應(yīng)語(yǔ)音指令,還能通過(guò)面部表情和肢體語(yǔ)言傳達(dá)更豐富的信息
當(dāng)我們?cè)儐?wèn)復(fù)雜問(wèn)題時(shí),數(shù)字人會(huì)露出思考的表情;在解釋概念時(shí),還會(huì)配合手勢(shì)動(dòng)作,整個(gè)交互過(guò)程自然流暢。
例如詢問(wèn)“出門露營(yíng)要帶些什么東西?有什么注意事項(xiàng)?”數(shù)字人立馬繪聲繪色講解:
視頻鏈接:https://mp.weixin.qq.com/s/hjGitmrcspKgXYxVCQKOqQ
這種情感同步讓人機(jī)交互體驗(yàn)更加自然真實(shí)。
總之,聲網(wǎng)此次對(duì)其對(duì)話式AI引擎的升級(jí),通過(guò)融合多模態(tài)打造了更加沉浸式的AI實(shí)時(shí)交互體驗(yàn),而這也正是其技術(shù)實(shí)力的集中展現(xiàn)。
接下來(lái)劃重點(diǎn):這種能力可輕松接入DeepSeek等任意大模型。只要與OpenAI接口協(xié)議兼容,就能原生支持,且接入僅需兩行代碼
并且價(jià)格更是低至每分鐘0.098元,還不到一毛錢。
這么多眼熟的應(yīng)用,背后竟都有它
實(shí)際上,聲網(wǎng)首版對(duì)話式AI引擎早在今年3月份就上線了,憑借效果優(yōu)、開發(fā)接入極簡(jiǎn)、靈活性強(qiáng),已在各行各業(yè)落地。
你可能都沒(méi)發(fā)現(xiàn),我們?nèi)粘J熘牟簧貯I應(yīng)用,背后都有它
在教育領(lǐng)域,豆神AI近期宣布將推出AI超擬人多對(duì)一直播課,課程采用真人教師與AI教師“雙師”協(xié)作體系,實(shí)現(xiàn)千人千面的定制化訓(xùn)練與輔導(dǎo),精準(zhǔn)契合不同學(xué)生的學(xué)習(xí)需求。
在聲網(wǎng)對(duì)話式AI引擎的加持下,AI教師能夠在AI實(shí)時(shí)訓(xùn)練體系、課堂答疑、情境創(chuàng)設(shè)、AI實(shí)時(shí)判卷等環(huán)節(jié)中,全程與學(xué)生展開低延時(shí)、自然流暢的對(duì)話交互。
聲網(wǎng)技術(shù)支撐不僅保障了AI語(yǔ)音交互的實(shí)時(shí)性和穩(wěn)定性,更讓學(xué)生在與AI教師的互動(dòng)中獲得如真人般自然的學(xué)習(xí)體驗(yàn)。
智能硬件領(lǐng)域,更是令人眼前一亮。
我們前面所展示“AI毛球”是Robopoet珞博智能所打造的首款A(yù)I情感陪伴產(chǎn)品“芙崽Fuzozo”。
傳統(tǒng)陪伴機(jī)器人常給人冷冰冰的機(jī)械感,難以讓用戶產(chǎn)生情感聯(lián)結(jié)。而芙崽不同,用戶每日互動(dòng)中可與芙崽積累親密度,由此孕育出的每只芙崽都擁有獨(dú)特性格,與用戶形成獨(dú)一無(wú)二的專屬情感羈絆。
通過(guò)與聲網(wǎng)的合作,芙崽AI交互的實(shí)時(shí)性和穩(wěn)定性得到大幅優(yōu)化。與此同時(shí),聲網(wǎng)的端到端解決方案,也從軟硬件全方位為珞博智能提供支持。
同樣令人印象深刻的,還有Enabot(賦之科技)的智能家庭陪伴機(jī)器人EBOAir2Plus
Enabot與聲網(wǎng)合作,依托聲網(wǎng)的對(duì)話式AI引擎技術(shù),EBO能精準(zhǔn)識(shí)別用戶的打斷意圖,即便周圍環(huán)境嘈雜,也能鎖定對(duì)話人聲,確保識(shí)別準(zhǔn)確;同時(shí),借助聲網(wǎng)高質(zhì)量的實(shí)時(shí)音視頻服務(wù),它還支持雙向視頻通話,用戶無(wú)論身處全球何地,都能與家人實(shí)現(xiàn)零距離視頻交流。
除此之外,無(wú)論是MiniMaxChat星野的語(yǔ)音對(duì)話功能,還是智譜清言的視頻通話功能商湯商量的實(shí)時(shí)音視頻交互,背后統(tǒng)統(tǒng)都有聲網(wǎng)的技術(shù)支撐。
從娛樂(lè)聊天到知識(shí)問(wèn)答,聲網(wǎng)的技術(shù)方案已覆蓋廣泛場(chǎng)景。
這些成功應(yīng)用案例不僅證明了聲網(wǎng)對(duì)話式AI引擎在不同場(chǎng)景下的適應(yīng)性和實(shí)用性,驗(yàn)證了其技術(shù)的可靠性,也為更多企業(yè)提供了可借鑒的落地經(jīng)驗(yàn)。
那么為何大家都選擇了聲網(wǎng)?大概是源于聲網(wǎng)多年的RTE基因。
用RTE基因重塑AI交互體驗(yàn)
近期國(guó)內(nèi)外AI廠商持續(xù)加大多模態(tài)領(lǐng)域的投入,融合視覺(jué)、語(yǔ)音等能力的AI應(yīng)用不斷涌現(xiàn),再加上WAIC現(xiàn)場(chǎng)的種種跡象,一個(gè)趨勢(shì)非常之明顯:
單一模態(tài)的AI交互正在成為歷史,多模態(tài)AI交互已是明確的未來(lái)方向。
用戶不再滿足于只能“聽”或只能“說(shuō)”的AI,更期待的是能夠像人類一樣,通過(guò)視覺(jué)、聽覺(jué)等多種感官實(shí)時(shí)理解世界的智能體。
作為實(shí)時(shí)互動(dòng)技術(shù)領(lǐng)域的領(lǐng)軍企業(yè),聲網(wǎng)在多模態(tài)AI交互方面天然具有技術(shù)優(yōu)勢(shì)。多年來(lái)在RTE領(lǐng)域的深耕,為其積累了豐富的音視頻處理、低延遲傳輸、多媒體融合等核心技術(shù)能力。
更關(guān)鍵的是,聲網(wǎng)做多模態(tài)AI交互不是技術(shù)的簡(jiǎn)單疊加,而是始終致力于提升對(duì)話式AI的交互體驗(yàn)。每一個(gè)功能升級(jí)背后,都指向同一個(gè)目標(biāo):
讓AI對(duì)話更具真實(shí)感和自然感
無(wú)論是選擇性注意力鎖定帶來(lái)的精準(zhǔn)語(yǔ)音識(shí)別,還是視覺(jué)理解賦予AI的觀察能力,抑或是數(shù)字人支持創(chuàng)造的情感化交互,這些功能都解決了用戶在實(shí)際使用中遇到的真實(shí)痛點(diǎn)。
這種以用戶體驗(yàn)為核心的產(chǎn)品思路,可能比單純追求技術(shù)指標(biāo)更能決定產(chǎn)品的市場(chǎng)競(jìng)爭(zhēng)力。
可以預(yù)見,隨著多模態(tài)AI應(yīng)用的普及,那些能夠提供低延遲、高穩(wěn)定性、自然交互體驗(yàn)的技術(shù)平臺(tái),將在下一輪競(jìng)爭(zhēng)中占據(jù)更加有利的位置。
四本類型各異,劇情流暢自然的佳作:入目無(wú)別人,四下皆是你
《大明最后一個(gè)狠人》,作者:大明第一帥點(diǎn)評(píng):主角穿越成為明朝最后一個(gè)太子身上怎么辦?滅流寇,斬貪官,開海禁,揚(yáng)國(guó)威——_。作者很有自己的風(fēng)格,雖然是歷史架空的背景下,在戰(zhàn)爭(zhēng)的描寫很有畫面感,給人一種看爽文的感覺(jué),主角更是一個(gè)“狠”字貫穿了一生。《網(wǎng)游之全民領(lǐng)主》,作者:大漢護(hù)衛(wèi)點(diǎn)評(píng):種田+爭(zhēng)霸+游戲,同樣是最近比