過去半年,「AI語音」賽道正密集地獲得融資。尤其引人注目的是,這些融資多為大額,并且投向早期團(tuán)隊(duì)。
比如,前不久AI語音應(yīng)用WisprFlow靠「默念輸入」,完成了3000萬美元的A輪融資,累計(jì)融資額已達(dá)5600萬美元;語音模型公司Cartesia在3月份完成了6400萬美元的A輪融資,累計(jì)融資9100萬美元;AI語音合成公司ElevenLabs更是在1月份宣布完成1.8億美元的C輪融資,估值超過30億美元。
與此同時,無論是Meta、OpenAI、Google等科技巨頭,還是MiniMax等創(chuàng)業(yè)公司,都在密集發(fā)布自己的語音模型或語音產(chǎn)品。Siri也被曝出或?qū)⒈籆hatGPT或Claude等模型接管,來跟上語音交互的進(jìn)展。
這些消息無一例外都指向了AI語音的火爆。
為什么過去半年多以來,AI語音領(lǐng)域會如此集中地爆發(fā)?
聲智副總裁黃赟賀認(rèn)為,語音對話從一個App中的功能模塊,迅速進(jìn)化為AI時代入口級別的存在,與大模型的加持有極大關(guān)系。
在智能音箱紅極一時的年代,大部分我們熟知的智能音箱品牌都搭載了聲智的遠(yuǎn)場聲學(xué)交互技術(shù),比如小愛同學(xué)、天貓精靈、小度音箱等等。而「小愛小愛」的喚醒詞,實(shí)際上也是來自于聲智。
這家公司創(chuàng)辦于2016年,一直在聲學(xué)+AI交叉領(lǐng)域探索。然而,作為一家在幕后提供AI聲學(xué)技術(shù)的公司,在大模型浪潮來臨之后,果斷選擇下場投身開發(fā)自己的C端產(chǎn)品。毫無疑問,他們看到了這波「大模型+語音」浪潮里新的商業(yè)機(jī)會,其旗下的AI耳機(jī)目前出貨量已接近100萬套。
前不久,極客公園與聲智副總裁黃赟賀聊了聊AI語音市場的爆發(fā)邏輯、語音交互的「卡點(diǎn)」,以及它將如何影響我們的未來。
以下內(nèi)容根據(jù)黃赟賀的講述和聲智的論文整理而成:
AI語音為何現(xiàn)在爆發(fā)了?
最近兩年,越來越多的AI語音初創(chuàng)團(tuán)隊(duì)獲得大額融資,集中爆發(fā)。
其中,一個很重要的推動因素是,大模型讓聲音這項(xiàng)基礎(chǔ)能力首次實(shí)現(xiàn)了「可編程化」。
「可編程化」這個詞,意味著將一種能力或者一個對象,通過清晰的接口和邏輯,變得可以被代碼自由地調(diào)用、組合、修改和控制。過去,文字是可編程的,圖像是可編程的,甚至視頻也是可編程的(比如視頻編輯軟件)。
但聲音更多的是一種「輸入」或「輸出」的介質(zhì),其內(nèi)部的復(fù)雜結(jié)構(gòu)和信息,很難被軟件直接「編程」和「理解」。
傳統(tǒng)的語音識別,更多是把聲音轉(zhuǎn)換成文字,然后對文字進(jìn)行處理。
比如,之前在深圳、成都有很多做聲音標(biāo)注的團(tuán)隊(duì),拿到語音之后,再人工轉(zhuǎn)換成文字,打上不同的標(biāo)簽,比如各種特征、意向的標(biāo)簽。
大模型來了之后,打標(biāo)簽的這項(xiàng)工作可以交給大模型,它比大量的人工團(tuán)隊(duì)標(biāo)得快和準(zhǔn)。
以前做NLP的背后都是一堆苦逼的運(yùn)營在那里打標(biāo)簽,讓AI系統(tǒng)能夠識別每個句子的意向。過去,語音的開發(fā),每增加一個功能,都需要從頭寫代碼,費(fèi)時費(fèi)力。比如,想讓智能音箱支持「點(diǎn)外賣」,得單獨(dú)開發(fā)一套語音識別和語義邏輯,成本高、周期長。
而現(xiàn)在AI大模型可以解決了。
更重要的,依靠大模型對多模態(tài)數(shù)據(jù)的深度理解能力,對聲學(xué)信號的更細(xì)致解析,使得聲音本身攜帶的除了文字信息之外的更多信息,開始被AI系統(tǒng)直接捕捉、理解和「編程」。
這種可編程化,意味著AI可以像處理數(shù)據(jù)一樣處理聲音。它可以分析聲音的頻率、振幅、波形,提取出情緒特征、識別不同的聲源、聲源距離、甚至預(yù)測你的意圖。
這時,聲音包含的不再僅僅是「你說了什么」,更是「你如何說」、「你在哪里說」、「誰在說」以及「你說了之后希望發(fā)生什么」。
由此,聲音也成為了真正的交互引擎。
真正的語音交互,不是「Voice」而是「Sound」
其實(shí),很多人以為,語音交互就是「Voice」(語音)。但其實(shí)Voice這個詞是一個狹窄概念。真正的語音交互,核心不是「Voice」,而是「Sound」(聲音)。Sound里面包含了Voice。
具體來說,「Sound」包含了更豐富的元素:語調(diào)、音色、節(jié)奏、情緒,更重要的是環(huán)境音。環(huán)境音里面可能包含了環(huán)境中的各種非語音信息,比如背景音樂、環(huán)境噪音(風(fēng)聲、雨聲、車聲)、物體發(fā)出的聲音(開門聲、打字聲)、以及人類語音中包含的非語義信息(語調(diào)、語速、音色、語氣詞、嘆息聲、笑聲、哭聲等)。
比如說,你咳嗽的時候,跟AI說話,它可能會識別出咳嗽,然后跟你說多喝水;比如,你在咖啡館說,「幫我找個安靜的地方」,AI不僅要理解你的指令,還要從背景音中判斷出你當(dāng)前的環(huán)境嘈雜,從而推薦附近的圖書館。
當(dāng)我說「下一代對話交互的入口并非『Voice』,而是『Sound』」時,我指的是AI系統(tǒng)將不再僅僅依賴于識別你說的「詞」,而是能夠全面感知和理解你所處環(huán)境的「聲學(xué)場景」中的所有關(guān)鍵元素。
只有當(dāng)AI能夠全面感知并解析「Sound」中包含的這些多維度信息時,它才能真正理解用戶的深層需求,提供更精準(zhǔn)、更個性化、更富有情感的交互。這才是真正的「語音交互」,它不僅僅是「聽懂」字面意思,更是「聽懂」你的「言外之意」和「心聲」。
語音交互的「卡點(diǎn)」,大廠燒錢也沒用
盡管大模型帶來了語音交互的巨大飛躍,但語音交互當(dāng)下依然存在一個核心的「卡點(diǎn)」,而這個卡點(diǎn)根植于物理學(xué),具體來說,就是聲學(xué)。
我們常說「聽清、聽懂、會說」。「聽懂」和「會說」的能力,正在被大模型以前所未有的速度提升。但「聽清」這個最基礎(chǔ)的環(huán)節(jié),卻受到物理層面的制約。如果AI聽不清你的指令,即便它能「聽懂」再復(fù)雜的語義,能「會說」再動聽的話語,那也都是空中樓閣。
比如說當(dāng)下最熱門的具身智能,現(xiàn)在很多機(jī)器人都是電驅(qū)動的,那么它帶來幾個大問題,一方面是電路的噪聲本身就很大,另一方面是關(guān)節(jié)噪聲,還有就是很多機(jī)器人是金屬材質(zhì),厚厚的,聲音在穿透時會大幅衰減。
所以,機(jī)器人動起來的時候,噪聲很大,尤其在室外,更難聽清楚人的指令。要么大聲喊,或者拿麥克風(fēng)喊。因此,現(xiàn)在很多機(jī)器人都要靠遙控器來控制。
這方面,其實(shí)就需要對聲學(xué)層面的突破,比如說環(huán)境噪聲的抑制,比如電路底噪的抑制,還有嘯叫的抑制、混響回響的抑制等等。
而這些就是物理學(xué)科的邏輯,它需要數(shù)據(jù)樣本,需要knowhow的壁壘,不僅是技術(shù)問題,而是時間的問題,需要時間去采集聲音、做訓(xùn)練。
這不是燒錢能解決的。
讓AI準(zhǔn)確地「聽清」用戶的指令,依然是一個世界級的難題。而聲學(xué)相關(guān)的人才很少,所以像谷歌、微軟、蘋果經(jīng)常會收購聲學(xué)技術(shù)的初創(chuàng)公司,幾乎只要出來一家就會收購他們。
大家都明白,要構(gòu)建真正的下一代人機(jī)交互系統(tǒng),擁有核心的聲學(xué)能力是基石。
語音交互的下一站,是實(shí)現(xiàn)「共情」
現(xiàn)在很多AI應(yīng)用的日活、留存不高,有個很大的原因就是普通人本身是不會提問的,讓人向大模型提問,這本身就是一個非常高的交互門檻。
好的提問還需要學(xué)識、表達(dá)等基礎(chǔ),所以停留在文字層面的問答,本身就是一種門檻限制。
而語音帶來的一種可能性是,它正在開啟一個全新的階段——人機(jī)交互的「共情模式」。
如果把語音交互比作一個「UI界面」,那這個界面會長什么樣?我們可以做個推演,它的構(gòu)成要素可能會有:
情緒識別:AI通過分析語調(diào)、音量、語速,判斷用戶的情感狀態(tài)。比如,你的聲音顫抖,AI可能推測你在緊張或傷心。
意圖理解:不僅聽懂你說了什么,還要明白你想做什么。比如,你說「播放音樂」,AI會根據(jù)你的情緒,決定是放搖滾還是古典。
聲紋識別:通過獨(dú)一無二的音聲波特征,區(qū)分不同用戶。比如,家里的智能音箱能自動切換到「孩子模式」模式,只為孩子的聲音提供安全的回應(yīng)。
情緒生成:AI的回應(yīng)需要帶有情感化的表達(dá)。比如,用溫暖的語氣說「別擔(dān)心,我來幫你解決」,而不是機(jī)械的「好的,正在處理」。
這些要素的背后,是AI從「功能導(dǎo)向」到「情感導(dǎo)向」的轉(zhuǎn)變,AI會與人實(shí)現(xiàn)共情。這種交互,能顯著提升長時間交互的質(zhì)量和親密感。
不僅如此,從狹義的「Voice」拓展到廣義的「Sound」,當(dāng)AI能接收到的不僅僅是用戶的指令,而是整個物理世界的實(shí)時反饋時,我們可以去構(gòu)建一個「聲學(xué)世界模型」。
這個「聲學(xué)世界模型」可以理解聲音在物理世界中產(chǎn)生、傳播和交互的根本規(guī)律,它不僅要「聽清」和「聽懂」,更要具備「聲學(xué)常識」和「聲學(xué)推理」的能力:它能從一聲悶響中分辨出是書本落地還是箱子倒塌;能通過回聲判斷出房間的大小與空曠程度;更能理解「腳步聲由遠(yuǎn)及近」背后所蘊(yùn)含的物理運(yùn)動邏輯。
未來,當(dāng)這樣一個聲學(xué)世界模型與視覺、語言大模型深度融合時,具身智能機(jī)器人將不再「失聰」和冰冷。這也是我們正在做的。
必須珍藏的《豪婿戰(zhàn)神》,最出其不意的場景,沉淀之作,口碑爆表!
蕭牧之眼神閃過一絲溫和,輕輕伸出手?!澳阆胱魉溃俊便逄旌姥凵耖W過陰郁,怒罵一句,伸手去推蕭牧之-_。啪!話音剛剛出口,瞬間一個巴掌扇過,直接將其扇飛了出去,兩顆牙帶著血漬脫口而出|?!榜耄 笔捘林炊疾豢矗p輕吐出兩個字。這一巴掌,直接將沐天豪打蒙了,捂著腦袋嗡嗡作響,眼神閃過一絲散亂,挨打,竟然在眾目睽睽之下挨打還有呢? 沐天豪腦子嗡嗡作響,還沒有搞清楚怎么回事-。是他,又是蕭牧之!“有人天生下賤,卻沒有想到有人下賤到上門求著來挨打!”蕭牧之淡淡走過,雙手插入褲兜看著沐天豪-?!坝袥]有人跟你說過,求人要下跪,挨打要立正?”(點(diǎn)擊上方卡片可閱讀全文哦↑↑↑)感謝大家的閱讀,如果感覺小編推薦的書符合你的口味,歡迎給我好了吧!