作者|Yoky郵箱|yokyliu@pingwest.com
2025年7月26日,WAIC開幕首日,阿里把首款自研夸克AI眼鏡推到了臺(tái)前。硅星人在上?,F(xiàn)場(chǎng)見到了這款傳聞已久的設(shè)備,也見到了它的總架構(gòu)師——阿里巴巴智能信息事業(yè)群智能終端業(yè)務(wù)負(fù)責(zé)人宋剛。
這位在手機(jī)行業(yè)打磨了18年的「架構(gòu)師」,正把當(dāng)年定義高端智能手機(jī)的經(jīng)驗(yàn)復(fù)用到鼻梁上的新終端。
據(jù)介紹,相比傳統(tǒng)的音樂播放、通話、翻譯、會(huì)議紀(jì)要等常規(guī)AI眼鏡功能,夸克AI眼鏡新增了基于夸克AI能力的搜索、識(shí)別場(chǎng)景,能夠滿足通用問答、AI圖像問答、百科閑聊場(chǎng)景下的用戶需求。
更重要的是,它還通過整合阿里生態(tài)資源,帶來了更多場(chǎng)景想象力,例如,在出行方面,夸克AI眼鏡聯(lián)合高德地圖,打造了定制化近眼顯示導(dǎo)航系統(tǒng),為用戶提供騎行、步行場(chǎng)景下的精準(zhǔn)路線指引;在購(gòu)物體驗(yàn)上,可以通過淘寶實(shí)現(xiàn)商品智能搜索和實(shí)時(shí)比價(jià)功能;支付場(chǎng)景中,聯(lián)合支付寶實(shí)現(xiàn)AI眼鏡“看一下支付”,實(shí)現(xiàn)真正無感又安全的支付體驗(yàn);在行程服務(wù)方面,與飛豬旅行和阿里商旅合作定制了專屬的行程實(shí)時(shí)動(dòng)態(tài)提醒功能,讓出行更加便捷高效。
這次對(duì)談,我們把外界最關(guān)心的三個(gè)問題拋給了他:
為什么是現(xiàn)在?
為什么是阿里?
為什么是AI眼鏡?
下文是宋剛的回答(經(jīng)整理后實(shí)錄),也是大廠第一次系統(tǒng)拆解AI眼鏡從技術(shù)到產(chǎn)品到生態(tài)的全路徑。
夸克AI眼鏡最新產(chǎn)品細(xì)節(jié):
在開始前,我們整理了對(duì)話中關(guān)于這款眼鏡的最新產(chǎn)品細(xì)節(jié),來幫助大家更好的理解。
外觀:夸克AI眼鏡通過定制研發(fā)雙音圈大振膜小型化的揚(yáng)聲器、設(shè)計(jì)超窄一體化FPC,運(yùn)用高折射率鏡片加鍍膜工藝,進(jìn)一步縮小波導(dǎo)區(qū)域光柵面積,使得眼鏡鏡腿更細(xì)、鏡框更窄更薄、鏡片看起來更通透。其次在眼鏡的鼻托和耳彎接觸面采用了仿生曲面設(shè)計(jì),實(shí)現(xiàn)壓力均勻分布。
續(xù)航:創(chuàng)新?lián)Q電設(shè)計(jì),采用高通AR1旗艦芯片加低功耗的協(xié)處理器雙芯設(shè)計(jì),搭配安卓加RTOS雙系統(tǒng)實(shí)現(xiàn)動(dòng)態(tài)資源調(diào)度,既大幅提升了重載場(chǎng)景下的能效,又有效降低了待機(jī)場(chǎng)景下的功耗;在雙電池系統(tǒng)上帶來了創(chuàng)新的換電設(shè)計(jì),通過熱插拔鏡腿讓用戶快速更換主電池;搭配一個(gè)可隨身攜帶的耳機(jī)盒大小的換電倉(cāng),可以實(shí)現(xiàn)24小時(shí)續(xù)航。
拍攝和顯示:自主研發(fā)了SuperRaw暗光處理算法,通過RAW域多幀融合與自適應(yīng)降噪,有效地抑制了暗光下的噪聲,顯著提升了圖像信噪比。借助陀螺儀檢測(cè)線性角速度,進(jìn)行實(shí)時(shí)姿態(tài)運(yùn)算處理,對(duì)抖動(dòng)畫面進(jìn)行動(dòng)態(tài)補(bǔ)償,實(shí)現(xiàn)精準(zhǔn)防抖。同時(shí)采用雙光機(jī)顯示設(shè)計(jì),支持合像距可調(diào),無論近景遠(yuǎn)景,室內(nèi)室外,都可以選擇最優(yōu)的顯示距離。
軟件功能:采用5個(gè)麥克風(fēng)加1個(gè)骨傳導(dǎo)的陣列設(shè)計(jì),即使在惡劣的噪聲環(huán)境,也能精確喚醒;自研了MasterAgent大模型中控系統(tǒng),可以自主分解復(fù)雜指令,實(shí)現(xiàn)多意圖、多輪對(duì)話最后答得好。在端側(cè)采用了圖像模糊檢測(cè)算法,結(jié)合SuperRAW降噪技術(shù),提升了識(shí)別率和準(zhǔn)確性;其次是響應(yīng)快,通過自適應(yīng)壓縮算法,定制高效的意圖識(shí)別模型讓我們的系統(tǒng)端端耗時(shí)較行業(yè)優(yōu)化了36%。
為什么是現(xiàn)在?
1、阿里入局AI眼鏡的時(shí)機(jī)并不算早,市場(chǎng)上已經(jīng)有不少玩家,為什么選擇現(xiàn)在這個(gè)時(shí)點(diǎn)進(jìn)入?和此前的AI眼鏡有什么區(qū)別?
宋剛:我們確實(shí)不是最早的,目前這個(gè)賽道的玩家主要分三類:初創(chuàng)企業(yè)、手機(jī)廠商,還有像我們這樣的互聯(lián)網(wǎng)科技公司,相比其他類型,但我們有自己的判斷和優(yōu)勢(shì)。
判斷上,我們看好AI眼鏡是未來繼智能手機(jī)之后最重要的移動(dòng)入口,它可能會(huì)成為你的另外一個(gè)眼睛和耳朵,會(huì)成為感官交互的中樞設(shè)備。在阿里AItoC的戰(zhàn)略里面,它占據(jù)了非常重要的位置。
優(yōu)勢(shì)上,第一是,我們?cè)谲浻布念I(lǐng)域有多年的積累,尤其是在語音智能方向,團(tuán)隊(duì)有很多專家也是來自手機(jī)行業(yè)背景;第二是應(yīng)用模型,通義千問大模型,以及我們還有夸克基于通義千問大模型研發(fā)的垂類應(yīng)用模型;第三是,阿里的生態(tài)。從硬件到基礎(chǔ)模型、應(yīng)用模型到生態(tài)和用戶,我們是自己能夠閉環(huán)的,包括技術(shù)閉環(huán)、生態(tài)閉環(huán)、場(chǎng)景的閉環(huán)。比如,我們更多的會(huì)在用戶的衣食住行上,做高德導(dǎo)航、訂外賣這些生活場(chǎng)景,再加上夸克有AI眼鏡所需要的紀(jì)要、翻譯、圖像問答等強(qiáng)大的AI能力等等。
2、夸克AI眼鏡想做什么?現(xiàn)在市面大部分AI眼鏡都不能解決剛需問題,夸克對(duì)它的產(chǎn)品定位是什么?是娛樂型還是工具型?
答:夸克AI眼鏡的定位很明確,我們要做的是一個(gè)真正智能的助理型產(chǎn)品。你說得對(duì),現(xiàn)在市面上的AI眼鏡確實(shí)存在各種問題,要么不夠智能,要么續(xù)航太短,要么佩戴不舒適,很難解決用戶的剛需。這正是我們看到的機(jī)會(huì)。
我們認(rèn)為眼鏡有著獨(dú)特的戰(zhàn)略價(jià)值。它處于人類頭部這個(gè)生態(tài)位,可以捕獲80%以上的人體感知輸入,這是其他設(shè)備做不到的。更重要的是,眼鏡具有極強(qiáng)的場(chǎng)景穿透能力,能夠同時(shí)覆蓋辦公、生活、移動(dòng)等各種場(chǎng)景,這讓它有可能成為下一代人機(jī)交互的'感官中樞'。
基于這個(gè)認(rèn)知,我們的產(chǎn)品定位就很清晰了——要解決真實(shí)場(chǎng)景中的實(shí)用問題,而不是做一個(gè)娛樂玩具。比如走在路上看到不認(rèn)識(shí)的建筑可以直接詢問,購(gòu)物時(shí)可以實(shí)時(shí)比價(jià),旅行時(shí)可以即時(shí)翻譯,這些都是用戶的剛需場(chǎng)景。我們希望通過這些實(shí)用功能,讓眼鏡成為繼智能手機(jī)后最重要的個(gè)人移動(dòng)入口。
對(duì)夸克來說,繼PC端和手機(jī)端之后,可能是未來想象力最大的硬件入口。這就是我們?yōu)槭裁匆獔?jiān)持做助理型產(chǎn)品的原因。
3、當(dāng)下這個(gè)行業(yè)出現(xiàn)了很多難題,比如說到底是軟件水平不夠還是硬件算力不足限制了場(chǎng)景落地?阿里選擇此時(shí)入局,準(zhǔn)備從哪里作為突破點(diǎn)?
宋剛:我認(rèn)為當(dāng)下AI眼鏡行業(yè)的瓶頸,既有軟件層面的,也有硬件層面的,但最核心的問題其實(shí)是生態(tài)。
從硬件角度看,算力確實(shí)是個(gè)挑戰(zhàn)。眼鏡這么小的設(shè)備,要在功耗、散熱、續(xù)航之間找平衡,同時(shí)還要保證足夠的算力支撐AI應(yīng)用,這對(duì)芯片和整機(jī)設(shè)計(jì)都提出了很高要求。我們選擇了雙光機(jī)加雙光波導(dǎo)方案,雖然成本不便宜,但能夠提供更好的顯示效果和用戶體驗(yàn)。
軟件層面,AI能力的成熟度也在快速提升。我們現(xiàn)在已經(jīng)實(shí)現(xiàn)了從文本智能到多模態(tài)融合的范式遷移,通義千問大模型加上夸克的多模態(tài)AI能力,再結(jié)合百億級(jí)的圖像檢索能力,技術(shù)基礎(chǔ)已經(jīng)比較扎實(shí)了。
但我覺得最大的問題還是生態(tài)缺失?,F(xiàn)在市面上的AI眼鏡,用戶買回去除了拍照、聽音樂,真正的應(yīng)用場(chǎng)景太少了。這不是硬件或者AI技術(shù)本身的問題,而是缺乏真正有價(jià)值的服務(wù)生態(tài)。
這正是我們選擇此時(shí)入局的原因,也是我們的突破點(diǎn)。我們不是要做一個(gè)更好的硬件,而是要做一個(gè)真正有用的生態(tài)入口。
所以我們的突破點(diǎn)是用完整的阿里生態(tài)來解決行業(yè)最大的痛點(diǎn)。當(dāng)眼鏡真正能夠融入用戶的日常生活,解決實(shí)際問題時(shí),現(xiàn)有硬件的一些不完美反而變得可以接受了。這是阿里和其他廠商的差異化優(yōu)勢(shì)。
為什么是阿里?
4、阿里在硬件制造方面并非最擅長(zhǎng),作為一家以軟件見長(zhǎng)的公司,團(tuán)隊(duì)構(gòu)成和供應(yīng)鏈布局是怎樣的?如何解決從研發(fā)到量產(chǎn)的硬件挑戰(zhàn)?
宋剛:這個(gè)產(chǎn)品有它的特殊性,因?yàn)樗髟谀樕?,考?yàn)的賽道跟手機(jī)還不完全一樣。供應(yīng)鏈目前重合度比較高,但往未來走,可能會(huì)形成單獨(dú)的眼鏡供應(yīng)鏈。
問:哪里會(huì)出現(xiàn)不一樣?
宋剛:AI眼鏡用的光機(jī)、光波導(dǎo)、穿戴芯片,這些都不是手機(jī)現(xiàn)有的產(chǎn)業(yè)鏈。這是一個(gè)層面。
另外一個(gè)層面是跟傳統(tǒng)眼鏡品牌的設(shè)計(jì)和供應(yīng)鏈整合。這一點(diǎn)對(duì)大家來說其實(shí)是在同一起跑線的。今天到底是阿里、華米OV,還是Meta,都要面臨這個(gè)問題。海外Meta邁出去比較早,國(guó)內(nèi)還在跟進(jìn)。跟傳統(tǒng)眼鏡的整合也是非常重要的一環(huán)。
第三個(gè)層面是生態(tài),這可能是更大的一個(gè)邏輯。目前的AI眼鏡,我認(rèn)為其他問題都可以搞定,但生態(tài)是目前最大的痛點(diǎn)。比如說手機(jī)它有安卓生態(tài),安卓的這些應(yīng)用,它可以把信息共享給手機(jī),但是它目前還沒有跟眼鏡打通。但阿里自己的生態(tài)是可以打通的。像今天我發(fā)布的導(dǎo)航、淘寶,包括支付寶的支付,剛剛提到的點(diǎn)外賣、飛豬的行程提醒,我們都是內(nèi)部打通的。
5、所以您的意思是,通過阿里的生態(tài)力量來牽引AI眼鏡供應(yīng)鏈進(jìn)一步迭代對(duì)么?
宋剛:這個(gè)邏輯很簡(jiǎn)單——當(dāng)這個(gè)行業(yè)有足夠大的訂單量和很明確的技術(shù)需求和趨勢(shì)時(shí),供應(yīng)商就有動(dòng)力去做技術(shù)突破和產(chǎn)能投入。阿里愿意依托我們自身的優(yōu)勢(shì)持續(xù)推動(dòng)這個(gè)產(chǎn)業(yè)鏈的迭代成熟。
但我要強(qiáng)調(diào)的是,供應(yīng)鏈成熟只能解決這個(gè)行業(yè)的一部分問題。更核心的還是生態(tài)能力的差異化?,F(xiàn)在市面上的AI眼鏡,我認(rèn)為硬件問題都是可以逐步解決的,真正的瓶頸在生態(tài)。用戶買了眼鏡回去,除了拍照、聽音樂,還能干什么?這是個(gè)大問題。
我們的優(yōu)勢(shì)在于有完整的服務(wù)生態(tài)。用戶戴上我們的眼鏡,走在路上可以用高德導(dǎo)航,看到商品可以用淘寶比價(jià),出差時(shí)有飛豬的行程提醒,支付時(shí)可以直接調(diào)用支付寶。這些都是用戶的高頻剛需場(chǎng)景,不是為了眼鏡而眼鏡的功能。
這種生態(tài)閉環(huán)的價(jià)值,可能比硬件本身更重要。當(dāng)用戶真正感受到眼鏡能夠無縫融入他們的日常生活,解決實(shí)際問題時(shí),這個(gè)產(chǎn)品才真正從一個(gè)新奇的硬件變成了不可或缺的工具。
7、您多次提到“生態(tài)”的重要性,如何構(gòu)建生態(tài)?有了阿里生態(tài)之后,會(huì)給夸克AI眼鏡帶來哪些擴(kuò)展,未來有哪些計(jì)劃中的場(chǎng)景?
宋剛:生態(tài)確實(shí)是我們的一個(gè)優(yōu)勢(shì)。有了阿里生態(tài)支撐,夸克AI眼鏡能夠在用戶的全生活場(chǎng)景中發(fā)揮價(jià)值。
具體來說,我們已經(jīng)規(guī)劃了幾個(gè)核心應(yīng)用場(chǎng)景。出行場(chǎng)景,用戶可以直接通過眼鏡使用高德導(dǎo)航,不用掏手機(jī)就能獲得路線指引;購(gòu)物場(chǎng)景,看到任何商品都可以通過淘寶進(jìn)行實(shí)時(shí)比價(jià),這對(duì)用戶來說是非常實(shí)用的功能;支付場(chǎng)景,集成支付寶后可以實(shí)現(xiàn)更便捷的支付體驗(yàn);旅行場(chǎng)景,飛豬旅行和阿里商旅可以提供行程提醒、酒店信息等服務(wù)。
更重要的是,這些不是孤立的功能點(diǎn),而是一個(gè)完整的服務(wù)閉環(huán),整個(gè)過程都在一個(gè)生態(tài)體系內(nèi)流轉(zhuǎn),體驗(yàn)非常順暢。
我們會(huì)先基于阿里的生態(tài)先打通,同時(shí)也在接入一些第三方生態(tài),比如網(wǎng)易云音樂等等。今天在WAIC現(xiàn)場(chǎng)也成立了產(chǎn)業(yè)聯(lián)盟,也會(huì)協(xié)同行業(yè)共同探討如何讓更多應(yīng)用實(shí)現(xiàn)agent化。
為什么是AI眼鏡?
8、從夸克出發(fā),為什么要做一副AI眼鏡?
宋剛:從夸克的角度來看,眼鏡其實(shí)是夸克的一個(gè)新的硬件入口。現(xiàn)在夸克的應(yīng)用大多數(shù)是在PC和移動(dòng)端,但夸克功能作為個(gè)人超級(jí)助手的出發(fā)點(diǎn)和能力在隨身穿戴場(chǎng)景有更多的延展空間,對(duì)夸克來說,未來眼鏡也是一個(gè)重要入口,也有可能會(huì)是未來最具想象力的一個(gè)入口。
比如夸克的AI相機(jī)和掃描能力,通過眼鏡可以有更多選擇,用戶可以選擇手機(jī)還是眼鏡作為主要設(shè)備。這樣的協(xié)同會(huì)帶來更豐富的使用體驗(yàn)。
當(dāng)你在途旅中突然看到一個(gè)事物不知道它是什么,一個(gè)突然出現(xiàn)的動(dòng)物、一塊你不認(rèn)識(shí)文字寫和牌匾,你都可以問一下眼鏡。它會(huì)基于夸克的圖像識(shí)別和搜索能力給你答案以及更多的搜索和講解。不需要再急忙掏出手機(jī)拍照搜索。
總之,眼鏡讓夸克的AI能力多了一種自然便捷的交互方式,這是我們做AI眼鏡的核心邏輯。
9、僅從硬件的角度來說,硬件設(shè)計(jì)和技術(shù)上有哪些單點(diǎn)突破?
宋剛:我們做了雙芯片雙系統(tǒng)設(shè)計(jì)。讓待機(jī)時(shí)就跑在低功耗輔芯片上,重負(fù)載場(chǎng)景才啟動(dòng)主芯片,從第一代產(chǎn)品就重點(diǎn)去解決功耗的問題。
在拍攝方面,我們做了弱光RAW域多幀降噪技術(shù),比如地下車庫(kù)掃碼,在很低照度情況下也能實(shí)現(xiàn)識(shí)別。這在手機(jī)行業(yè)屬于常規(guī)技術(shù),但受限于算力等各種原因,目前還沒有一家眼鏡廠商做到。
10、AI功能上呢,AI眼鏡AI在哪里?
宋剛:AI的語音交互首先你要識(shí)聽得清,還要答得好。語音這一塊聽得清,我們依托夸克的語音大模型。我們還有Masteragent的中控系統(tǒng)和夸克大語言模型,讓他能夠自然交互,比如說多輪對(duì)話,多意圖的理解,有些問答是跑到大模型去,有些可能是專用的一些技能承接掉了。
這樣的話讓整個(gè)交互的時(shí)延,以及說問答的準(zhǔn)確性,以及識(shí)別的精準(zhǔn)度都會(huì)有一個(gè)全面的提升。另外,在VQA圖像的問答上面,我們做了一些像圖像模糊檢測(cè)的算法,SuperRAW的技,提升了圖像識(shí)別率和準(zhǔn)確率。
另外,依托夸克百億級(jí)別的圖像檢索能力。因?yàn)榭淇吮旧砭陀袕?qiáng)大的搜索能力,再結(jié)合上夸克基于千問大模型研發(fā)的夸克多模態(tài)大模型能力。兩個(gè)一結(jié)合,讓我們?cè)谶@種圖像識(shí)別、問答的場(chǎng)景下,無論響應(yīng)時(shí)間還是回答的好,都會(huì)有非常大的價(jià)值。
點(diǎn)個(gè)愛心,再走吧
免責(zé)聲明:本文內(nèi)容由開放的智能模型自動(dòng)生成,僅供參考。