作者|Yoky郵箱|yokyliu@pingwest.com
2025年7月26日,WAIC開幕首日,阿里把首款自研夸克AI眼鏡推到了臺前。硅星人在上?,F(xiàn)場見到了這款傳聞已久的設(shè)備,也見到了它的總架構(gòu)師——阿里巴巴智能信息事業(yè)群智能終端業(yè)務(wù)負(fù)責(zé)人宋剛。
這位在手機(jī)行業(yè)打磨了18年的「架構(gòu)師」,正把當(dāng)年定義高端智能手機(jī)的經(jīng)驗復(fù)用到鼻梁上的新終端。
據(jù)介紹,相比傳統(tǒng)的音樂播放、通話、翻譯、會議紀(jì)要等常規(guī)AI眼鏡功能,夸克AI眼鏡新增了基于夸克AI能力的搜索、識別場景,能夠滿足通用問答、AI圖像問答、百科閑聊場景下的用戶需求。
更重要的是,它還通過整合阿里生態(tài)資源,帶來了更多場景想象力,例如,在出行方面,夸克AI眼鏡聯(lián)合高德地圖,打造了定制化近眼顯示導(dǎo)航系統(tǒng),為用戶提供騎行、步行場景下的精準(zhǔn)路線指引;在購物體驗上,可以通過淘寶實現(xiàn)商品智能搜索和實時比價功能;支付場景中,聯(lián)合支付寶實現(xiàn)AI眼鏡“看一下支付”,實現(xiàn)真正無感又安全的支付體驗;在行程服務(wù)方面,與飛豬旅行和阿里商旅合作定制了專屬的行程實時動態(tài)提醒功能,讓出行更加便捷高效。
這次對談,我們把外界最關(guān)心的三個問題拋給了他:
為什么是現(xiàn)在?
為什么是阿里?
為什么是AI眼鏡?
下文是宋剛的回答(經(jīng)整理后實錄),也是大廠第一次系統(tǒng)拆解AI眼鏡從技術(shù)到產(chǎn)品到生態(tài)的全路徑。
夸克AI眼鏡最新產(chǎn)品細(xì)節(jié):
在開始前,我們整理了對話中關(guān)于這款眼鏡的最新產(chǎn)品細(xì)節(jié),來幫助大家更好的理解。
外觀:夸克AI眼鏡通過定制研發(fā)雙音圈大振膜小型化的揚(yáng)聲器、設(shè)計超窄一體化FPC,運用高折射率鏡片加鍍膜工藝,進(jìn)一步縮小波導(dǎo)區(qū)域光柵面積,使得眼鏡鏡腿更細(xì)、鏡框更窄更薄、鏡片看起來更通透。其次在眼鏡的鼻托和耳彎接觸面采用了仿生曲面設(shè)計,實現(xiàn)壓力均勻分布。
續(xù)航:創(chuàng)新?lián)Q電設(shè)計,采用高通AR1旗艦芯片加低功耗的協(xié)處理器雙芯設(shè)計,搭配安卓加RTOS雙系統(tǒng)實現(xiàn)動態(tài)資源調(diào)度,既大幅提升了重載場景下的能效,又有效降低了待機(jī)場景下的功耗;在雙電池系統(tǒng)上帶來了創(chuàng)新的換電設(shè)計,通過熱插拔鏡腿讓用戶快速更換主電池;搭配一個可隨身攜帶的耳機(jī)盒大小的換電倉,可以實現(xiàn)24小時續(xù)航。
拍攝和顯示:自主研發(fā)了SuperRaw暗光處理算法,通過RAW域多幀融合與自適應(yīng)降噪,有效地抑制了暗光下的噪聲,顯著提升了圖像信噪比。借助陀螺儀檢測線性角速度,進(jìn)行實時姿態(tài)運算處理,對抖動畫面進(jìn)行動態(tài)補(bǔ)償,實現(xiàn)精準(zhǔn)防抖。同時采用雙光機(jī)顯示設(shè)計,支持合像距可調(diào),無論近景遠(yuǎn)景,室內(nèi)室外,都可以選擇最優(yōu)的顯示距離。
軟件功能:采用5個麥克風(fēng)加1個骨傳導(dǎo)的陣列設(shè)計,即使在惡劣的噪聲環(huán)境,也能精確喚醒;自研了MasterAgent大模型中控系統(tǒng),可以自主分解復(fù)雜指令,實現(xiàn)多意圖、多輪對話最后答得好。在端側(cè)采用了圖像模糊檢測算法,結(jié)合SuperRAW降噪技術(shù),提升了識別率和準(zhǔn)確性;其次是響應(yīng)快,通過自適應(yīng)壓縮算法,定制高效的意圖識別模型讓我們的系統(tǒng)端端耗時較行業(yè)優(yōu)化了36%。
為什么是現(xiàn)在?
1、阿里入局AI眼鏡的時機(jī)并不算早,市場上已經(jīng)有不少玩家,為什么選擇現(xiàn)在這個時點進(jìn)入?和此前的AI眼鏡有什么區(qū)別?
宋剛:我們確實不是最早的,目前這個賽道的玩家主要分三類:初創(chuàng)企業(yè)、手機(jī)廠商,還有像我們這樣的互聯(lián)網(wǎng)科技公司,相比其他類型,但我們有自己的判斷和優(yōu)勢。
判斷上,我們看好AI眼鏡是未來繼智能手機(jī)之后最重要的移動入口,它可能會成為你的另外一個眼睛和耳朵,會成為感官交互的中樞設(shè)備。在阿里AItoC的戰(zhàn)略里面,它占據(jù)了非常重要的位置。
優(yōu)勢上,第一是,我們在軟硬件的領(lǐng)域有多年的積累,尤其是在語音智能方向,團(tuán)隊有很多專家也是來自手機(jī)行業(yè)背景;第二是應(yīng)用模型,通義千問大模型,以及我們還有夸克基于通義千問大模型研發(fā)的垂類應(yīng)用模型;第三是,阿里的生態(tài)。從硬件到基礎(chǔ)模型、應(yīng)用模型到生態(tài)和用戶,我們是自己能夠閉環(huán)的,包括技術(shù)閉環(huán)、生態(tài)閉環(huán)、場景的閉環(huán)。比如,我們更多的會在用戶的衣食住行上,做高德導(dǎo)航、訂外賣這些生活場景,再加上夸克有AI眼鏡所需要的紀(jì)要、翻譯、圖像問答等強(qiáng)大的AI能力等等。
2、夸克AI眼鏡想做什么?現(xiàn)在市面大部分AI眼鏡都不能解決剛需問題,夸克對它的產(chǎn)品定位是什么?是娛樂型還是工具型?
答:夸克AI眼鏡的定位很明確,我們要做的是一個真正智能的助理型產(chǎn)品。你說得對,現(xiàn)在市面上的AI眼鏡確實存在各種問題,要么不夠智能,要么續(xù)航太短,要么佩戴不舒適,很難解決用戶的剛需。這正是我們看到的機(jī)會。
我們認(rèn)為眼鏡有著獨特的戰(zhàn)略價值。它處于人類頭部這個生態(tài)位,可以捕獲80%以上的人體感知輸入,這是其他設(shè)備做不到的。更重要的是,眼鏡具有極強(qiáng)的場景穿透能力,能夠同時覆蓋辦公、生活、移動等各種場景,這讓它有可能成為下一代人機(jī)交互的'感官中樞'。
基于這個認(rèn)知,我們的產(chǎn)品定位就很清晰了——要解決真實場景中的實用問題,而不是做一個娛樂玩具。比如走在路上看到不認(rèn)識的建筑可以直接詢問,購物時可以實時比價,旅行時可以即時翻譯,這些都是用戶的剛需場景。我們希望通過這些實用功能,讓眼鏡成為繼智能手機(jī)后最重要的個人移動入口。
對夸克來說,繼PC端和手機(jī)端之后,可能是未來想象力最大的硬件入口。這就是我們?yōu)槭裁匆獔猿肿鲋硇彤a(chǎn)品的原因。
3、當(dāng)下這個行業(yè)出現(xiàn)了很多難題,比如說到底是軟件水平不夠還是硬件算力不足限制了場景落地?阿里選擇此時入局,準(zhǔn)備從哪里作為突破點?
宋剛:我認(rèn)為當(dāng)下AI眼鏡行業(yè)的瓶頸,既有軟件層面的,也有硬件層面的,但最核心的問題其實是生態(tài)。
從硬件角度看,算力確實是個挑戰(zhàn)。眼鏡這么小的設(shè)備,要在功耗、散熱、續(xù)航之間找平衡,同時還要保證足夠的算力支撐AI應(yīng)用,這對芯片和整機(jī)設(shè)計都提出了很高要求。我們選擇了雙光機(jī)加雙光波導(dǎo)方案,雖然成本不便宜,但能夠提供更好的顯示效果和用戶體驗。
軟件層面,AI能力的成熟度也在快速提升。我們現(xiàn)在已經(jīng)實現(xiàn)了從文本智能到多模態(tài)融合的范式遷移,通義千問大模型加上夸克的多模態(tài)AI能力,再結(jié)合百億級的圖像檢索能力,技術(shù)基礎(chǔ)已經(jīng)比較扎實了。
但我覺得最大的問題還是生態(tài)缺失?,F(xiàn)在市面上的AI眼鏡,用戶買回去除了拍照、聽音樂,真正的應(yīng)用場景太少了。這不是硬件或者AI技術(shù)本身的問題,而是缺乏真正有價值的服務(wù)生態(tài)。
這正是我們選擇此時入局的原因,也是我們的突破點。我們不是要做一個更好的硬件,而是要做一個真正有用的生態(tài)入口。
所以我們的突破點是用完整的阿里生態(tài)來解決行業(yè)最大的痛點。當(dāng)眼鏡真正能夠融入用戶的日常生活,解決實際問題時,現(xiàn)有硬件的一些不完美反而變得可以接受了。這是阿里和其他廠商的差異化優(yōu)勢。
為什么是阿里?
4、阿里在硬件制造方面并非最擅長,作為一家以軟件見長的公司,團(tuán)隊構(gòu)成和供應(yīng)鏈布局是怎樣的?如何解決從研發(fā)到量產(chǎn)的硬件挑戰(zhàn)?
宋剛:這個產(chǎn)品有它的特殊性,因為它戴在臉上,考驗的賽道跟手機(jī)還不完全一樣。供應(yīng)鏈目前重合度比較高,但往未來走,可能會形成單獨的眼鏡供應(yīng)鏈。
問:哪里會出現(xiàn)不一樣?
宋剛:AI眼鏡用的光機(jī)、光波導(dǎo)、穿戴芯片,這些都不是手機(jī)現(xiàn)有的產(chǎn)業(yè)鏈。這是一個層面。
另外一個層面是跟傳統(tǒng)眼鏡品牌的設(shè)計和供應(yīng)鏈整合。這一點對大家來說其實是在同一起跑線的。今天到底是阿里、華米OV,還是Meta,都要面臨這個問題。海外Meta邁出去比較早,國內(nèi)還在跟進(jìn)。跟傳統(tǒng)眼鏡的整合也是非常重要的一環(huán)。
第三個層面是生態(tài),這可能是更大的一個邏輯。目前的AI眼鏡,我認(rèn)為其他問題都可以搞定,但生態(tài)是目前最大的痛點。比如說手機(jī)它有安卓生態(tài),安卓的這些應(yīng)用,它可以把信息共享給手機(jī),但是它目前還沒有跟眼鏡打通。但阿里自己的生態(tài)是可以打通的。像今天我發(fā)布的導(dǎo)航、淘寶,包括支付寶的支付,剛剛提到的點外賣、飛豬的行程提醒,我們都是內(nèi)部打通的。
5、所以您的意思是,通過阿里的生態(tài)力量來牽引AI眼鏡供應(yīng)鏈進(jìn)一步迭代對么?
宋剛:這個邏輯很簡單——當(dāng)這個行業(yè)有足夠大的訂單量和很明確的技術(shù)需求和趨勢時,供應(yīng)商就有動力去做技術(shù)突破和產(chǎn)能投入。阿里愿意依托我們自身的優(yōu)勢持續(xù)推動這個產(chǎn)業(yè)鏈的迭代成熟。
但我要強(qiáng)調(diào)的是,供應(yīng)鏈成熟只能解決這個行業(yè)的一部分問題。更核心的還是生態(tài)能力的差異化?,F(xiàn)在市面上的AI眼鏡,我認(rèn)為硬件問題都是可以逐步解決的,真正的瓶頸在生態(tài)。用戶買了眼鏡回去,除了拍照、聽音樂,還能干什么?這是個大問題。
我們的優(yōu)勢在于有完整的服務(wù)生態(tài)。用戶戴上我們的眼鏡,走在路上可以用高德導(dǎo)航,看到商品可以用淘寶比價,出差時有飛豬的行程提醒,支付時可以直接調(diào)用支付寶。這些都是用戶的高頻剛需場景,不是為了眼鏡而眼鏡的功能。
這種生態(tài)閉環(huán)的價值,可能比硬件本身更重要。當(dāng)用戶真正感受到眼鏡能夠無縫融入他們的日常生活,解決實際問題時,這個產(chǎn)品才真正從一個新奇的硬件變成了不可或缺的工具。
7、您多次提到“生態(tài)”的重要性,如何構(gòu)建生態(tài)?有了阿里生態(tài)之后,會給夸克AI眼鏡帶來哪些擴(kuò)展,未來有哪些計劃中的場景?
宋剛:生態(tài)確實是我們的一個優(yōu)勢。有了阿里生態(tài)支撐,夸克AI眼鏡能夠在用戶的全生活場景中發(fā)揮價值。
具體來說,我們已經(jīng)規(guī)劃了幾個核心應(yīng)用場景。出行場景,用戶可以直接通過眼鏡使用高德導(dǎo)航,不用掏手機(jī)就能獲得路線指引;購物場景,看到任何商品都可以通過淘寶進(jìn)行實時比價,這對用戶來說是非常實用的功能;支付場景,集成支付寶后可以實現(xiàn)更便捷的支付體驗;旅行場景,飛豬旅行和阿里商旅可以提供行程提醒、酒店信息等服務(wù)。
更重要的是,這些不是孤立的功能點,而是一個完整的服務(wù)閉環(huán),整個過程都在一個生態(tài)體系內(nèi)流轉(zhuǎn),體驗非常順暢。
我們會先基于阿里的生態(tài)先打通,同時也在接入一些第三方生態(tài),比如網(wǎng)易云音樂等等。今天在WAIC現(xiàn)場也成立了產(chǎn)業(yè)聯(lián)盟,也會協(xié)同行業(yè)共同探討如何讓更多應(yīng)用實現(xiàn)agent化。
為什么是AI眼鏡?
8、從夸克出發(fā),為什么要做一副AI眼鏡?
宋剛:從夸克的角度來看,眼鏡其實是夸克的一個新的硬件入口?,F(xiàn)在夸克的應(yīng)用大多數(shù)是在PC和移動端,但夸克功能作為個人超級助手的出發(fā)點和能力在隨身穿戴場景有更多的延展空間,對夸克來說,未來眼鏡也是一個重要入口,也有可能會是未來最具想象力的一個入口。
比如夸克的AI相機(jī)和掃描能力,通過眼鏡可以有更多選擇,用戶可以選擇手機(jī)還是眼鏡作為主要設(shè)備。這樣的協(xié)同會帶來更豐富的使用體驗。
當(dāng)你在途旅中突然看到一個事物不知道它是什么,一個突然出現(xiàn)的動物、一塊你不認(rèn)識文字寫和牌匾,你都可以問一下眼鏡。它會基于夸克的圖像識別和搜索能力給你答案以及更多的搜索和講解。不需要再急忙掏出手機(jī)拍照搜索。
總之,眼鏡讓夸克的AI能力多了一種自然便捷的交互方式,這是我們做AI眼鏡的核心邏輯。
9、僅從硬件的角度來說,硬件設(shè)計和技術(shù)上有哪些單點突破?
宋剛:我們做了雙芯片雙系統(tǒng)設(shè)計。讓待機(jī)時就跑在低功耗輔芯片上,重負(fù)載場景才啟動主芯片,從第一代產(chǎn)品就重點去解決功耗的問題。
在拍攝方面,我們做了弱光RAW域多幀降噪技術(shù),比如地下車庫掃碼,在很低照度情況下也能實現(xiàn)識別。這在手機(jī)行業(yè)屬于常規(guī)技術(shù),但受限于算力等各種原因,目前還沒有一家眼鏡廠商做到。
10、AI功能上呢,AI眼鏡AI在哪里?
宋剛:AI的語音交互首先你要識聽得清,還要答得好。語音這一塊聽得清,我們依托夸克的語音大模型。我們還有Masteragent的中控系統(tǒng)和夸克大語言模型,讓他能夠自然交互,比如說多輪對話,多意圖的理解,有些問答是跑到大模型去,有些可能是專用的一些技能承接掉了。
這樣的話讓整個交互的時延,以及說問答的準(zhǔn)確性,以及識別的精準(zhǔn)度都會有一個全面的提升。另外,在VQA圖像的問答上面,我們做了一些像圖像模糊檢測的算法,SuperRAW的技,提升了圖像識別率和準(zhǔn)確率。
另外,依托夸克百億級別的圖像檢索能力。因為夸克本身就有強(qiáng)大的搜索能力,再結(jié)合上夸克基于千問大模型研發(fā)的夸克多模態(tài)大模型能力。兩個一結(jié)合,讓我們在這種圖像識別、問答的場景下,無論響應(yīng)時間還是回答的好,都會有非常大的價值。
點個愛心,再走吧
免費小說:快穿界老母親上線,吾兒莫方,娘來守護(hù)你
快穿界奇葩娘親上線,吾兒莫方,娘來守護(hù)你
強(qiáng)推!五本硬核快穿《炮灰女的另類修仙》《快穿之吾兒莫方》好看