作者|Yoky郵箱|yokyliu@pingwest.com
2025年7月26日,WAIC開幕首日,阿里把首款自研夸克AI眼鏡推到了臺前。硅星人在上?,F場見到了這款傳聞已久的設備,也見到了它的總架構師——阿里巴巴智能信息事業(yè)群智能終端業(yè)務負責人宋剛。
這位在手機行業(yè)打磨了18年的「架構師」,正把當年定義高端智能手機的經驗復用到鼻梁上的新終端。
據介紹,相比傳統(tǒng)的音樂播放、通話、翻譯、會議紀要等常規(guī)AI眼鏡功能,夸克AI眼鏡新增了基于夸克AI能力的搜索、識別場景,能夠滿足通用問答、AI圖像問答、百科閑聊場景下的用戶需求。
更重要的是,它還通過整合阿里生態(tài)資源,帶來了更多場景想象力,例如,在出行方面,夸克AI眼鏡聯合高德地圖,打造了定制化近眼顯示導航系統(tǒng),為用戶提供騎行、步行場景下的精準路線指引;在購物體驗上,可以通過淘寶實現商品智能搜索和實時比價功能;支付場景中,聯合支付寶實現AI眼鏡“看一下支付”,實現真正無感又安全的支付體驗;在行程服務方面,與飛豬旅行和阿里商旅合作定制了專屬的行程實時動態(tài)提醒功能,讓出行更加便捷高效。
這次對談,我們把外界最關心的三個問題拋給了他:
為什么是現在?
為什么是阿里?
為什么是AI眼鏡?
下文是宋剛的回答(經整理后實錄),也是大廠第一次系統(tǒng)拆解AI眼鏡從技術到產品到生態(tài)的全路徑。
夸克AI眼鏡最新產品細節(jié):
在開始前,我們整理了對話中關于這款眼鏡的最新產品細節(jié),來幫助大家更好的理解。
外觀:夸克AI眼鏡通過定制研發(fā)雙音圈大振膜小型化的揚聲器、設計超窄一體化FPC,運用高折射率鏡片加鍍膜工藝,進一步縮小波導區(qū)域光柵面積,使得眼鏡鏡腿更細、鏡框更窄更薄、鏡片看起來更通透。其次在眼鏡的鼻托和耳彎接觸面采用了仿生曲面設計,實現壓力均勻分布。
續(xù)航:創(chuàng)新換電設計,采用高通AR1旗艦芯片加低功耗的協(xié)處理器雙芯設計,搭配安卓加RTOS雙系統(tǒng)實現動態(tài)資源調度,既大幅提升了重載場景下的能效,又有效降低了待機場景下的功耗;在雙電池系統(tǒng)上帶來了創(chuàng)新的換電設計,通過熱插拔鏡腿讓用戶快速更換主電池;搭配一個可隨身攜帶的耳機盒大小的換電倉,可以實現24小時續(xù)航。
拍攝和顯示:自主研發(fā)了SuperRaw暗光處理算法,通過RAW域多幀融合與自適應降噪,有效地抑制了暗光下的噪聲,顯著提升了圖像信噪比。借助陀螺儀檢測線性角速度,進行實時姿態(tài)運算處理,對抖動畫面進行動態(tài)補償,實現精準防抖。同時采用雙光機顯示設計,支持合像距可調,無論近景遠景,室內室外,都可以選擇最優(yōu)的顯示距離。
軟件功能:采用5個麥克風加1個骨傳導的陣列設計,即使在惡劣的噪聲環(huán)境,也能精確喚醒;自研了MasterAgent大模型中控系統(tǒng),可以自主分解復雜指令,實現多意圖、多輪對話最后答得好。在端側采用了圖像模糊檢測算法,結合SuperRAW降噪技術,提升了識別率和準確性;其次是響應快,通過自適應壓縮算法,定制高效的意圖識別模型讓我們的系統(tǒng)端端耗時較行業(yè)優(yōu)化了36%。
為什么是現在?
1、阿里入局AI眼鏡的時機并不算早,市場上已經有不少玩家,為什么選擇現在這個時點進入?和此前的AI眼鏡有什么區(qū)別?
宋剛:我們確實不是最早的,目前這個賽道的玩家主要分三類:初創(chuàng)企業(yè)、手機廠商,還有像我們這樣的互聯網科技公司,相比其他類型,但我們有自己的判斷和優(yōu)勢。
判斷上,我們看好AI眼鏡是未來繼智能手機之后最重要的移動入口,它可能會成為你的另外一個眼睛和耳朵,會成為感官交互的中樞設備。在阿里AItoC的戰(zhàn)略里面,它占據了非常重要的位置。
優(yōu)勢上,第一是,我們在軟硬件的領域有多年的積累,尤其是在語音智能方向,團隊有很多專家也是來自手機行業(yè)背景;第二是應用模型,通義千問大模型,以及我們還有夸克基于通義千問大模型研發(fā)的垂類應用模型;第三是,阿里的生態(tài)。從硬件到基礎模型、應用模型到生態(tài)和用戶,我們是自己能夠閉環(huán)的,包括技術閉環(huán)、生態(tài)閉環(huán)、場景的閉環(huán)。比如,我們更多的會在用戶的衣食住行上,做高德導航、訂外賣這些生活場景,再加上夸克有AI眼鏡所需要的紀要、翻譯、圖像問答等強大的AI能力等等。
2、夸克AI眼鏡想做什么?現在市面大部分AI眼鏡都不能解決剛需問題,夸克對它的產品定位是什么?是娛樂型還是工具型?
答:夸克AI眼鏡的定位很明確,我們要做的是一個真正智能的助理型產品。你說得對,現在市面上的AI眼鏡確實存在各種問題,要么不夠智能,要么續(xù)航太短,要么佩戴不舒適,很難解決用戶的剛需。這正是我們看到的機會。
我們認為眼鏡有著獨特的戰(zhàn)略價值。它處于人類頭部這個生態(tài)位,可以捕獲80%以上的人體感知輸入,這是其他設備做不到的。更重要的是,眼鏡具有極強的場景穿透能力,能夠同時覆蓋辦公、生活、移動等各種場景,這讓它有可能成為下一代人機交互的'感官中樞'。
基于這個認知,我們的產品定位就很清晰了——要解決真實場景中的實用問題,而不是做一個娛樂玩具。比如走在路上看到不認識的建筑可以直接詢問,購物時可以實時比價,旅行時可以即時翻譯,這些都是用戶的剛需場景。我們希望通過這些實用功能,讓眼鏡成為繼智能手機后最重要的個人移動入口。
對夸克來說,繼PC端和手機端之后,可能是未來想象力最大的硬件入口。這就是我們?yōu)槭裁匆獔猿肿鲋硇彤a品的原因。
3、當下這個行業(yè)出現了很多難題,比如說到底是軟件水平不夠還是硬件算力不足限制了場景落地?阿里選擇此時入局,準備從哪里作為突破點?
宋剛:我認為當下AI眼鏡行業(yè)的瓶頸,既有軟件層面的,也有硬件層面的,但最核心的問題其實是生態(tài)。
從硬件角度看,算力確實是個挑戰(zhàn)。眼鏡這么小的設備,要在功耗、散熱、續(xù)航之間找平衡,同時還要保證足夠的算力支撐AI應用,這對芯片和整機設計都提出了很高要求。我們選擇了雙光機加雙光波導方案,雖然成本不便宜,但能夠提供更好的顯示效果和用戶體驗。
軟件層面,AI能力的成熟度也在快速提升。我們現在已經實現了從文本智能到多模態(tài)融合的范式遷移,通義千問大模型加上夸克的多模態(tài)AI能力,再結合百億級的圖像檢索能力,技術基礎已經比較扎實了。
但我覺得最大的問題還是生態(tài)缺失?,F在市面上的AI眼鏡,用戶買回去除了拍照、聽音樂,真正的應用場景太少了。這不是硬件或者AI技術本身的問題,而是缺乏真正有價值的服務生態(tài)。
這正是我們選擇此時入局的原因,也是我們的突破點。我們不是要做一個更好的硬件,而是要做一個真正有用的生態(tài)入口。
所以我們的突破點是用完整的阿里生態(tài)來解決行業(yè)最大的痛點。當眼鏡真正能夠融入用戶的日常生活,解決實際問題時,現有硬件的一些不完美反而變得可以接受了。這是阿里和其他廠商的差異化優(yōu)勢。
為什么是阿里?
4、阿里在硬件制造方面并非最擅長,作為一家以軟件見長的公司,團隊構成和供應鏈布局是怎樣的?如何解決從研發(fā)到量產的硬件挑戰(zhàn)?
宋剛:這個產品有它的特殊性,因為它戴在臉上,考驗的賽道跟手機還不完全一樣。供應鏈目前重合度比較高,但往未來走,可能會形成單獨的眼鏡供應鏈。
問:哪里會出現不一樣?
宋剛:AI眼鏡用的光機、光波導、穿戴芯片,這些都不是手機現有的產業(yè)鏈。這是一個層面。
另外一個層面是跟傳統(tǒng)眼鏡品牌的設計和供應鏈整合。這一點對大家來說其實是在同一起跑線的。今天到底是阿里、華米OV,還是Meta,都要面臨這個問題。海外Meta邁出去比較早,國內還在跟進。跟傳統(tǒng)眼鏡的整合也是非常重要的一環(huán)。
第三個層面是生態(tài),這可能是更大的一個邏輯。目前的AI眼鏡,我認為其他問題都可以搞定,但生態(tài)是目前最大的痛點。比如說手機它有安卓生態(tài),安卓的這些應用,它可以把信息共享給手機,但是它目前還沒有跟眼鏡打通。但阿里自己的生態(tài)是可以打通的。像今天我發(fā)布的導航、淘寶,包括支付寶的支付,剛剛提到的點外賣、飛豬的行程提醒,我們都是內部打通的。
5、所以您的意思是,通過阿里的生態(tài)力量來牽引AI眼鏡供應鏈進一步迭代對么?
宋剛:這個邏輯很簡單——當這個行業(yè)有足夠大的訂單量和很明確的技術需求和趨勢時,供應商就有動力去做技術突破和產能投入。阿里愿意依托我們自身的優(yōu)勢持續(xù)推動這個產業(yè)鏈的迭代成熟。
但我要強調的是,供應鏈成熟只能解決這個行業(yè)的一部分問題。更核心的還是生態(tài)能力的差異化?,F在市面上的AI眼鏡,我認為硬件問題都是可以逐步解決的,真正的瓶頸在生態(tài)。用戶買了眼鏡回去,除了拍照、聽音樂,還能干什么?這是個大問題。
我們的優(yōu)勢在于有完整的服務生態(tài)。用戶戴上我們的眼鏡,走在路上可以用高德導航,看到商品可以用淘寶比價,出差時有飛豬的行程提醒,支付時可以直接調用支付寶。這些都是用戶的高頻剛需場景,不是為了眼鏡而眼鏡的功能。
這種生態(tài)閉環(huán)的價值,可能比硬件本身更重要。當用戶真正感受到眼鏡能夠無縫融入他們的日常生活,解決實際問題時,這個產品才真正從一個新奇的硬件變成了不可或缺的工具。
7、您多次提到“生態(tài)”的重要性,如何構建生態(tài)?有了阿里生態(tài)之后,會給夸克AI眼鏡帶來哪些擴展,未來有哪些計劃中的場景?
宋剛:生態(tài)確實是我們的一個優(yōu)勢。有了阿里生態(tài)支撐,夸克AI眼鏡能夠在用戶的全生活場景中發(fā)揮價值。
具體來說,我們已經規(guī)劃了幾個核心應用場景。出行場景,用戶可以直接通過眼鏡使用高德導航,不用掏手機就能獲得路線指引;購物場景,看到任何商品都可以通過淘寶進行實時比價,這對用戶來說是非常實用的功能;支付場景,集成支付寶后可以實現更便捷的支付體驗;旅行場景,飛豬旅行和阿里商旅可以提供行程提醒、酒店信息等服務。
更重要的是,這些不是孤立的功能點,而是一個完整的服務閉環(huán),整個過程都在一個生態(tài)體系內流轉,體驗非常順暢。
我們會先基于阿里的生態(tài)先打通,同時也在接入一些第三方生態(tài),比如網易云音樂等等。今天在WAIC現場也成立了產業(yè)聯盟,也會協(xié)同行業(yè)共同探討如何讓更多應用實現agent化。
為什么是AI眼鏡?
8、從夸克出發(fā),為什么要做一副AI眼鏡?
宋剛:從夸克的角度來看,眼鏡其實是夸克的一個新的硬件入口。現在夸克的應用大多數是在PC和移動端,但夸克功能作為個人超級助手的出發(fā)點和能力在隨身穿戴場景有更多的延展空間,對夸克來說,未來眼鏡也是一個重要入口,也有可能會是未來最具想象力的一個入口。
比如夸克的AI相機和掃描能力,通過眼鏡可以有更多選擇,用戶可以選擇手機還是眼鏡作為主要設備。這樣的協(xié)同會帶來更豐富的使用體驗。
當你在途旅中突然看到一個事物不知道它是什么,一個突然出現的動物、一塊你不認識文字寫和牌匾,你都可以問一下眼鏡。它會基于夸克的圖像識別和搜索能力給你答案以及更多的搜索和講解。不需要再急忙掏出手機拍照搜索。
總之,眼鏡讓夸克的AI能力多了一種自然便捷的交互方式,這是我們做AI眼鏡的核心邏輯。
9、僅從硬件的角度來說,硬件設計和技術上有哪些單點突破?
宋剛:我們做了雙芯片雙系統(tǒng)設計。讓待機時就跑在低功耗輔芯片上,重負載場景才啟動主芯片,從第一代產品就重點去解決功耗的問題。
在拍攝方面,我們做了弱光RAW域多幀降噪技術,比如地下車庫掃碼,在很低照度情況下也能實現識別。這在手機行業(yè)屬于常規(guī)技術,但受限于算力等各種原因,目前還沒有一家眼鏡廠商做到。
10、AI功能上呢,AI眼鏡AI在哪里?
宋剛:AI的語音交互首先你要識聽得清,還要答得好。語音這一塊聽得清,我們依托夸克的語音大模型。我們還有Masteragent的中控系統(tǒng)和夸克大語言模型,讓他能夠自然交互,比如說多輪對話,多意圖的理解,有些問答是跑到大模型去,有些可能是專用的一些技能承接掉了。
這樣的話讓整個交互的時延,以及說問答的準確性,以及識別的精準度都會有一個全面的提升。另外,在VQA圖像的問答上面,我們做了一些像圖像模糊檢測的算法,SuperRAW的技,提升了圖像識別率和準確率。
另外,依托夸克百億級別的圖像檢索能力。因為夸克本身就有強大的搜索能力,再結合上夸克基于千問大模型研發(fā)的夸克多模態(tài)大模型能力。兩個一結合,讓我們在這種圖像識別、問答的場景下,無論響應時間還是回答的好,都會有非常大的價值。
點個愛心,再走吧
滴血雄鷹案主要刪減的有哪些呢?
盤點《神探狄仁杰》中的武功高手,李元芳不是第一
《神探狄仁杰》為何不繼續(xù)拍下去,它與《神斷狄仁杰》有何關系
免責聲明:本文內容由開放的智能模型自動生成,僅供參考。