電影《南京照相館》票房突破 5 億,如何評(píng)價(jià)這一票房成績(jī)?
英國(guó)電動(dòng)車(chē)新政引發(fā)爭(zhēng)議,中國(guó)車(chē)企出海之路披荊斬棘
有一說(shuō)一,最近國(guó)內(nèi)的AI大模型圈,屬實(shí)有點(diǎn)安靜了。
先不談大伙萬(wàn)眾矚目的DeepSeek-R2了,這玩意除了半真半假的爆料以外,沒(méi)有一點(diǎn)動(dòng)靜,有種哪怕再過(guò)半年時(shí)間,也不一定能夠落地的感覺(jué)。
去年打得你來(lái)我往的AI四小龍,今年好像也和小貓一樣蔫了,說(shuō)是大家都在悶聲鼓搗著自己的東西,但愣是什么都沒(méi)有端出來(lái),有種鑿壁偷光的美。
至于大廠這邊,迭代速度也都慢了下來(lái),把更多的精力放到了應(yīng)用上。豆包雖然端出了1.6大模型,但是宣傳重點(diǎn)更多是TRAE和扣子空間;訊飛在發(fā)力AI教育和辦公Agents,百度則在推進(jìn)全流程AI修圖和資產(chǎn)管理,各有各的思路。
總的來(lái)說(shuō),這些應(yīng)用倒是蠻實(shí)用的,就是確實(shí)沒(méi)什么特別讓人驚艷的產(chǎn)品。
這在線大模型沒(méi)啥新進(jìn)展,本地大模型就更是在原地踏步了,此前一直在更新的MistralAI已經(jīng)有小半年沒(méi)啥聲音了,移動(dòng)端的端側(cè)大模型更是杳無(wú)音訊,宣傳了整整兩三年的AI手機(jī),超過(guò)90%的功能還是靠云端實(shí)現(xiàn)的。
(圖源:谷歌)
谷歌尋思:這不行啊,那我的Pixel系列該怎么辦?
上周,谷歌DeepMind在推特上正式宣布,發(fā)布并開(kāi)源了全新的端側(cè)多模態(tài)大模型Gemma3n。
谷歌表示,Gemma3n的發(fā)布代表了移動(dòng)設(shè)備端AI的重大進(jìn)步,它為手機(jī)、平板、筆記本電腦等端側(cè)設(shè)備帶來(lái)了強(qiáng)大的多模態(tài)功能,可以讓用戶體驗(yàn)到過(guò)去只有云端先進(jìn)模型上才能體驗(yàn)的高效處理性能。
又來(lái)個(gè)以小搏大嗎?有點(diǎn)意思。
為了看看這玩意的真實(shí)成色,小雷也去下載了谷歌發(fā)布的最新模型進(jìn)行測(cè)試,接下來(lái)就給大家說(shuō)說(shuō)里面的亮點(diǎn)吧。
谷歌要“以小搏大”
首先,我們來(lái)解答兩個(gè)問(wèn)題:
首先,什么是Gemma3n?
Gemma3n是谷歌利用MatFormer架構(gòu)打造的輕量化端側(cè)大模型,借由嵌套式結(jié)構(gòu)實(shí)現(xiàn)了低內(nèi)存消耗設(shè)計(jì),目前官方一共推出了5B(E2B)和8B(E4B)兩種型號(hào),但通過(guò)架構(gòu)創(chuàng)新,其VRAM占用與2B和4B相當(dāng),最低只要2GB。
(圖源:Google)
其次,Gemma3n能做什么?
不同于常規(guī)的文本剪裁模型,Gemma3n原生支持圖像、音視頻等多種輸入模態(tài),不僅可以實(shí)現(xiàn)自動(dòng)語(yǔ)音識(shí)別(ASR)和自動(dòng)語(yǔ)音翻譯(AST),甚至可以完成各種圖像和視頻理解任務(wù)。
(圖源:Google)
原生的多模態(tài)、多語(yǔ)言設(shè)計(jì),確實(shí)非常適合移動(dòng)端側(cè)設(shè)備。
最后,我要怎樣做,才能用上Gemma3n呢?
放在六個(gè)月前,想在手機(jī)上部署端側(cè)大模型其實(shí)是一件異常復(fù)雜的事情,往往還要借助Linux虛擬機(jī)的幫助才能實(shí)現(xiàn),雷科技曾經(jīng)還為此推出過(guò)一篇教程,因此大家會(huì)有這樣的疑問(wèn)也是很合理的。
但是現(xiàn)在,就沒(méi)有這個(gè)必要了。
(圖源:Google)
Google在上個(gè)月低調(diào)上線了一款新應(yīng)用,名為GoogleAIEdgeGallery,支持用戶在手機(jī)上直接運(yùn)行來(lái)自HuggingFace平臺(tái)的開(kāi)源AI模型,這是Google首次嘗試將輕量AI推理帶入本地設(shè)備。
目前該應(yīng)用已在Android平臺(tái)開(kāi)放下載,感興趣的讀者可以直接前往Github進(jìn)行體驗(yàn)。在完成大模型加載后,用戶就可以利用這款應(yīng)用實(shí)現(xiàn)對(duì)話式AI、圖像理解以及提示詞實(shí)驗(yàn)室功能,甚至可以導(dǎo)入自定義LiteRT格式模型。
無(wú)需聯(lián)網(wǎng),直接調(diào)用手機(jī)本地算力完成任務(wù),就是這么簡(jiǎn)單。
實(shí)測(cè):確實(shí)更適合移動(dòng)設(shè)備
接下來(lái),就輪到萬(wàn)眾期待的測(cè)試環(huán)節(jié)了。
如圖所示,谷歌為這款應(yīng)用默認(rèn)準(zhǔn)備了四款模型,其中有自家的Gemma系列,也有來(lái)自通義千問(wèn)的Qwen系列,我們選擇了目前最強(qiáng)的Gemma3n-4B和通義千問(wèn)的Qwen2.5-1.5B以及額外部署的Qwen3-4BGGUF進(jìn)行測(cè)試。
首先是經(jīng)典的草莓問(wèn)題:
Q:Strawberry一詞中有多少個(gè)字母“r”?
這一題看起來(lái)簡(jiǎn)單,卻實(shí)實(shí)在在難倒過(guò)諸多AI大模型。
實(shí)測(cè)下來(lái),沒(méi)有深度思考能力的Gemma3n-4B和Qwen2.5-1.5B依然會(huì)回答“2個(gè)”,有深度思考能力的Qwen3-4BGGUF則能夠給出正確答案“3個(gè)”,只是莫名其妙的反復(fù)思考讓它整整生成了兩分半鐘,還挺浪費(fèi)時(shí)間的。
(圖源:雷科技,從左到右:Qwen2.5、Gemma3n、Qwen3)
從結(jié)果來(lái)看,小參數(shù)確實(shí)會(huì)顯著降低模型的邏輯思考能力,深度思考功能可以在一定程度上降低AI幻覺(jué)產(chǎn)生的可能性,但也因此會(huì)增加生成所需的時(shí)間。
然后是一道比較簡(jiǎn)單的誤導(dǎo)問(wèn)題:
Q:“種豆南山下”的前一句是什么?
事實(shí)上,這是出自陶淵明《歸園田居·其三》的首句詩(shī),并沒(méi)有前一句,正好能看看這幾款小參數(shù)模型是否存在為了回答問(wèn)題編造數(shù)據(jù)的現(xiàn)象。
有趣的是,這次只有Qwen2.5-1.5B給出了原詩(shī)句,但是沒(méi)有給出否定的答案;而Qwen3-4BGGUF根本就是答非所問(wèn),Gemma3n-4B則編出了根本不存在的詩(shī)句,甚至不符合古詩(shī)詞韻律。
(圖源:雷科技)
然后是一道地理常識(shí)問(wèn)題:
Q:有一位學(xué)者在野外搭帳篷,突然遇到了一只熊,這時(shí)候他就非常驚慌地逃跑,先是向南跑了10公里,又向東跑了10公里,最后還向北跑了10公里,這時(shí)候他驚奇地發(fā)現(xiàn)自己回到了原先搭帳篷的位置。請(qǐng)問(wèn):這位學(xué)者遇到的那頭熊是什么顏色?
這個(gè)問(wèn)題主要測(cè)試模型對(duì)特殊地理位置和現(xiàn)象的理解,滿足學(xué)者運(yùn)動(dòng)軌跡的地方只能是北極,因此這頭熊自然是白色的北極熊。
結(jié)果呢,Qwen2.5-1.5B在進(jìn)行了一段毫無(wú)邏輯的分析后,給出了錯(cuò)誤的答案;Gemma3n-4B和Qwen3-4BGGUF則能夠順利給出正確的答案,需要注意Qwen3-4BGGUF因?yàn)樗伎枷膖oken太多導(dǎo)致答案沒(méi)有完全生成的現(xiàn)象,這在整段測(cè)試中都很常見(jiàn)。
(圖源:雷科技)
然后是一個(gè)簡(jiǎn)單的文本處理任務(wù)。
具體來(lái)說(shuō),我這邊提供了600字左右的文章引言,希望他們能夠給出對(duì)應(yīng)的文章總結(jié)。
其中,Gemma3n-4B和Qwen3-4BGGUF都算是能完成任務(wù)的,不過(guò)因?yàn)镚emma3n-4B原始語(yǔ)言是英文,因此給出的總結(jié)也是英文的,而Qwen3-4BGGUF則能夠提供中文的文章總結(jié)。
(圖源:雷科技)
至于參數(shù)最小的Qwen2.5-1.5B,根本就給不出答復(fù)。
從以上四輪測(cè)試來(lái)看,在文本處理、邏輯推理能力上,Gemma3n-4B和Qwen3-4BGGUF其實(shí)相差無(wú)幾,但是在生成速度、回復(fù)成功率上其實(shí)是領(lǐng)先不少的,深度思考顯然是不適合本地模型的。
不過(guò)Gemma3n并不是單純的文本大模型,人家可是罕有的小參數(shù)多模態(tài)大模型。
雖然語(yǔ)音識(shí)別目前GoogleAIEdgeGallery調(diào)用不了,但是圖像識(shí)別人家還是有準(zhǔn)備的,點(diǎn)擊“AskImage”選項(xiàng),就可以通過(guò)隨手拍攝或者上傳照片的方式,向Gemma3n提問(wèn)。
(圖源:雷科技)
實(shí)測(cè)下來(lái),目前的Gemma3n對(duì)于動(dòng)漫角色可謂一竅不通,諸如花卉識(shí)別這類應(yīng)用也不精準(zhǔn),只有比較常見(jiàn)的食物、硬件這類可以識(shí)別出來(lái),而且對(duì)圖片里的元素識(shí)別其實(shí)并不算精準(zhǔn)。
但最起碼,Gemma3n確實(shí)實(shí)現(xiàn)了移動(dòng)端側(cè)的多模態(tài)設(shè)計(jì)。
偏科明顯,但未來(lái)可期
好了,經(jīng)過(guò)我這幾天的輪番折騰,是時(shí)候給谷歌這個(gè)Gemma3n下個(gè)結(jié)論了。
總的來(lái)說(shuō),這玩意兒給我的感覺(jué)是“偏科明顯,但未來(lái)可期”。
在最基礎(chǔ)的文本問(wèn)答和邏輯能力上,它的表現(xiàn)只能算中規(guī)中矩,部分邏輯測(cè)試中的表現(xiàn)顯然不如支持深度思考的Qwen3-4B,但是比起目前手機(jī)上常見(jiàn)的Qwen2.5-1.5B還是有明顯提升的。
但它的優(yōu)點(diǎn)也很突出,那就是快,Gemma3n-4B的響應(yīng)速度明顯要比Qwen3-4B快很多,沒(méi)有深度思考就意味著它沒(méi)那么吃性能,跑起來(lái)顯然更穩(wěn)定,基本能夠做到100%的生成響應(yīng)率。
(圖源:Google)
至于結(jié)果對(duì)不對(duì)...那是模型能力的問(wèn)題。
至于它的核心賣(mài)點(diǎn)——離線圖像識(shí)別,能力確實(shí)有,但也就停留在“基礎(chǔ)”層面,識(shí)別個(gè)物體、提取個(gè)文字還行,想讓它理解復(fù)雜場(chǎng)景就有點(diǎn)難為它了。而且,原生英文的底子讓它處理復(fù)雜中文時(shí)偶爾會(huì)冒出點(diǎn)bug,這點(diǎn)得注意。
總的來(lái)說(shuō),Gemma3n并沒(méi)有帶來(lái)那種顛覆級(jí)的體驗(yàn),更像是在性能和多功能之間做出的一個(gè)謹(jǐn)慎妥協(xié)。
這大概就是端側(cè)小模型現(xiàn)階段特有的弊病吧:什么都會(huì)一點(diǎn),但離真正的“全能”還有一段路要走。
2025年曲靖農(nóng)業(yè)學(xué)校|寵物養(yǎng)護(hù)與經(jīng)營(yíng)
寵物養(yǎng)護(hù)與經(jīng)營(yíng)專業(yè):多元化技能培養(yǎng)與廣闊就業(yè)前景
快速了解中職專業(yè)(畜牧類)3——寵物養(yǎng)護(hù)與經(jīng)營(yíng)