o3出圈玩法“看圖猜位置”,豆包也安排上了!
而且不只是猜位置那么簡(jiǎn)單,玩法“更上了一層樓”,例如我們給出下面這張圖:
醒目的東方明珠,一眼便知是上海。但現(xiàn)在的問(wèn)題是:
你知道這是幾幾年嗎?
對(duì)我們?nèi)祟悂?lái)說(shuō)可能會(huì)有點(diǎn)難以判斷,不過(guò)在豆包這里,現(xiàn)在可以精確回答:1999年左右。
這就是豆包APP最新的一個(gè)功能——升級(jí)了視覺(jué)推理,圖片也能深度思考!
具體而言,現(xiàn)在豆包的深度思考過(guò)程不再只是文字的處理,對(duì)圖片也能進(jìn)行分析。
操作上也非常簡(jiǎn)單,只需開(kāi)啟深度思考模式,然后拍照或上傳圖片即可:
而且細(xì)看豆包APP分析的整個(gè)深度思考的過(guò)程,也是有點(diǎn)意思在身上的。
例如它先會(huì)以圖搜圖,大致判斷一下圖片位置是上海;然后再調(diào)用圖片分析工具(包括放大、裁剪和旋轉(zhuǎn)等等),根據(jù)圖片中的具體細(xì)節(jié)內(nèi)容,進(jìn)一步分析確定年份的證據(jù)。
總而言之,是屬于邊思考邊搜邊巧用工具的那種。
那么接下來(lái),一波實(shí)測(cè),走起!
實(shí)測(cè)豆包的帶圖推理
AI打假AI、看圖找茬都難不倒
這第一關(guān),咱先來(lái)點(diǎn)好玩的——讓AI識(shí)別AI。
左右兩邊的西紅柿都非常逼真,僅憑肉眼實(shí)在難以區(qū)分。
而豆包一擊即中,一番思索后得出了正確答案:右側(cè)為AI生成。
展開(kāi)其推理過(guò)程,才發(fā)現(xiàn)它是通過(guò)“放大細(xì)節(jié)”得出結(jié)論的。
尤其是右圖左下角的西紅柿暴露了身份,其蒂部呈現(xiàn)出不自然的卷曲和分叉blabla。
既然它“眼力”不錯(cuò),咱們接著整個(gè)大的——請(qǐng)找出下圖中熊貓里的足球。
人類VSAI,計(jì)時(shí)開(kāi)始……
很好,肉眼找了一圈又一圈,最后還是只能求助于AI。
豆包APP給的答案是醬嬸兒的:
怕你還是找不到,所以在思考過(guò)程中特意“放大”了足球所在的區(qū)域。
注意看,這里同樣涉及到豆包對(duì)圖片分析工具的調(diào)用,整個(gè)過(guò)程如下:
初步識(shí)別→可疑區(qū)域鎖定放大區(qū)域→局部圖案對(duì)比空間定位→精準(zhǔn)敘述
看來(lái)一些比較考眼力的小游戲,尤為適合請(qǐng)豆包APP這位外援。
還是個(gè)靠譜的生活搭子
此外,作為一款日常工具,平時(shí)看到任何不懂的東西也都可以隨時(shí)丟給豆包APP。
例如網(wǎng)上沖浪時(shí),看到有人分享一款小眾樂(lè)器,這就第一時(shí)間問(wèn)問(wèn)豆包:
豆包老師直接開(kāi)課,采用最直接的方法——相似圖片檢索,確認(rèn)這是少數(shù)民族鄂溫克族的口弦琴。
又或者遇到云南這樣的“新奇物種大省”,反手也是一個(gè)求助的動(dòng)作。
原來(lái)這是云貴一帶的小苦瓜,學(xué)名翅果藤,可以素炒、涼拌或曬干泡茶。
對(duì)于這種可能豆包自己都少見(jiàn)的東西,它會(huì)結(jié)合圖片檢索+文字檢索來(lái)雙重保障信息準(zhǔn)確。
這下好了,以后人人都有一個(gè)7x24小時(shí)響應(yīng)的生活助手了。
而且它的本事可不止幫忙搞定生活瑣事,用來(lái)提升工作效率一樣拿得出手。
輔導(dǎo)作業(yè)、提高生產(chǎn)力也不在話下
這不,讓無(wú)數(shù)父母越來(lái)越頭疼的作業(yè)輔導(dǎo),現(xiàn)在也能全權(quán)交給豆包APP了。
為了加大難度,這里我們直接上今年IMO(國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽)的第一題:
看不懂不要緊,直接交給豆包——在經(jīng)過(guò)明顯時(shí)間更長(zhǎng)的思考后,它通過(guò)一步步推理最終給出了正確答案。
有一說(shuō)一,答案是否正確我等凡人也看不太懂,所以交給了ChatGPT這個(gè)第三方裁判,讓它來(lái)對(duì)比一下豆包APP和網(wǎng)上公開(kāi)的人類選手給出的正確答案是否一致。
ChatGPT經(jīng)過(guò)分析后認(rèn)為,雖然解答方法不一樣,但二者的結(jié)論是一致的。
與此同時(shí),豆包APP也能用于日常工作——比如將一份財(cái)報(bào)數(shù)據(jù)一鍵提取成表格。
話不多說(shuō),直接丟一份蘋(píng)果公司財(cái)報(bào)試試:
逐一檢查后,豆包有效hold住了數(shù)據(jù)準(zhǔn)確性的考驗(yàn),而且還支持橫向全屏查看。
當(dāng)識(shí)圖準(zhǔn)確性這個(gè)“攔路虎”搞定后,豆包APP能夠發(fā)揮作用的空間也就更廣泛了,包括但不限于:
拍攝PPT、會(huì)議紀(jì)要或白板筆記中的表格內(nèi)容,快速轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù);提取合同截圖或發(fā)票上的費(fèi)用明細(xì)表;提取商品報(bào)價(jià)表、庫(kù)存表、銷售明細(xì)表截圖;
豆包的邊想邊搜,有夠靈活
從上面種種的實(shí)測(cè)中,我們不難發(fā)現(xiàn)豆包的思考鏈所具備的一個(gè)亮點(diǎn)——邊想邊搜。
傳統(tǒng)AI的思考過(guò)程,大多采用的是“先搜后想”模式,也就是先一次性抓取海量信息,然后基于已經(jīng)搜到的這些信息進(jìn)行推理,范圍相對(duì)有限、靈活性不足。
而豆包APP的“邊想邊搜”更像是一個(gè)“動(dòng)態(tài)推理+多輪搜索”的過(guò)程。
在這個(gè)模式下,AI會(huì)根據(jù)推理的需要,在深度思考的過(guò)程中多次調(diào)用搜索、圖片分析等不同工具來(lái)獲取和驗(yàn)證信息,從而提供更加全面、準(zhǔn)確的結(jié)果。
這個(gè)完整的思考鏈條,會(huì)根據(jù)用戶問(wèn)題的具體情況,靈活地接入圖片理解和信息搜索。
例如,在思考推理過(guò)程中,它既可能需要通過(guò)文字信息去檢索和分析圖片(文搜圖),也可能需要根據(jù)圖片內(nèi)容去反向查找相關(guān)信息(圖搜文、圖搜圖)。
為了更直觀地展示這個(gè)過(guò)程,我們嘗試用它來(lái)找一部記憶模糊的童年動(dòng)畫(huà)片:
而就是這樣寥寥幾句,豆包APP通過(guò)多輪關(guān)鍵詞檢索和圖片分析,幫忙成功找到了《SuperWhy》這部童年經(jīng)典。
圖搜圖就和開(kāi)頭展示的例子類似,在此不再過(guò)多贅述。
至于在思考過(guò)程中展現(xiàn)圖搜文,下面根據(jù)某張技術(shù)截圖反向查找原始論文出處的例子就淋漓盡致地展現(xiàn)了這種能力。
豆包APP通過(guò)3輪搜索+調(diào)用圖片分析工具,一步步鎖定了這是OpenAI發(fā)表的論文《Traininglanguagemodelstofollowinstructionswithhumanfeedback》。
而經(jīng)過(guò)實(shí)際對(duì)比,這張圖也的確是該論文中的Figure1。
Okk,林林總總體驗(yàn)下來(lái),豆包APP現(xiàn)在確實(shí)屬于邊思考邊搜邊巧用工具的“六邊形戰(zhàn)士”了。
一句話,以后遇到啥問(wèn)題都能隨手一拍或截圖丟給它。
事實(shí)上,不止豆包APP,如今幾乎整個(gè)行業(yè)都在朝視覺(jué)推理這個(gè)方向狂飆突進(jìn)。
今年以來(lái),以O(shè)penAI為代表推出的o3、o4-mini等推理模型,幾乎憑一己之力將圖像納入推理鏈,開(kāi)啟了多模態(tài)深度理解的新范式。
隨后,視覺(jué)推理能力迅速成為衡量大模型綜合實(shí)力的新技術(shù)門檻,在國(guó)內(nèi)外掀起了新一輪競(jìng)速熱潮。
細(xì)究起來(lái),這背后其實(shí)有兩大核心驅(qū)動(dòng)力:一曰技術(shù),二曰需求。
一方面,多模態(tài)技術(shù)的持續(xù)發(fā)展,為視覺(jué)推理提供了強(qiáng)有力的技術(shù)支撐。
由于主流大模型均采用Transformer架構(gòu),它具備天然的多模態(tài)融合能力,能夠?qū)ξ淖?、圖像、音頻等不同模態(tài)的信息進(jìn)行統(tǒng)一編碼和高效處理。
因此,帶圖推理在技術(shù)上實(shí)際并非遙不可及。
而且發(fā)展多模態(tài)目前已成為AI圈的共識(shí)之一,顯而易見(jiàn),作為多模態(tài)智能重要組成部分的視覺(jué)推理,也大概率將隨之水漲船高,成為競(jìng)逐熱點(diǎn)之一。
更不必提,視覺(jué)推理也確實(shí)存在真真切切的行業(yè)及用戶需求。
從行業(yè)角度來(lái)看,視覺(jué)推理是落地多種應(yīng)用場(chǎng)景的關(guān)鍵能力。
比如在工業(yè)制造領(lǐng)域,視覺(jué)推理可用于無(wú)序分揀、晶圓缺陷檢測(cè)、電池極片3D輪廓測(cè)量等復(fù)雜場(chǎng)景;在醫(yī)療領(lǐng)域,視覺(jué)推理能夠助力手術(shù)導(dǎo)航、病理圖像分析等應(yīng)用……如此種種不勝枚舉。
而對(duì)普通用戶來(lái)說(shuō),鑒于現(xiàn)實(shí)中圖文混合的信息越來(lái)越多,人們?cè)絹?lái)越需要的不只是“識(shí)圖”,而是真正理解圖中的邏輯與內(nèi)容。
就像我們?cè)趯?shí)測(cè)環(huán)節(jié)看到的那樣,在圖像問(wèn)答、文檔解析等多個(gè)場(chǎng)景中,具備視覺(jué)推理能力的模型已經(jīng)可以像人類一樣識(shí)別細(xì)節(jié)、分析關(guān)系、做出判斷,極大提升了信息獲取和處理的效率。
綜上所述,可以說(shuō)技術(shù)的成熟與需求的涌現(xiàn),在此時(shí)此刻實(shí)現(xiàn)了高度契合,從而帶動(dòng)了視覺(jué)推理能力迅速升溫,成為新階段的核心看點(diǎn)之一。
當(dāng)然,大道理歸大道理。對(duì)我們普通用戶來(lái)說(shuō),最直接的變化是:o3、o4-mini等需要氪金才能用的功能,如今已經(jīng)能在豆包APP里低門檻、免費(fèi)用上。
豆包這波,也算是真正把“帶圖推理”打下來(lái)了~
p.s.豆包APP現(xiàn)已全量上線帶圖推理功能,不過(guò)需要更新至最新的9.5.0版本才能體驗(yàn)哦。
仰望星空的斗士:伽利略,用真理撼動(dòng)地球的人
《圣斗士星矢》:那些令人疑惑的情節(jié)剖析
《圣斗士星矢》中3位最高冷的美男子,全都是黃金?
免責(zé)聲明:本文內(nèi)容由開(kāi)放的智能模型自動(dòng)生成,僅供參考。