o3出圈玩法“看圖猜位置”,豆包也安排上了!
而且不只是猜位置那么簡單,玩法“更上了一層樓”,例如我們給出下面這張圖:
醒目的東方明珠,一眼便知是上海。但現(xiàn)在的問題是:
你知道這是幾幾年嗎?
對我們?nèi)祟悂碚f可能會有點難以判斷,不過在豆包這里,現(xiàn)在可以精確回答:1999年左右。
這就是豆包APP最新的一個功能——升級了視覺推理,圖片也能深度思考!
具體而言,現(xiàn)在豆包的深度思考過程不再只是文字的處理,對圖片也能進行分析。
操作上也非常簡單,只需開啟深度思考模式,然后拍照或上傳圖片即可:
而且細看豆包APP分析的整個深度思考的過程,也是有點意思在身上的。
例如它先會以圖搜圖,大致判斷一下圖片位置是上海;然后再調(diào)用圖片分析工具(包括放大、裁剪和旋轉(zhuǎn)等等),根據(jù)圖片中的具體細節(jié)內(nèi)容,進一步分析確定年份的證據(jù)。
總而言之,是屬于邊思考邊搜邊巧用工具的那種。
那么接下來,一波實測,走起!
實測豆包的帶圖推理
AI打假AI、看圖找茬都難不倒
這第一關(guān),咱先來點好玩的——讓AI識別AI。
左右兩邊的西紅柿都非常逼真,僅憑肉眼實在難以區(qū)分。
而豆包一擊即中,一番思索后得出了正確答案:右側(cè)為AI生成。
展開其推理過程,才發(fā)現(xiàn)它是通過“放大細節(jié)”得出結(jié)論的。
尤其是右圖左下角的西紅柿暴露了身份,其蒂部呈現(xiàn)出不自然的卷曲和分叉blabla。
既然它“眼力”不錯,咱們接著整個大的——請找出下圖中熊貓里的足球。
人類VSAI,計時開始……
很好,肉眼找了一圈又一圈,最后還是只能求助于AI。
豆包APP給的答案是醬嬸兒的:
怕你還是找不到,所以在思考過程中特意“放大”了足球所在的區(qū)域。
注意看,這里同樣涉及到豆包對圖片分析工具的調(diào)用,整個過程如下:
初步識別→可疑區(qū)域鎖定放大區(qū)域→局部圖案對比空間定位→精準敘述
看來一些比較考眼力的小游戲,尤為適合請豆包APP這位外援。
還是個靠譜的生活搭子
此外,作為一款日常工具,平時看到任何不懂的東西也都可以隨時丟給豆包APP。
例如網(wǎng)上沖浪時,看到有人分享一款小眾樂器,這就第一時間問問豆包:
豆包老師直接開課,采用最直接的方法——相似圖片檢索,確認這是少數(shù)民族鄂溫克族的口弦琴。
又或者遇到云南這樣的“新奇物種大省”,反手也是一個求助的動作。
原來這是云貴一帶的小苦瓜,學(xué)名翅果藤,可以素炒、涼拌或曬干泡茶。
對于這種可能豆包自己都少見的東西,它會結(jié)合圖片檢索+文字檢索來雙重保障信息準確。
這下好了,以后人人都有一個7x24小時響應(yīng)的生活助手了。
而且它的本事可不止幫忙搞定生活瑣事,用來提升工作效率一樣拿得出手。
輔導(dǎo)作業(yè)、提高生產(chǎn)力也不在話下
這不,讓無數(shù)父母越來越頭疼的作業(yè)輔導(dǎo),現(xiàn)在也能全權(quán)交給豆包APP了。
為了加大難度,這里我們直接上今年IMO(國際數(shù)學(xué)奧林匹克競賽)的第一題:
看不懂不要緊,直接交給豆包——在經(jīng)過明顯時間更長的思考后,它通過一步步推理最終給出了正確答案。
有一說一,答案是否正確我等凡人也看不太懂,所以交給了ChatGPT這個第三方裁判,讓它來對比一下豆包APP和網(wǎng)上公開的人類選手給出的正確答案是否一致。
ChatGPT經(jīng)過分析后認為,雖然解答方法不一樣,但二者的結(jié)論是一致的。
與此同時,豆包APP也能用于日常工作——比如將一份財報數(shù)據(jù)一鍵提取成表格。
話不多說,直接丟一份蘋果公司財報試試:
逐一檢查后,豆包有效hold住了數(shù)據(jù)準確性的考驗,而且還支持橫向全屏查看。
當識圖準確性這個“攔路虎”搞定后,豆包APP能夠發(fā)揮作用的空間也就更廣泛了,包括但不限于:
拍攝PPT、會議紀要或白板筆記中的表格內(nèi)容,快速轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù);提取合同截圖或發(fā)票上的費用明細表;提取商品報價表、庫存表、銷售明細表截圖;
豆包的邊想邊搜,有夠靈活
從上面種種的實測中,我們不難發(fā)現(xiàn)豆包的思考鏈所具備的一個亮點——邊想邊搜。
傳統(tǒng)AI的思考過程,大多采用的是“先搜后想”模式,也就是先一次性抓取海量信息,然后基于已經(jīng)搜到的這些信息進行推理,范圍相對有限、靈活性不足。
而豆包APP的“邊想邊搜”更像是一個“動態(tài)推理+多輪搜索”的過程。
在這個模式下,AI會根據(jù)推理的需要,在深度思考的過程中多次調(diào)用搜索、圖片分析等不同工具來獲取和驗證信息,從而提供更加全面、準確的結(jié)果。
這個完整的思考鏈條,會根據(jù)用戶問題的具體情況,靈活地接入圖片理解和信息搜索。
例如,在思考推理過程中,它既可能需要通過文字信息去檢索和分析圖片(文搜圖),也可能需要根據(jù)圖片內(nèi)容去反向查找相關(guān)信息(圖搜文、圖搜圖)。
為了更直觀地展示這個過程,我們嘗試用它來找一部記憶模糊的童年動畫片:
而就是這樣寥寥幾句,豆包APP通過多輪關(guān)鍵詞檢索和圖片分析,幫忙成功找到了《SuperWhy》這部童年經(jīng)典。
圖搜圖就和開頭展示的例子類似,在此不再過多贅述。
至于在思考過程中展現(xiàn)圖搜文,下面根據(jù)某張技術(shù)截圖反向查找原始論文出處的例子就淋漓盡致地展現(xiàn)了這種能力。
豆包APP通過3輪搜索+調(diào)用圖片分析工具,一步步鎖定了這是OpenAI發(fā)表的論文《Traininglanguagemodelstofollowinstructionswithhumanfeedback》。
而經(jīng)過實際對比,這張圖也的確是該論文中的Figure1。
Okk,林林總總體驗下來,豆包APP現(xiàn)在確實屬于邊思考邊搜邊巧用工具的“六邊形戰(zhàn)士”了。
一句話,以后遇到啥問題都能隨手一拍或截圖丟給它。
事實上,不止豆包APP,如今幾乎整個行業(yè)都在朝視覺推理這個方向狂飆突進。
今年以來,以O(shè)penAI為代表推出的o3、o4-mini等推理模型,幾乎憑一己之力將圖像納入推理鏈,開啟了多模態(tài)深度理解的新范式。
隨后,視覺推理能力迅速成為衡量大模型綜合實力的新技術(shù)門檻,在國內(nèi)外掀起了新一輪競速熱潮。
細究起來,這背后其實有兩大核心驅(qū)動力:一曰技術(shù),二曰需求。
一方面,多模態(tài)技術(shù)的持續(xù)發(fā)展,為視覺推理提供了強有力的技術(shù)支撐。
由于主流大模型均采用Transformer架構(gòu),它具備天然的多模態(tài)融合能力,能夠?qū)ξ淖?、圖像、音頻等不同模態(tài)的信息進行統(tǒng)一編碼和高效處理。
因此,帶圖推理在技術(shù)上實際并非遙不可及。
而且發(fā)展多模態(tài)目前已成為AI圈的共識之一,顯而易見,作為多模態(tài)智能重要組成部分的視覺推理,也大概率將隨之水漲船高,成為競逐熱點之一。
更不必提,視覺推理也確實存在真真切切的行業(yè)及用戶需求。
從行業(yè)角度來看,視覺推理是落地多種應(yīng)用場景的關(guān)鍵能力。
比如在工業(yè)制造領(lǐng)域,視覺推理可用于無序分揀、晶圓缺陷檢測、電池極片3D輪廓測量等復(fù)雜場景;在醫(yī)療領(lǐng)域,視覺推理能夠助力手術(shù)導(dǎo)航、病理圖像分析等應(yīng)用……如此種種不勝枚舉。
而對普通用戶來說,鑒于現(xiàn)實中圖文混合的信息越來越多,人們越來越需要的不只是“識圖”,而是真正理解圖中的邏輯與內(nèi)容。
就像我們在實測環(huán)節(jié)看到的那樣,在圖像問答、文檔解析等多個場景中,具備視覺推理能力的模型已經(jīng)可以像人類一樣識別細節(jié)、分析關(guān)系、做出判斷,極大提升了信息獲取和處理的效率。
綜上所述,可以說技術(shù)的成熟與需求的涌現(xiàn),在此時此刻實現(xiàn)了高度契合,從而帶動了視覺推理能力迅速升溫,成為新階段的核心看點之一。
當然,大道理歸大道理。對我們普通用戶來說,最直接的變化是:o3、o4-mini等需要氪金才能用的功能,如今已經(jīng)能在豆包APP里低門檻、免費用上。
豆包這波,也算是真正把“帶圖推理”打下來了~
p.s.豆包APP現(xiàn)已全量上線帶圖推理功能,不過需要更新至最新的9.5.0版本才能體驗哦。
了凡四訓(xùn)講記 是一本有益世道人心 凈化社會風(fēng)氣不可多得的佳作 其原文簡潔流暢、 深得佛理 對人們修身改過、 創(chuàng)造命運有著非常深刻的啟示作用。 凈空法師用簡練明白的語言, 對原著加以深刻解讀, 以《 了凡四訓(xùn)》 為綱, 將精深的佛理講得深入淺出, 使人聽后如沐春風(fēng)。 凈空法師的講解可以讓人看透紛繁世相, 斷卻無謂煩惱, 發(fā)改過決心, 生勇猛精進之意, 使人信心倍增, 全力改造自己的命運, 追求無限幸福。