候鴻煊
智東西AI前瞻(公眾號:zhidxcomAI)作者江宇編輯漠影
智東西AI前瞻7月29日報(bào)道,今日,豆包App宣布“視覺推理能力”全面升級,正式上線圖像分析的深度思考模式。
用戶只需拍攝或上傳一張圖片,即可在“深度思考”模式下使用放大、裁剪、圖搜等功能,結(jié)合邊看圖邊發(fā)問的交互方式,實(shí)現(xiàn)更高精度的圖片語義理解和推理能力。
這一升級不僅支持識別圖中物體,更進(jìn)一步延伸到對圖像背后場景的理解判斷。
一、拍圖就能提問,豆包開啟“邊看圖邊思考”新交互
在本次升級中,豆包新增的“深度思考”模式,支持用戶圍繞圖片本身進(jìn)行自由提問。
無論是拍攝街景、上傳老照片,還是記錄物件,都可以直接向豆包提出“這是什么”“在哪里”“屬于哪個(gè)年代”等問題,系統(tǒng)會結(jié)合圖像內(nèi)容進(jìn)行推理分析,給出解釋。
功能入口已集成在豆包App對話界面中,用戶選擇“深度思考”,上傳圖片后即可觸發(fā)分析流程。
“以圖搜圖”模式下,豆包還可自動激活圖像放大、裁剪、圖片搜索等工具,幫助用戶進(jìn)一步觀察細(xì)節(jié),提升問答準(zhǔn)確性。
二、一次完整旅行對話:豆包從“在哪”到“帶啥相機(jī)”都能幫你安排
這次體驗(yàn)中,智東西模擬了一次“從照片出發(fā)規(guī)劃旅行”的完整對話流程。
1、上傳街拍圖,豆包識別出“你在哪”
第一步,智東西上傳了一張街頭照片,并詢問“我在哪?”。
豆包在未提供任何位置信息的情況下,識別出畫面為“上海的武康大樓附近”,并補(bǔ)充說明其為“上海具有代表性的歷史建筑,也是網(wǎng)紅打卡地”。
進(jìn)一步追問“這幅圖是不是照騙”“暑假適合去嗎”,豆包的回答也較為全面:指出照片中建筑外觀與實(shí)景一致,但構(gòu)圖和光線可能增強(qiáng)了美感;同時(shí)給出天氣、人流、交通等方面的旅游建議,提醒避高溫、錯(cuò)峰出行、準(zhǔn)備防暑物品等,具有實(shí)際參考意義。
2、上傳江南街景圖,豆包識別景點(diǎn),并生成2天1夜旅行攻略
接著,智東西上傳了一張江南水鄉(xiāng)風(fēng)格的街景圖,想讓豆包生成“換場”的旅游攻略。
豆包識別出這是“蘇州平江歷史文化街區(qū)(平江路)”,并描述其“河道蜿蜒、白墻黛瓦、搖櫓船穿行其間”的場景特征。
隨后提出“我想同時(shí)去這兩個(gè)地方,如何安排行程?”的問題后,豆包生成了一份詳盡的“武康大樓+平江路2天1夜”旅行攻略。
內(nèi)容覆蓋每日路線、跨城交通、拍照點(diǎn)位、文藝店鋪、餐館推薦、防暑提醒等細(xì)節(jié),結(jié)構(gòu)清晰,實(shí)用性強(qiáng)。
整體來看,豆包在“圖片分析”模式下,具備地點(diǎn)識別能力,還能基于多個(gè)目標(biāo)地點(diǎn),串聯(lián)生成完整的旅行計(jì)劃,展現(xiàn)出較強(qiáng)的上下文理解與推理能力。
3、拍CCD攤位,豆包識別型號并推薦適合“出片”的機(jī)型
在確定了行程后,智東西又上傳了一張街邊復(fù)古相機(jī)攤的圖,想讓豆包推薦適合拍照的機(jī)型。
豆包迅速識別出圖中主要為“膠片傻瓜機(jī)”“旁軸相機(jī)”等類型,并準(zhǔn)確指出Olympusμ2、CanonAutoboyD5、LeicaCM等具體型號,細(xì)節(jié)識別能力表現(xiàn)較為扎實(shí)。
此后,圍繞“如何選出片效果好的相機(jī)”的問題,豆包還提供了分層級的購機(jī)建議,包括新手入門、進(jìn)階玩家的不同選擇,并對操作難度、風(fēng)格偏好、預(yù)算區(qū)間等做出說明。
它還特別提示了購買二手機(jī)時(shí)需檢查快門、鏡頭等細(xì)節(jié),并估算了拍攝和沖洗膠片的實(shí)際成本。
在這類物品識別與使用建議任務(wù)中,豆包已初步具備“看圖-識別-建議”閉環(huán)能力,尤其適用于旅游類消費(fèi)決策場景。
三、冷門景點(diǎn)識別挑戰(zhàn):這回豆包也拿不準(zhǔn)
為測試在“非熱門地標(biāo)+自然景觀”條件下的表現(xiàn),智東西還上傳了一張南京止馬嶺的實(shí)拍照片。
這張圖沒有明顯的地標(biāo)建筑或文字提示,視覺線索相對稀少。豆包未能識別出“止馬嶺”這一具體地點(diǎn),但結(jié)合杉樹的外形特征、水中生長環(huán)境以及秋季色彩,判斷其為“池杉或水杉濕地景觀”。
調(diào)用10篇資料后,豆包推測可能拍攝于“成都白鷺灣濕地公園”,并在參考結(jié)果中提及“常州翠竹公園”“南京止馬嶺”等相似景點(diǎn)——雖未命中,但說明其在模糊場景下具備一定類比和搜索整合能力。
不過,從整體判斷來看,豆包對于這類非網(wǎng)紅、無標(biāo)識的自然景觀,其定位準(zhǔn)確性仍有限。
結(jié)語:視覺能力升級,讓圖片成為“主動提問入口”
通過此次體驗(yàn)可以看到,豆包在視覺推理能力升級后,已不再局限于“看圖識物”,而是圍繞圖片內(nèi)容展開多輪對話式分析,支持定位、推薦、規(guī)劃、選品等復(fù)雜需求。
無論是上傳旅游照片判斷城市位置、分析圖中場景是否值得游覽,還是識別老物件類型并給出購買建議,豆包均展示出清晰的答案與解釋。
對于用戶而言,這種“邊看圖邊問圖”的交互方式,不再要求精準(zhǔn)描述,而是讓圖像本身成為入口,推動AI推理主動向前走一步。
雖然在部分冷門場景下還存在判斷不準(zhǔn)、搜索依賴重的問題,但豆包在圖片分析中的表現(xiàn)已初步具備“能看圖、敢思考、會回答”的雛形,未來或?qū)⑾蚋钊氲膱D像語義理解能力演進(jìn)。
來源:紅網(wǎng)
作者:蔡坡君
編輯:林國蘋
本文為紅辣椒評論 原創(chuàng)文章,僅系作者個(gè)人觀點(diǎn),不代表紅網(wǎng)立場。轉(zhuǎn)載請附原文出處鏈接和本聲明。