智東西AI前瞻(公眾號(hào):zhidxcomAI)作者江宇編輯漠影
智東西AI前瞻7月29日?qǐng)?bào)道,今日,豆包App宣布“視覺推理能力”全面升級(jí),正式上線圖像分析的深度思考模式。
用戶只需拍攝或上傳一張圖片,即可在“深度思考”模式下使用放大、裁剪、圖搜等功能,結(jié)合邊看圖邊發(fā)問的交互方式,實(shí)現(xiàn)更高精度的圖片語義理解和推理能力。
這一升級(jí)不僅支持識(shí)別圖中物體,更進(jìn)一步延伸到對(duì)圖像背后場(chǎng)景的理解判斷。
一、拍圖就能提問,豆包開啟“邊看圖邊思考”新交互
在本次升級(jí)中,豆包新增的“深度思考”模式,支持用戶圍繞圖片本身進(jìn)行自由提問。
無論是拍攝街景、上傳老照片,還是記錄物件,都可以直接向豆包提出“這是什么”“在哪里”“屬于哪個(gè)年代”等問題,系統(tǒng)會(huì)結(jié)合圖像內(nèi)容進(jìn)行推理分析,給出解釋。
功能入口已集成在豆包App對(duì)話界面中,用戶選擇“深度思考”,上傳圖片后即可觸發(fā)分析流程。
“以圖搜圖”模式下,豆包還可自動(dòng)激活圖像放大、裁剪、圖片搜索等工具,幫助用戶進(jìn)一步觀察細(xì)節(jié),提升問答準(zhǔn)確性。
二、一次完整旅行對(duì)話:豆包從“在哪”到“帶啥相機(jī)”都能幫你安排
這次體驗(yàn)中,智東西模擬了一次“從照片出發(fā)規(guī)劃旅行”的完整對(duì)話流程。
1、上傳街拍圖,豆包識(shí)別出“你在哪”
第一步,智東西上傳了一張街頭照片,并詢問“我在哪?”。
豆包在未提供任何位置信息的情況下,識(shí)別出畫面為“上海的武康大樓附近”,并補(bǔ)充說明其為“上海具有代表性的歷史建筑,也是網(wǎng)紅打卡地”。
進(jìn)一步追問“這幅圖是不是照騙”“暑假適合去嗎”,豆包的回答也較為全面:指出照片中建筑外觀與實(shí)景一致,但構(gòu)圖和光線可能增強(qiáng)了美感;同時(shí)給出天氣、人流、交通等方面的旅游建議,提醒避高溫、錯(cuò)峰出行、準(zhǔn)備防暑物品等,具有實(shí)際參考意義。
2、上傳江南街景圖,豆包識(shí)別景點(diǎn),并生成2天1夜旅行攻略
接著,智東西上傳了一張江南水鄉(xiāng)風(fēng)格的街景圖,想讓豆包生成“換場(chǎng)”的旅游攻略。
豆包識(shí)別出這是“蘇州平江歷史文化街區(qū)(平江路)”,并描述其“河道蜿蜒、白墻黛瓦、搖櫓船穿行其間”的場(chǎng)景特征。
隨后提出“我想同時(shí)去這兩個(gè)地方,如何安排行程?”的問題后,豆包生成了一份詳盡的“武康大樓+平江路2天1夜”旅行攻略。
內(nèi)容覆蓋每日路線、跨城交通、拍照點(diǎn)位、文藝店鋪、餐館推薦、防暑提醒等細(xì)節(jié),結(jié)構(gòu)清晰,實(shí)用性強(qiáng)。
整體來看,豆包在“圖片分析”模式下,具備地點(diǎn)識(shí)別能力,還能基于多個(gè)目標(biāo)地點(diǎn),串聯(lián)生成完整的旅行計(jì)劃,展現(xiàn)出較強(qiáng)的上下文理解與推理能力。
3、拍CCD攤位,豆包識(shí)別型號(hào)并推薦適合“出片”的機(jī)型
在確定了行程后,智東西又上傳了一張街邊復(fù)古相機(jī)攤的圖,想讓豆包推薦適合拍照的機(jī)型。
豆包迅速識(shí)別出圖中主要為“膠片傻瓜機(jī)”“旁軸相機(jī)”等類型,并準(zhǔn)確指出Olympusμ2、CanonAutoboyD5、LeicaCM等具體型號(hào),細(xì)節(jié)識(shí)別能力表現(xiàn)較為扎實(shí)。
此后,圍繞“如何選出片效果好的相機(jī)”的問題,豆包還提供了分層級(jí)的購機(jī)建議,包括新手入門、進(jìn)階玩家的不同選擇,并對(duì)操作難度、風(fēng)格偏好、預(yù)算區(qū)間等做出說明。
它還特別提示了購買二手機(jī)時(shí)需檢查快門、鏡頭等細(xì)節(jié),并估算了拍攝和沖洗膠片的實(shí)際成本。
在這類物品識(shí)別與使用建議任務(wù)中,豆包已初步具備“看圖-識(shí)別-建議”閉環(huán)能力,尤其適用于旅游類消費(fèi)決策場(chǎng)景。
三、冷門景點(diǎn)識(shí)別挑戰(zhàn):這回豆包也拿不準(zhǔn)
為測(cè)試在“非熱門地標(biāo)+自然景觀”條件下的表現(xiàn),智東西還上傳了一張南京止馬嶺的實(shí)拍照片。
這張圖沒有明顯的地標(biāo)建筑或文字提示,視覺線索相對(duì)稀少。豆包未能識(shí)別出“止馬嶺”這一具體地點(diǎn),但結(jié)合杉樹的外形特征、水中生長環(huán)境以及秋季色彩,判斷其為“池杉或水杉濕地景觀”。
調(diào)用10篇資料后,豆包推測(cè)可能拍攝于“成都白鷺灣濕地公園”,并在參考結(jié)果中提及“常州翠竹公園”“南京止馬嶺”等相似景點(diǎn)——雖未命中,但說明其在模糊場(chǎng)景下具備一定類比和搜索整合能力。
不過,從整體判斷來看,豆包對(duì)于這類非網(wǎng)紅、無標(biāo)識(shí)的自然景觀,其定位準(zhǔn)確性仍有限。
結(jié)語:視覺能力升級(jí),讓圖片成為“主動(dòng)提問入口”
通過此次體驗(yàn)可以看到,豆包在視覺推理能力升級(jí)后,已不再局限于“看圖識(shí)物”,而是圍繞圖片內(nèi)容展開多輪對(duì)話式分析,支持定位、推薦、規(guī)劃、選品等復(fù)雜需求。
無論是上傳旅游照片判斷城市位置、分析圖中場(chǎng)景是否值得游覽,還是識(shí)別老物件類型并給出購買建議,豆包均展示出清晰的答案與解釋。
對(duì)于用戶而言,這種“邊看圖邊問圖”的交互方式,不再要求精準(zhǔn)描述,而是讓圖像本身成為入口,推動(dòng)AI推理主動(dòng)向前走一步。
雖然在部分冷門場(chǎng)景下還存在判斷不準(zhǔn)、搜索依賴重的問題,但豆包在圖片分析中的表現(xiàn)已初步具備“能看圖、敢思考、會(huì)回答”的雛形,未來或?qū)⑾蚋钊氲膱D像語義理解能力演進(jìn)。
延伸閱讀:與 {一張圖就}能幫你規(guī)劃:暑;假出行 的相關(guān)文章