孫嘉美
智東西AI前瞻(公眾號:zhidxcomAI)作者江宇編輯漠影
智東西AI前瞻7月29日報道,今日,豆包App宣布“視覺推理能力”全面升級,正式上線圖像分析的深度思考模式。
用戶只需拍攝或上傳一張圖片,即可在“深度思考”模式下使用放大、裁剪、圖搜等功能,結合邊看圖邊發(fā)問的交互方式,實現(xiàn)更高精度的圖片語義理解和推理能力。
這一升級不僅支持識別圖中物體,更進一步延伸到對圖像背后場景的理解判斷。
一、拍圖就能提問,豆包開啟“邊看圖邊思考”新交互
在本次升級中,豆包新增的“深度思考”模式,支持用戶圍繞圖片本身進行自由提問。
無論是拍攝街景、上傳老照片,還是記錄物件,都可以直接向豆包提出“這是什么”“在哪里”“屬于哪個年代”等問題,系統(tǒng)會結合圖像內容進行推理分析,給出解釋。
功能入口已集成在豆包App對話界面中,用戶選擇“深度思考”,上傳圖片后即可觸發(fā)分析流程。
“以圖搜圖”模式下,豆包還可自動激活圖像放大、裁剪、圖片搜索等工具,幫助用戶進一步觀察細節(jié),提升問答準確性。
二、一次完整旅行對話:豆包從“在哪”到“帶啥相機”都能幫你安排
這次體驗中,智東西模擬了一次“從照片出發(fā)規(guī)劃旅行”的完整對話流程。
1、上傳街拍圖,豆包識別出“你在哪”
第一步,智東西上傳了一張街頭照片,并詢問“我在哪?”。
豆包在未提供任何位置信息的情況下,識別出畫面為“上海的武康大樓附近”,并補充說明其為“上海具有代表性的歷史建筑,也是網(wǎng)紅打卡地”。
進一步追問“這幅圖是不是照騙”“暑假適合去嗎”,豆包的回答也較為全面:指出照片中建筑外觀與實景一致,但構圖和光線可能增強了美感;同時給出天氣、人流、交通等方面的旅游建議,提醒避高溫、錯峰出行、準備防暑物品等,具有實際參考意義。
2、上傳江南街景圖,豆包識別景點,并生成2天1夜旅行攻略
接著,智東西上傳了一張江南水鄉(xiāng)風格的街景圖,想讓豆包生成“換場”的旅游攻略。
豆包識別出這是“蘇州平江歷史文化街區(qū)(平江路)”,并描述其“河道蜿蜒、白墻黛瓦、搖櫓船穿行其間”的場景特征。
隨后提出“我想同時去這兩個地方,如何安排行程?”的問題后,豆包生成了一份詳盡的“武康大樓+平江路2天1夜”旅行攻略。
內容覆蓋每日路線、跨城交通、拍照點位、文藝店鋪、餐館推薦、防暑提醒等細節(jié),結構清晰,實用性強。
整體來看,豆包在“圖片分析”模式下,具備地點識別能力,還能基于多個目標地點,串聯(lián)生成完整的旅行計劃,展現(xiàn)出較強的上下文理解與推理能力。
3、拍CCD攤位,豆包識別型號并推薦適合“出片”的機型
在確定了行程后,智東西又上傳了一張街邊復古相機攤的圖,想讓豆包推薦適合拍照的機型。
豆包迅速識別出圖中主要為“膠片傻瓜機”“旁軸相機”等類型,并準確指出Olympusμ2、CanonAutoboyD5、LeicaCM等具體型號,細節(jié)識別能力表現(xiàn)較為扎實。
此后,圍繞“如何選出片效果好的相機”的問題,豆包還提供了分層級的購機建議,包括新手入門、進階玩家的不同選擇,并對操作難度、風格偏好、預算區(qū)間等做出說明。
它還特別提示了購買二手機時需檢查快門、鏡頭等細節(jié),并估算了拍攝和沖洗膠片的實際成本。
在這類物品識別與使用建議任務中,豆包已初步具備“看圖-識別-建議”閉環(huán)能力,尤其適用于旅游類消費決策場景。
三、冷門景點識別挑戰(zhàn):這回豆包也拿不準
為測試在“非熱門地標+自然景觀”條件下的表現(xiàn),智東西還上傳了一張南京止馬嶺的實拍照片。
這張圖沒有明顯的地標建筑或文字提示,視覺線索相對稀少。豆包未能識別出“止馬嶺”這一具體地點,但結合杉樹的外形特征、水中生長環(huán)境以及秋季色彩,判斷其為“池杉或水杉濕地景觀”。
調用10篇資料后,豆包推測可能拍攝于“成都白鷺灣濕地公園”,并在參考結果中提及“常州翠竹公園”“南京止馬嶺”等相似景點——雖未命中,但說明其在模糊場景下具備一定類比和搜索整合能力。
不過,從整體判斷來看,豆包對于這類非網(wǎng)紅、無標識的自然景觀,其定位準確性仍有限。
結語:視覺能力升級,讓圖片成為“主動提問入口”
通過此次體驗可以看到,豆包在視覺推理能力升級后,已不再局限于“看圖識物”,而是圍繞圖片內容展開多輪對話式分析,支持定位、推薦、規(guī)劃、選品等復雜需求。
無論是上傳旅游照片判斷城市位置、分析圖中場景是否值得游覽,還是識別老物件類型并給出購買建議,豆包均展示出清晰的答案與解釋。
對于用戶而言,這種“邊看圖邊問圖”的交互方式,不再要求精準描述,而是讓圖像本身成為入口,推動AI推理主動向前走一步。
雖然在部分冷門場景下還存在判斷不準、搜索依賴重的問題,但豆包在圖片分析中的表現(xiàn)已初步具備“能看圖、敢思考、會回答”的雛形,未來或將向更深入的圖像語義理解能力演進。
《滅世武修》已失寵,一部開局流小說脫穎而出,9.8分霸占榜眼!
《滅世武修》作者:天上無魚第一章成婚雪山上銀裝素裹,呼嘯的山風,裹挾著白雪,飛揚散漫。在積雪厚達三尺的雪面上,烏恒艱難的往前爬行著,風干的血跡染紅了他一身單薄的衣裳|——。卷席而來的寒風侵蝕著他肩上深入見骨的傷口,劇烈的疼痛感傳遍全身,烏恒咬牙堅持,但已經(jīng)雙眼乏力,昏昏欲睡。三天三夜不吃不喝好了吧!
3本踏入遠古遺跡的玄幻小說,解謎千年謎團,掌握無上力量!
《滅世武修》簡介:一條枷鎖,鏈住萬千星域。一顆心臟,沉浮黎明破曉————。 無數(shù)位面大陸,宗門林立,站在絕巔者,可笑蒼天,瞰大地|-。本是一代神體,卻得滅世傳承,是沉淪殺戮,還是走上巔峰之道? 且看烏恒如何抉擇……一念萬域! 到最后,烏恒睜開雙眼,看到的是漫天星辰,無垠宇宙,這一刻,烏恒超脫了時間與空間,逆天希望你能滿意。
《滅世武修》遺憾出局,躍千愁攜9.8分新文強勢霸榜!
來源:紅網(wǎng)
作者:姚奕翔
編輯:兆昊天
本文為紅辣椒評論 原創(chuàng)文章,僅系作者個人觀點,不代表紅網(wǎng)立場。轉載請附原文出處鏈接和本聲明。