鄧淑芬
智東西AI前瞻(公眾號(hào):zhidxcomAI)作者江宇編輯漠影
智東西AI前瞻7月29日報(bào)道,今日,豆包App宣布“視覺推理能力”全面升級,正式上線圖像分析的深度思考模式。
用戶只需拍攝或上傳一張圖片,即可在“深度思考”模式下使用放大、裁剪、圖搜等功能,結(jié)合邊看圖邊發(fā)問的交互方式,實(shí)現(xiàn)更高精度的圖片語義理解和推理能力。
這一升級不僅支持識(shí)別圖中物體,更進(jìn)一步延伸到對圖像背后場景的理解判斷。
一、拍圖就能提問,豆包開啟“邊看圖邊思考”新交互
在本次升級中,豆包新增的“深度思考”模式,支持用戶圍繞圖片本身進(jìn)行自由提問。
無論是拍攝街景、上傳老照片,還是記錄物件,都可以直接向豆包提出“這是什么”“在哪里”“屬于哪個(gè)年代”等問題,系統(tǒng)會(huì)結(jié)合圖像內(nèi)容進(jìn)行推理分析,給出解釋。
功能入口已集成在豆包App對話界面中,用戶選擇“深度思考”,上傳圖片后即可觸發(fā)分析流程。
“以圖搜圖”模式下,豆包還可自動(dòng)激活圖像放大、裁剪、圖片搜索等工具,幫助用戶進(jìn)一步觀察細(xì)節(jié),提升問答準(zhǔn)確性。
二、一次完整旅行對話:豆包從“在哪”到“帶啥相機(jī)”都能幫你安排
這次體驗(yàn)中,智東西模擬了一次“從照片出發(fā)規(guī)劃旅行”的完整對話流程。
1、上傳街拍圖,豆包識(shí)別出“你在哪”
第一步,智東西上傳了一張街頭照片,并詢問“我在哪?”。
豆包在未提供任何位置信息的情況下,識(shí)別出畫面為“上海的武康大樓附近”,并補(bǔ)充說明其為“上海具有代表性的歷史建筑,也是網(wǎng)紅打卡地”。
進(jìn)一步追問“這幅圖是不是照騙”“暑假適合去嗎”,豆包的回答也較為全面:指出照片中建筑外觀與實(shí)景一致,但構(gòu)圖和光線可能增強(qiáng)了美感;同時(shí)給出天氣、人流、交通等方面的旅游建議,提醒避高溫、錯(cuò)峰出行、準(zhǔn)備防暑物品等,具有實(shí)際參考意義。
2、上傳江南街景圖,豆包識(shí)別景點(diǎn),并生成2天1夜旅行攻略
接著,智東西上傳了一張江南水鄉(xiāng)風(fēng)格的街景圖,想讓豆包生成“換場”的旅游攻略。
豆包識(shí)別出這是“蘇州平江歷史文化街區(qū)(平江路)”,并描述其“河道蜿蜒、白墻黛瓦、搖櫓船穿行其間”的場景特征。
隨后提出“我想同時(shí)去這兩個(gè)地方,如何安排行程?”的問題后,豆包生成了一份詳盡的“武康大樓+平江路2天1夜”旅行攻略。
內(nèi)容覆蓋每日路線、跨城交通、拍照點(diǎn)位、文藝店鋪、餐館推薦、防暑提醒等細(xì)節(jié),結(jié)構(gòu)清晰,實(shí)用性強(qiáng)。
整體來看,豆包在“圖片分析”模式下,具備地點(diǎn)識(shí)別能力,還能基于多個(gè)目標(biāo)地點(diǎn),串聯(lián)生成完整的旅行計(jì)劃,展現(xiàn)出較強(qiáng)的上下文理解與推理能力。
3、拍CCD攤位,豆包識(shí)別型號(hào)并推薦適合“出片”的機(jī)型
在確定了行程后,智東西又上傳了一張街邊復(fù)古相機(jī)攤的圖,想讓豆包推薦適合拍照的機(jī)型。
豆包迅速識(shí)別出圖中主要為“膠片傻瓜機(jī)”“旁軸相機(jī)”等類型,并準(zhǔn)確指出Olympusμ2、CanonAutoboyD5、LeicaCM等具體型號(hào),細(xì)節(jié)識(shí)別能力表現(xiàn)較為扎實(shí)。
此后,圍繞“如何選出片效果好的相機(jī)”的問題,豆包還提供了分層級的購機(jī)建議,包括新手入門、進(jìn)階玩家的不同選擇,并對操作難度、風(fēng)格偏好、預(yù)算區(qū)間等做出說明。
它還特別提示了購買二手機(jī)時(shí)需檢查快門、鏡頭等細(xì)節(jié),并估算了拍攝和沖洗膠片的實(shí)際成本。
在這類物品識(shí)別與使用建議任務(wù)中,豆包已初步具備“看圖-識(shí)別-建議”閉環(huán)能力,尤其適用于旅游類消費(fèi)決策場景。
三、冷門景點(diǎn)識(shí)別挑戰(zhàn):這回豆包也拿不準(zhǔn)
為測試在“非熱門地標(biāo)+自然景觀”條件下的表現(xiàn),智東西還上傳了一張南京止馬嶺的實(shí)拍照片。
這張圖沒有明顯的地標(biāo)建筑或文字提示,視覺線索相對稀少。豆包未能識(shí)別出“止馬嶺”這一具體地點(diǎn),但結(jié)合杉樹的外形特征、水中生長環(huán)境以及秋季色彩,判斷其為“池杉或水杉濕地景觀”。
調(diào)用10篇資料后,豆包推測可能拍攝于“成都白鷺灣濕地公園”,并在參考結(jié)果中提及“常州翠竹公園”“南京止馬嶺”等相似景點(diǎn)——雖未命中,但說明其在模糊場景下具備一定類比和搜索整合能力。
不過,從整體判斷來看,豆包對于這類非網(wǎng)紅、無標(biāo)識(shí)的自然景觀,其定位準(zhǔn)確性仍有限。
結(jié)語:視覺能力升級,讓圖片成為“主動(dòng)提問入口”
通過此次體驗(yàn)可以看到,豆包在視覺推理能力升級后,已不再局限于“看圖識(shí)物”,而是圍繞圖片內(nèi)容展開多輪對話式分析,支持定位、推薦、規(guī)劃、選品等復(fù)雜需求。
無論是上傳旅游照片判斷城市位置、分析圖中場景是否值得游覽,還是識(shí)別老物件類型并給出購買建議,豆包均展示出清晰的答案與解釋。
對于用戶而言,這種“邊看圖邊問圖”的交互方式,不再要求精準(zhǔn)描述,而是讓圖像本身成為入口,推動(dòng)AI推理主動(dòng)向前走一步。
雖然在部分冷門場景下還存在判斷不準(zhǔn)、搜索依賴重的問題,但豆包在圖片分析中的表現(xiàn)已初步具備“能看圖、敢思考、會(huì)回答”的雛形,未來或?qū)⑾蚋钊氲膱D像語義理解能力演進(jìn)。
徒兒無敵下山,與九位貌美師娘同居的奇妙生活
“你報(bào)仇的事情,為師就一句,該殺就殺,沒什么好說的!那種忘恩負(fù)義之人,死有余辜!”“記?。∧闶翘摾系赖膫魅?!下山之后,不要掉了老夫的名頭!看誰不爽就盤他,只要老夫活著,天就塌不下來!”看著手中的書信,和面前包裹中的東西,李道風(fēng)跪地,又磕了幾個(gè)頭!“師父!您的大恩大德,弟子永世不忘!
小說:全能術(shù)師陳澈下山復(fù)仇,與師姐師娘共譜愛恨情仇
《徒兒,你不是真無敵,世間還有你老婆》作者:束山有草第一章上門報(bào)恩“臭小子,我有個(gè)朋友遇到了麻煩,需要我的幫助,所以我要離開一段時(shí)間,什時(shí)候回來說不準(zhǔn)。”“你也別縮在這個(gè)山溝溝的天天玩泥巴了,十年前我在外面欠了一個(gè)人情,我當(dāng)時(shí)跟他說了,將來會(huì)讓我弟子來娶她孫女還這個(gè)人情?!薄澳隳玫任依^續(xù)說。
天師下山退婚記,李林陷花海,攪動(dòng)江湖風(fēng)云
至于醫(yī)術(shù)方面,那就更不用說了,只能用兩個(gè)字來形容——神奇!“徒兒啊,為師大限已到,馬上就要駕鶴西去,你不必悲傷——|?!崩项^子顫顫巍巍抬起手,將一塊玉佩遞給林楓,叮囑道:“現(xiàn)在,你已經(jīng)沒有什么可以留戀的了,快快下山去找你師姐,還有玉佩你一定要收好,這關(guān)系到你的一樁機(jī)緣——?!绷謼靼延衽宕нM(jìn)兜里,抹說完了|。
來源:紅網(wǎng)
作者:吳凌蝶
編輯:茆海
本文為紅辣椒評論 原創(chuàng)文章,僅系作者個(gè)人觀點(diǎn),不代表紅網(wǎng)立場。轉(zhuǎn)載請附原文出處鏈接和本聲明。