仉陽霽
智東西AI前瞻(公眾號:zhidxcomAI)作者江宇編輯漠影
智東西AI前瞻7月29日報(bào)道,今日,豆包App宣布“視覺推理能力”全面升級,正式上線圖像分析的深度思考模式。
用戶只需拍攝或上傳一張圖片,即可在“深度思考”模式下使用放大、裁剪、圖搜等功能,結(jié)合邊看圖邊發(fā)問的交互方式,實(shí)現(xiàn)更高精度的圖片語義理解和推理能力。
這一升級不僅支持識別圖中物體,更進(jìn)一步延伸到對圖像背后場景的理解判斷。
一、拍圖就能提問,豆包開啟“邊看圖邊思考”新交互
在本次升級中,豆包新增的“深度思考”模式,支持用戶圍繞圖片本身進(jìn)行自由提問。
無論是拍攝街景、上傳老照片,還是記錄物件,都可以直接向豆包提出“這是什么”“在哪里”“屬于哪個(gè)年代”等問題,系統(tǒng)會結(jié)合圖像內(nèi)容進(jìn)行推理分析,給出解釋。
功能入口已集成在豆包App對話界面中,用戶選擇“深度思考”,上傳圖片后即可觸發(fā)分析流程。
“以圖搜圖”模式下,豆包還可自動(dòng)激活圖像放大、裁剪、圖片搜索等工具,幫助用戶進(jìn)一步觀察細(xì)節(jié),提升問答準(zhǔn)確性。
二、一次完整旅行對話:豆包從“在哪”到“帶啥相機(jī)”都能幫你安排
這次體驗(yàn)中,智東西模擬了一次“從照片出發(fā)規(guī)劃旅行”的完整對話流程。
1、上傳街拍圖,豆包識別出“你在哪”
第一步,智東西上傳了一張街頭照片,并詢問“我在哪?”。
豆包在未提供任何位置信息的情況下,識別出畫面為“上海的武康大樓附近”,并補(bǔ)充說明其為“上海具有代表性的歷史建筑,也是網(wǎng)紅打卡地”。
進(jìn)一步追問“這幅圖是不是照騙”“暑假適合去嗎”,豆包的回答也較為全面:指出照片中建筑外觀與實(shí)景一致,但構(gòu)圖和光線可能增強(qiáng)了美感;同時(shí)給出天氣、人流、交通等方面的旅游建議,提醒避高溫、錯(cuò)峰出行、準(zhǔn)備防暑物品等,具有實(shí)際參考意義。
2、上傳江南街景圖,豆包識別景點(diǎn),并生成2天1夜旅行攻略
接著,智東西上傳了一張江南水鄉(xiāng)風(fēng)格的街景圖,想讓豆包生成“換場”的旅游攻略。
豆包識別出這是“蘇州平江歷史文化街區(qū)(平江路)”,并描述其“河道蜿蜒、白墻黛瓦、搖櫓船穿行其間”的場景特征。
隨后提出“我想同時(shí)去這兩個(gè)地方,如何安排行程?”的問題后,豆包生成了一份詳盡的“武康大樓+平江路2天1夜”旅行攻略。
內(nèi)容覆蓋每日路線、跨城交通、拍照點(diǎn)位、文藝店鋪、餐館推薦、防暑提醒等細(xì)節(jié),結(jié)構(gòu)清晰,實(shí)用性強(qiáng)。
整體來看,豆包在“圖片分析”模式下,具備地點(diǎn)識別能力,還能基于多個(gè)目標(biāo)地點(diǎn),串聯(lián)生成完整的旅行計(jì)劃,展現(xiàn)出較強(qiáng)的上下文理解與推理能力。
3、拍CCD攤位,豆包識別型號并推薦適合“出片”的機(jī)型
在確定了行程后,智東西又上傳了一張街邊復(fù)古相機(jī)攤的圖,想讓豆包推薦適合拍照的機(jī)型。
豆包迅速識別出圖中主要為“膠片傻瓜機(jī)”“旁軸相機(jī)”等類型,并準(zhǔn)確指出Olympusμ2、CanonAutoboyD5、LeicaCM等具體型號,細(xì)節(jié)識別能力表現(xiàn)較為扎實(shí)。
此后,圍繞“如何選出片效果好的相機(jī)”的問題,豆包還提供了分層級的購機(jī)建議,包括新手入門、進(jìn)階玩家的不同選擇,并對操作難度、風(fēng)格偏好、預(yù)算區(qū)間等做出說明。
它還特別提示了購買二手機(jī)時(shí)需檢查快門、鏡頭等細(xì)節(jié),并估算了拍攝和沖洗膠片的實(shí)際成本。
在這類物品識別與使用建議任務(wù)中,豆包已初步具備“看圖-識別-建議”閉環(huán)能力,尤其適用于旅游類消費(fèi)決策場景。
三、冷門景點(diǎn)識別挑戰(zhàn):這回豆包也拿不準(zhǔn)
為測試在“非熱門地標(biāo)+自然景觀”條件下的表現(xiàn),智東西還上傳了一張南京止馬嶺的實(shí)拍照片。
這張圖沒有明顯的地標(biāo)建筑或文字提示,視覺線索相對稀少。豆包未能識別出“止馬嶺”這一具體地點(diǎn),但結(jié)合杉樹的外形特征、水中生長環(huán)境以及秋季色彩,判斷其為“池杉或水杉濕地景觀”。
調(diào)用10篇資料后,豆包推測可能拍攝于“成都白鷺灣濕地公園”,并在參考結(jié)果中提及“常州翠竹公園”“南京止馬嶺”等相似景點(diǎn)——雖未命中,但說明其在模糊場景下具備一定類比和搜索整合能力。
不過,從整體判斷來看,豆包對于這類非網(wǎng)紅、無標(biāo)識的自然景觀,其定位準(zhǔn)確性仍有限。
結(jié)語:視覺能力升級,讓圖片成為“主動(dòng)提問入口”
通過此次體驗(yàn)可以看到,豆包在視覺推理能力升級后,已不再局限于“看圖識物”,而是圍繞圖片內(nèi)容展開多輪對話式分析,支持定位、推薦、規(guī)劃、選品等復(fù)雜需求。
無論是上傳旅游照片判斷城市位置、分析圖中場景是否值得游覽,還是識別老物件類型并給出購買建議,豆包均展示出清晰的答案與解釋。
對于用戶而言,這種“邊看圖邊問圖”的交互方式,不再要求精準(zhǔn)描述,而是讓圖像本身成為入口,推動(dòng)AI推理主動(dòng)向前走一步。
雖然在部分冷門場景下還存在判斷不準(zhǔn)、搜索依賴重的問題,但豆包在圖片分析中的表現(xiàn)已初步具備“能看圖、敢思考、會回答”的雛形,未來或?qū)⑾蚋钊氲膱D像語義理解能力演進(jìn)。
非正常三國,楚南成呂布女婿,強(qiáng)者之路何其難
這幾日,高遠(yuǎn)已經(jīng)徹底明白了一切,他穿越到了東漢末年,公元200年。而如今的身體是高順兒子的,也叫高遠(yuǎn)————。三日前,這個(gè)倒霉孩子長時(shí)間強(qiáng)練呂布的霸王戟法,血?dú)饽嫘袥_擊心臟,也就是后世的疲勞過度心肌梗死。而高遠(yuǎn)對于現(xiàn)代的最后記憶,就是在水池中逆水練戟,突然之間四周白光閃爍,緊跟著就是轟隆隆的雷聲,他也就后面會介紹|。
小說:國術(shù)少年穿三國,呂布女婿卻逢末路,他誓要席卷天下!
楚南很難將呂布和隨和這個(gè)詞兒綁一塊兒——-?!疤焐衙?,妾身要去見父親說明此事,夫君莫要走動(dòng),稍后……可能父親會來見你,莫要擔(dān)心,你我已有夫妻之實(shí),父親不會為難于你的?!眳瘟峋_見楚南神色不對,安撫了一句后,一把抓過披風(fēng)來披在肩上,轉(zhuǎn)身出門-|。真颯~看著少女的背影,楚南有些無神的躺下來發(fā)了會兒到此結(jié)束了?。
三國志11:游戲里適合做呂布女婿的男人們,無雙飛將最滿意哪個(gè)呢
小說中的男主原本是現(xiàn)代都市中一個(gè)修煉國術(shù)的天才,他修煉國術(shù)已經(jīng)到了非常高深的地步。然后卻因?yàn)樘焐洗蚶壮隽艘馔猓焕着┰降搅巳龂猒。然后重生到了高順的兒子身上,成了呂布的女婿。本來以為成為呂布的女婿會很厲害,但是可惜的是穿越而來的時(shí)候呂布已經(jīng)掛了——-。因?yàn)楸旧硇逕拠g(shù),武功非常強(qiáng)大,還有呂布的殘余部下還有呢?
來源:紅網(wǎng)
作者:問俊楠
編輯:盛暄文
本文為紅辣椒評論 原創(chuàng)文章,僅系作者個(gè)人觀點(diǎn),不代表紅網(wǎng)立場。轉(zhuǎn)載請附原文出處鏈接和本聲明。