網(wǎng)傳基孔肯雅熱有致殘風(fēng)險(xiǎn),有患者會永久關(guān)節(jié)損傷,這是真的嗎?怎樣從醫(yī)學(xué)角度解讀?
機(jī)器之心報(bào)道
作者:楊文、杜偉
最近,一個(gè)長相酷似韓國影星河正宇的博主,在TikTok上發(fā)視頻吐槽:「老婆總是喜歡亂P我睡覺的照片,咋整?」
本以為是撒狗糧,沒想到還真撞上了P圖界的邪修大神。她總能把千奇百怪的睡姿,恰到好處地融進(jìn)各種場景,腦洞大得能隨機(jī)笑死一個(gè)路人。
視頻來源:https://www.tiktok.com/@awakesoul3
這看似沙雕的P圖背后,其實(shí)揭示出了一個(gè)趨勢:圖像編輯的需求正變得越來越個(gè)性化,也對工具的智能化程度提出了更高的要求。
就在今天,火山引擎整個(gè)大活,發(fā)布了豆包?圖像編輯模型SeedEdit3.0,并上線火山方舟
體驗(yàn)地址:https://console.volcengine.com/auth/login/
作為豆包家族的重要成員,圖像編輯模型3.0主打一個(gè)「全能且可控」。
具體來說,它有三大優(yōu)勢:更強(qiáng)的指令遵循、更強(qiáng)的主體保持、更強(qiáng)的生成質(zhì)量,特別是在人像編輯、背景更改、視角與光線轉(zhuǎn)換等場景中,表現(xiàn)更為突出,還在多項(xiàng)關(guān)鍵編輯指標(biāo)之間取得了極佳平衡。
舉個(gè)例子。它能一鍵更換雜志封面文字,同時(shí)保持其他元素不變:
Prompt:Change'MORE'to'MAGAZINE'
或者隨意調(diào)整打光、畫面氛圍:
Prompt:保持畫面不變,室內(nèi)黑暗,KTV氛圍,球形燈,五顏六色燈光
甚至一句模糊指令就能讓電商產(chǎn)品海報(bào)替換背景:
Prompt:根據(jù)圖中物品的屬性替換背景為其適合的背景場景
接下來,咱們就實(shí)測一把,看看升級后的圖像編輯模型3.0到底有多硬核。
一手實(shí)測
AI修圖,看不出「科技與狠活」
AI圖像編輯模型的出現(xiàn),讓許多手殘黨都成了P圖達(dá)人,不過問題也隨之而來:用嘴P圖固然方便,但這些AI往往會出現(xiàn)「誤傷」。
比如你只想改個(gè)背景,結(jié)果人物的面部和姿勢卻變了;你明明下達(dá)了精準(zhǔn)的指令,它們卻偏偏聽不懂「人話」,對著原圖一頓亂改;好不容易搞對了主體和背景,畫面又丑得別具一格。
現(xiàn)在好了,豆包?圖像編輯模型3.0已經(jīng)解決這些「通病」,只需一句簡單的提示詞,就能針對畫面元素增、刪、改、替。
打字P圖,指哪改哪
日常生活中,大概每個(gè)人都會遇到這些抓狂的瞬間:出門旅游拍照,忍著羞恥心凹好造型,卻半路殺出個(gè)路人甲亂入鏡頭;想用明星美照當(dāng)壁紙,但正中間打著又大又丑的水印,裁剪都無從下手。
這時(shí),AI消除功能就派上用場。
比如在泰勒?斯威夫特的街拍場景中,豆包?圖像編輯模型3.0可以精準(zhǔn)鎖定黃衣女生和水印,完成雙重清除,同時(shí)還不傷及主體人物和背景細(xì)節(jié)。
提示詞:刪除穿黃衣服的女生,刪除水印,其他要素保持不變。
它還能同時(shí)處理消除路人、雨傘變色兩項(xiàng)復(fù)雜任務(wù)。路人消失后背景自然補(bǔ)全,毫無PS痕跡;雨傘變色也嚴(yán)格鎖定目標(biāo)物體,未波及人物服飾或環(huán)境。
提示詞:消除后面兩個(gè)路人,雨傘變成紅色,其他元素保持不變。
如果感覺畫面平平無奇,想增加點(diǎn)元素提升視覺沖擊,同樣只需一句指令,就能讓安妮?海瑟薇體驗(yàn)一把「房子著火我拍照」的刺激。
提示詞:后面的房子著火了。
再來試試AI替換功能。什么換文字、換背景、換動作、換表情、換風(fēng)格、換材質(zhì)……豆包?圖像編輯模型3.0通通可以搞定。
比如,把汽水瓶上的文字「夏日勁爽」改為「清涼一夏」,它不僅沿用原有字體設(shè)計(jì),還保留了所有的背景元素。
提示詞:圖中文字“夏日勁爽”改為“清涼一夏”。
再比如,把梅西和C羅自拍照的背景,從上海外灘瞬移至悉尼歌劇院,看來以后只要動動嘴就能打卡全球各大熱門景點(diǎn)了。
或者將人物動作替換為「懷抱小狗」,畫面沒有出現(xiàn)穿幫或者比例失調(diào)的情況。
提示詞:這個(gè)女生抱著一只小狗。
此外,豆包?圖像編輯模型3.0還能轉(zhuǎn)換風(fēng)格,比如水彩風(fēng)格、吉卜力風(fēng)格、插畫風(fēng)格、3D風(fēng)格等。
圖1為原圖;圖2為水彩風(fēng)格;圖3為吉卜力風(fēng)格;圖4為新海誠風(fēng)格
除了以上常規(guī)功能,豆包?圖像編輯模型3.0還有不少進(jìn)階玩法,包括光影變化、黑白照片上色、商業(yè)海報(bào)制作、線稿轉(zhuǎn)寫實(shí)等。
在完整保留海邊靜物原始構(gòu)圖的基礎(chǔ)上,該模型精準(zhǔn)重構(gòu)黃昏暖色調(diào)光影,使藍(lán)白格子桌布、玫瑰花與海面均自然鍍上落日余暉。
提示詞:保持原畫面內(nèi)容不變,更改光影黃昏風(fēng)格光影。
給黑白照片上色時(shí),我們還可以自定義風(fēng)格,比如輸入「日系風(fēng)格」,直出膠片感大片,氛圍感拉滿。
提示詞:給這張照片上色,日系風(fēng)格。
我們還可以制作商業(yè)產(chǎn)品海報(bào),比如讓它根據(jù)物品的屬性替換為適合的背景,并在海報(bào)上添加字體。這下電商老板們該狂喜了,畢竟一年也能省不少設(shè)計(jì)成本。
提示詞:根據(jù)圖中物品的屬性替換為其適合的背景場景,畫面中自然融入以下文案文字:主標(biāo)題為“清新自然靜謐之選”副標(biāo)題為“感受肌膚的舒緩之旅”字體設(shè)計(jì)感高級,排版自然協(xié)調(diào),不添加任何邊框、裝飾線、圖框或圓角,僅保留通透畫面與內(nèi)容構(gòu)圖,適合作為品牌宣傳海報(bào),瓶身其他元素保持不變
提示詞:將圖中背景換成沙灘
或者把服裝和建筑設(shè)計(jì)的線稿轉(zhuǎn)成寫實(shí)風(fēng)格。
提示詞:根據(jù)線稿改為真實(shí)人物、真實(shí)服裝
提示詞:把這個(gè)線稿圖改為真實(shí)的場景
一番體驗(yàn)下來,我們也摸到了提示詞撰寫的門道:
每次編輯使用單指令會更好;盡量使用清晰、分辨率高的底圖;局部編輯時(shí)指令描述盡量精準(zhǔn),尤其是畫面有多個(gè)實(shí)體的時(shí)候,描述清楚對誰做什么,能獲取更精準(zhǔn)的編輯效果;發(fā)現(xiàn)編輯效果不明顯的時(shí)候,可以調(diào)整一下編輯強(qiáng)度scale,數(shù)值越大越貼近指令執(zhí)行。
與GPT-4o、Gemini2.5Pro掰掰手腕
目前,市面上有不少模型可以執(zhí)行圖片編輯功能,比如曾在全球刮起「吉卜力熱」的GPT-4o、谷歌大模型扛把子Gemini2.5Pro,它們的P圖效果究竟如何,還得來個(gè)橫向?qū)Ρ取?/p>
Round1:文字修改
在針對商業(yè)海報(bào)文字編輯任務(wù)的測試中,通用大模型暴露出了文字生成短板。
GPT-4o將畫面中的文字替換為無法辨認(rèn)的亂碼,Gemini2.5Pro則未嚴(yán)格遵循替換指令,而是在原海報(bào)文字的下方進(jìn)行了文字添加。
只有豆包?圖像編輯模型3.0精準(zhǔn)完成「店家推薦」文字替換,還保留了原字體材質(zhì)與背景元素,也沒有出現(xiàn)「鬼畫符」等缺陷。
圖1:原圖;圖2:豆包?圖像編輯模型3.0;圖3:GPT-4o;圖4:Gemini2.5pro;提示詞:把文字「金絲酥單品」改成「店家推薦」,其他元素不變
Round2:風(fēng)格轉(zhuǎn)換
我們讓這三款大模型把寫實(shí)人物攝影照片轉(zhuǎn)成涂鴉插畫風(fēng)格,豆包?圖像編輯模型3.0嚴(yán)格遵循雙重約束指令,生成的畫面審美也在線。
相比之下,GPT-4o和Gemini2.5Pro改出來的圖看起來更像隨意畫的兒童涂鴉,女孩的五官有些模糊走樣,背景的細(xì)節(jié)也丟失不少。
圖1:原圖;圖2:豆包?圖像編輯模型3.0;圖3:GPT-4o;圖4:Gemini2.5pro;提示詞:保持背景結(jié)構(gòu),保持人物特征,風(fēng)格改成涂鴉插畫風(fēng)格
Round3:物體、文字消除
再來對比下AI消除功能。
原圖元素較多,路人、店招,還有一行淺淺的水印,豆包?圖像編輯模型3.0成功消除畫面中所有路人及文字,包含店鋪招牌,同時(shí)精準(zhǔn)修復(fù)背景空缺區(qū)域。
而GPT-4o和Gemini2.5Pro的消除功能總是「丟三落四」,GPT-4o忘記刪除店招,Gemini2.5Pro則只P掉了水印,其他指令要求一概忽視。
圖1:原圖;圖2:豆包?圖像編輯模型3.0;圖3:GPT-4o;圖4:Gemini2.5Pro;提示詞:保留滑板男孩,刪除畫面中所有路人,并刪除所有文字,其他元素不變
整體而言,相較于GPT-4o和Gemini2.5Pro,豆包?圖像編輯模型3.0理解指令更到位,改圖效果更精準(zhǔn)自然,尤其是「文字生成」功能,幾乎不用抽卡,完全可以達(dá)到商用的程度。
技術(shù)揭秘
從模型架構(gòu)到推理加速,全方位進(jìn)化
煉成這樣一個(gè)超級實(shí)用、易用且好玩的P圖神器,豆包?圖像編輯模型3.0(以下統(tǒng)稱SeedEdit3.0)依托的是一整套技術(shù)秘籍。
作為AIGC領(lǐng)域的重要分支,可編輯的圖像生成要解決結(jié)構(gòu)與語義一致性、多模態(tài)控制、局部區(qū)域精細(xì)編輯、前景背景分離、融合與重建不自然、細(xì)節(jié)丟失與偽影等一系列技術(shù)難題。
基于豆包文生圖模型Seedream3.0,SeedEdit3.0很好地解決了上述難題,在圖像主體、背景和細(xì)節(jié)保持能力上進(jìn)一步提升。在內(nèi)部真實(shí)圖像測試基準(zhǔn)測試中,SeedEdit3.0更勝其他模型一籌。
定量比較結(jié)果如下所示,其中左圖利用CLIP圖像相似度評估模型編輯保持效果,SeedEdit3.0領(lǐng)先于前代1.0、1.5、1.6以及其他SOTA模型Gemini2.0、Step1X和GPT-4o,僅在指令遵循方面不如GPT-4o;右圖顯示SeedEdit3.0在人臉保持方面具有明顯優(yōu)勢。
下圖為部分定性比較結(jié)果,直觀來看,SeedEdit3.0在動作自然度、構(gòu)圖合理性、人物表情與姿態(tài)還原性、視覺一致性、清晰度與細(xì)節(jié)保留等多個(gè)維度上表現(xiàn)更好。
為了達(dá)成這樣的效果,SeedEdit3.0團(tuán)隊(duì)從數(shù)據(jù)、模型和推理優(yōu)化三個(gè)層面進(jìn)行了深度優(yōu)化與創(chuàng)新。
首先是數(shù)據(jù)層面,一方面引入多樣化的數(shù)據(jù)源,包括合成數(shù)據(jù)集、編輯專家數(shù)據(jù)、傳統(tǒng)人工編輯操作數(shù)據(jù)以及視頻幀和多鏡頭數(shù)據(jù),并包含了任務(wù)標(biāo)簽、優(yōu)化后的描述和元編輯標(biāo)記信息(下圖)。而基于這些數(shù)據(jù),模型在真實(shí)數(shù)據(jù)與合成的「輸入-輸出編輯空間」中進(jìn)行交錯(cuò)學(xué)習(xí),既不損失各種編輯任務(wù)的信息,又提升對真實(shí)圖像的編輯效果。
另一方面,為了有效地融合不同來源的圖像編輯數(shù)據(jù),團(tuán)隊(duì)采用了一種多粒度標(biāo)簽策略。對于差別比較大的數(shù)據(jù),通過統(tǒng)一任務(wù)標(biāo)簽區(qū)分;對于差別較小的數(shù)據(jù),通過加入特殊Caption區(qū)分。接下來,所有數(shù)據(jù)在重新標(biāo)注、過濾和對齊之后進(jìn)行正反向的編輯操作訓(xùn)練,實(shí)現(xiàn)全面梳理和整體平衡。
可以說,更豐富的數(shù)據(jù)源以及更高效的數(shù)據(jù)融合,為SeedEdit3.0處理復(fù)雜圖像編輯任務(wù)提供了強(qiáng)大的適應(yīng)性和魯棒性。
其次是模型層面,SeedEdit3.0沿用了SeedEdit的架構(gòu),底部視覺理解模型從圖像中推斷出高層次語義信息,頂部因果擴(kuò)散網(wǎng)絡(luò)充當(dāng)圖像編碼器來捕捉細(xì)粒度細(xì)節(jié)。此外,視覺理解與擴(kuò)散模型之間引入了一個(gè)連接模塊,將前者的編輯意圖(比如任務(wù)類型和編輯標(biāo)簽等)與后者對齊。
在此基礎(chǔ)上,團(tuán)隊(duì)將文生圖模型Seedream2.0中的擴(kuò)散網(wǎng)絡(luò)升級為Seedream3.0,無需進(jìn)行任何細(xì)化便可以原生生成1K至2K分辨率圖像,并增強(qiáng)了人臉與物體特征等輸入圖像細(xì)節(jié)的保留效果。得益于此,模型在雙語文本理解與渲染方面的能力也得到了增強(qiáng),并可以輕松擴(kuò)展到多模態(tài)圖像生成任務(wù)。
SeedEdit3.0模型架構(gòu)概覽
而為了訓(xùn)練出現(xiàn)有架構(gòu),團(tuán)隊(duì)采用了多階段訓(xùn)練策略,包括預(yù)訓(xùn)練和微調(diào)階段。其中,預(yù)訓(xùn)練階段主要對所有收集的圖像對數(shù)據(jù)進(jìn)行融合,通過圖像多長寬比訓(xùn)練、多分辨率批次訓(xùn)練,使模型從低分辨率逐步過渡到高分辨率。
微調(diào)階段則主要優(yōu)化輸出結(jié)果以穩(wěn)定編輯性能,過程中重新采樣大量精調(diào)數(shù)據(jù)并從中選出高質(zhì)量、高分辨率樣本;然后結(jié)合模型過濾器和人工審核對這些樣本二篩,兼顧高質(zhì)量數(shù)據(jù)和豐富編輯類別;接下來利用擴(kuò)散損失對模型進(jìn)一步微調(diào),尤其針對人臉身份、美感等對用戶價(jià)值極高的屬性,引入特定獎勵(lì)模型作為額外損失,提升高價(jià)值能力表現(xiàn);最后對編輯任務(wù)與文本到圖像任務(wù)聯(lián)合訓(xùn)練,既提升高分辨率圖像編輯效果,又增強(qiáng)泛化性能。
為了實(shí)現(xiàn)更快的推理加速,SeedEdit3.0采用了多種技術(shù)手段,包括蒸餾、無分類器蒸餾、統(tǒng)一噪聲參照、自適應(yīng)時(shí)間步采樣、少步高保真采樣和量化。一整套的方案,讓SeedEdit3.0大幅縮短了從輸入到輸出的時(shí)間,并減少計(jì)算資源的消耗,節(jié)省更多內(nèi)存。
最終,在蒸餾與量化手段的多重加持下,SeedEdit3.0實(shí)現(xiàn)了8倍的推理加速,總運(yùn)行時(shí)長可以從大約64秒降至8秒。這樣一來,用戶等待的時(shí)間大大降低。
想要了解更多技術(shù)與實(shí)驗(yàn)細(xì)節(jié)的小伙伴,請參閱SeedEdit3.0技術(shù)報(bào)告。
技術(shù)報(bào)告地址:https://arxiv.org/pdf/2506.05083
也許AI圈的人已經(jīng)注意到了,最近一段時(shí)間,包括圖像、視頻在內(nèi)AIGC創(chuàng)作領(lǐng)域的關(guān)注度有所回落,尤其相較于推理模型、Agent等熱點(diǎn)略顯安靜。然而,這些賽道的技術(shù)突破與產(chǎn)品演進(jìn)并沒有停滯。
在國外,以Midjourney、BlackForestLabs為代表的AI生圖玩家、以Runway、谷歌DeepMind為代表的AI視頻玩家,繼續(xù)模型的更新迭代,推動圖像與視頻生成技術(shù)的邊界,提升真實(shí)感與創(chuàng)意性。而國內(nèi),以字節(jié)跳動、阿里巴巴、騰訊為代表的頭部廠商在圖像、視頻生成領(lǐng)域依然高度活躍,更新節(jié)奏也很快,從技術(shù)突破與應(yīng)用拓展兩個(gè)方向發(fā)力。
這些頭部廠商推出的大模型產(chǎn)品還通過多樣化的平臺和形態(tài)廣泛觸達(dá)用戶,比如App、小程序等,為創(chuàng)作者提供了便捷的內(nèi)容創(chuàng)作工具。這種「模型即產(chǎn)品」的能力既提升了易用性,也激發(fā)了用戶的參與感與創(chuàng)造力。
就拿此次的豆包?圖像編輯模型3.0來說,它在國內(nèi)首次做到了產(chǎn)品化,無需像傳統(tǒng)圖像編輯軟件一樣描邊涂抹、修修補(bǔ)補(bǔ),輸入簡單的自然語言指令就能變著花樣P圖。我們在實(shí)際體驗(yàn)中已經(jīng)感受到了它的魔力,換背景、轉(zhuǎn)風(fēng)格以及各種元素的增刪與替換,幾乎無所不能。
該模型的出現(xiàn)無疑會帶來圖像創(chuàng)作領(lǐng)域的一次重大轉(zhuǎn)型,跳出傳統(tǒng)圖像編輯的桎梏,邁入到自動化、智能化、創(chuàng)意化的階段。這意味著,沒有專業(yè)化技能的C端普通用戶得到了一個(gè)強(qiáng)大的圖像二創(chuàng)工具,在大幅提升創(chuàng)作效率的同時(shí)還能解鎖更多創(chuàng)意空間。
當(dāng)然,豆包?圖像編輯模型3.0的應(yīng)用潛力不局限于日常的修圖需求,隨著更加深入地挖掘廣泛的行業(yè)特定需求,未來它也有望在影視創(chuàng)作、廣告設(shè)計(jì)、媒體、電商、游戲等AIGC相關(guān)的B端市場激發(fā)新的應(yīng)用潛力,助力企業(yè)提高內(nèi)容生產(chǎn)效率,在競爭中用AI搶占先機(jī)。
利用該模型,影視制作團(tuán)隊(duì)可以快速調(diào)整鏡頭畫面、添加特效、替換背景等,從而簡化制作流程、縮短制作周期;電商商家可以快速定制化產(chǎn)品圖像和宣傳圖,并根據(jù)消費(fèi)者偏好和市場需求進(jìn)行個(gè)性化創(chuàng)作;游戲開發(fā)者可以快速調(diào)整角色、場景的設(shè)計(jì)元素,節(jié)省時(shí)間。這些看得見的應(yīng)用前景,顯然會帶來顛覆性的變化,推動行業(yè)朝著高效、便捷的方向演進(jìn)。
《美女總裁的絕世狂兵》:冰山女總裁韓菲被家族掃地出門,強(qiáng)迫嫁給...
絕世兵王歸來,美女總裁傾心相伴,橫掃職場情場無敵手!
都市:《絕世狂兵》一代兵王在繁華都市翻云覆雨,成就人生巔峰!