IT之家7月30日消息,今天,在FORCELinkAI創(chuàng)新巡展?廈門站,字節(jié)跳動(dòng)火山引擎發(fā)布豆包?圖像編輯模型3.0、豆包?同聲傳譯模型2.0,豆包大模型1.6系列全新升級(jí),并宣布開源扣子核心能力,發(fā)布企業(yè)自有模型托管方案、ResponsesAPI等多個(gè)模型服務(wù)和工具產(chǎn)品。
IT之家從官方獲悉,豆包?圖像編輯模型SeedEdit3.0基于強(qiáng)大的文生圖模型Seedream3.0,具備更強(qiáng)的指令遵循能力、圖像保持能力和更強(qiáng)的圖像生成質(zhì)量;疊加多樣化的數(shù)據(jù)融合方法與特定獎(jiǎng)勵(lì)模型,可支持1K以上高清圖像的生成與處理。
用戶只需通過自然語言指令,即可完成消除多余內(nèi)容、改變光影效果、替換文字等操作。同時(shí),豆包?圖像編輯模型3.0具備對(duì)風(fēng)格、結(jié)構(gòu)與語義的精準(zhǔn)控制力,能夠像人類大腦一樣理解指令、深度思考,解鎖更多創(chuàng)新的修圖場(chǎng)景,例如圖像風(fēng)格轉(zhuǎn)換、變換材質(zhì)、變化人物姿勢(shì)、根據(jù)提示詞進(jìn)行推理等P圖玩法。
官方介紹稱,豆包?圖像編輯模型3.0可廣泛應(yīng)用于影像創(chuàng)作、廣告營銷、游戲宣傳等領(lǐng)域,企業(yè)用戶可在火山方舟平臺(tái)調(diào)用API,個(gè)人用戶可使用即夢(mèng)或豆包App進(jìn)行體驗(yàn)。
不該動(dòng)的地方,絕不動(dòng)!豆包?圖像編輯模型3.0精準(zhǔn)鎖定頭發(fā)區(qū)域換成短發(fā),只修改毛衣區(qū)域顏色和紋理并添加項(xiàng)鏈。調(diào)整人物姿態(tài)讓其自然落座,背景、人物面部特征、其他細(xì)節(jié)毫發(fā)無損!▲prompt:變成時(shí)尚短發(fā)造型。改變姿勢(shì),讓她坐在椅子上你的話,它聽得懂、做得到!豆包?圖像編輯模型3.0只瞄準(zhǔn)文字區(qū)域,字體、光影會(huì)自動(dòng)匹配原圖風(fēng)格,智能填充周圍紋理,畫面完好如初!▲prompt:把“MORE”變成“MAGAZINE”。把“探索未知”變成“凝視內(nèi)心”P完還是那么美,那么清晰!豆包?圖像編輯模型3.0讓黑夜秒變陽光明媚的白晝,光影自然過渡,建筑、樹木細(xì)節(jié)清晰銳利,毫無涂抹感或分辨率下降。▲prompt:把場(chǎng)景變?yōu)榘滋鞎?huì)“腦補(bǔ)”,理解力MAX!豆包?圖像編輯模型3.0能理解“發(fā)酵”過程,生成體積膨大、充滿氣泡的發(fā)酵面團(tuán)圖。并且基于面團(tuán)狀態(tài)進(jìn)行推理,在保持面團(tuán)主體關(guān)聯(lián)性的前提下,生成金黃酥脆、香氣四溢的面包圖。prompt:1小時(shí)之后將會(huì)發(fā)生什么?面團(tuán)會(huì)變成什么樣的食物呢?旅游照片中路人太多?說句“去掉所有路人”,背景瞬間干干凈凈~▲prompt:把所有路人都去掉下載的圖片有水?。肯轮噶睢跋淖帧?,無痕處理比橡皮擦還好用~prompt:消除圖片中的文字老照片想上色?線稿想變寫實(shí)?一句話搞定,色彩均勻又自然。prompt:把女人站在埃菲爾鐵塔前的黑白照片變成彩色的prompt:把線稿建筑變成水彩畫想換光影氛圍?發(fā)出指令“逆光+暖色調(diào)+金色光暈”,秒變電影質(zhì)感。prompt:保持原畫面主體內(nèi)容與構(gòu)圖不變,逆光、暖色調(diào)、光影交織、輪廓光、氛圍感、陽光灑入、金色光暈、明暗對(duì)比想給照片或設(shè)計(jì)換個(gè)Style?“毛氈風(fēng)”“水彩風(fēng)”“卡通風(fēng)”……一句指令就能切換,讓你的創(chuàng)意無限延伸!豆包?同聲傳譯模型2.0正式發(fā)布:3秒極低延遲,0樣本聲音復(fù)刻傳統(tǒng)的翻譯系統(tǒng)通常依賴于“級(jí)聯(lián)模型”——多個(gè)模塊相互串聯(lián),依次處理語音識(shí)別、翻譯、聲音復(fù)刻和語音合成等任務(wù),翻譯結(jié)果不夠連貫、處理速度慢。此次全新發(fā)布的豆包?同聲傳譯模型Seed-LiveInterpret2.0,支持全雙工語音理解和生成框架,將傳統(tǒng)機(jī)器同傳的語音延遲從8-10秒降低到2-3秒,實(shí)現(xiàn)文本與語音的同步生成;無需提前錄制,一邊說話一邊采樣,實(shí)現(xiàn)0樣本聲音復(fù)刻,讓同一個(gè)人同音色開口說外語,帶來更沉浸的體驗(yàn)。豆包大模型1.6系列再升級(jí):極速版延遲低至10ms今年6月,豆包大模型1.6系列多個(gè)模型正式發(fā)布,為企業(yè)提供多樣化選擇。此次,極速版Doubao-Seed-1.6-flash模型在保持出色的視覺理解能力的同時(shí),升級(jí)了代碼、推理、數(shù)學(xué)等大語言模型能力。Doubao-Seed-1.6-flash模型,非常適合智能巡檢、手機(jī)助手、智能硬件等對(duì)模型效果、速度和成本都有要求的大規(guī)模商業(yè)化場(chǎng)景。該模型具有業(yè)界領(lǐng)先的極低延遲,TPOT僅10ms,并依然具備強(qiáng)大的視覺理解能力。價(jià)格上,Doubao-Seed-1.6-flash在輸入文本長(zhǎng)度0-32k的區(qū)間中(企業(yè)使用量最大),每百萬tokens輸入僅需0.15元,輸出僅1.5元。在真實(shí)的客戶案例中,該模型幫助客戶延遲下降60%,成本降低70%。此外,火山引擎發(fā)布全模態(tài)向量化模型Seed1.6-Embedding,首次實(shí)現(xiàn)了“文本+圖像+視頻”混合模態(tài)的融合檢索,幫助企業(yè)構(gòu)建更強(qiáng)大的多模態(tài)知識(shí)庫。在權(quán)威測(cè)評(píng)榜單中,該模型包攬了多模態(tài)全面任務(wù)、中文文本的SOTA成績(jī)。
延伸閱讀:與 圖像編輯模型30“同聲”:傳譯模型!!20 的相關(guān)文章