大多數(shù)新人在結(jié)婚前,都想拍一組好看的婚紗照留念。可是,拍照容易,后期修圖卻不簡(jiǎn)單。專(zhuān)業(yè)修圖師報(bào)價(jià)昂貴,自己修圖費(fèi)時(shí)費(fèi)力還可能不滿(mǎn)意,怎么辦?豆包P圖的出現(xiàn),能夠很好地解決這一問(wèn)題。如下面的視頻所示,筆者先在豆包P圖里上傳了一張AI生成的婚紗照,輸入“讓女生臉部更加精致立體,并適當(dāng)放大眼睛”的指令,很快得到一張符合要求的圖片。而后,又輸入“把場(chǎng)景換成秋天,女生婚紗換成粉色”的指令,豆包既能出色地完成任務(wù),又能保持女生面部和體型上的特征。最后,輸入“讓圖片整體更加有質(zhì)感”的指令,筆者成功得到一張高質(zhì)量成品圖。顯然,憑借強(qiáng)大的圖像編輯能力,普通用戶(hù)也能輕松修出理想圖片。其背后,離不開(kāi)豆包?圖像編輯模型3.0(SeedEdit3.0)提供的技術(shù)支撐。
實(shí)測(cè)豆包P圖功能
2025年7月30日,火山引擎主辦FORCELinkAI創(chuàng)新巡展·廈門(mén)站活動(dòng)。會(huì)上,發(fā)布豆包系列新模型和AI云原生服務(wù)升級(jí)成果,包括豆包·圖像編輯模型3.0、同聲傳譯模型2.0,以及全新升級(jí)的豆包大模型1.6系列,同時(shí)推出扣子核心能力開(kāi)源、企業(yè)自有模型托管方案等多款工具,為企業(yè)及開(kāi)發(fā)者構(gòu)建Agent、落地AI應(yīng)用提供全棧支持。
發(fā)布豆包·圖像編輯模型3.0等多款大模型,完成豆包大模型1.6系列新升級(jí)
火山引擎推出豆包·圖像編輯模型3.0,主要是為解決AI圖像編輯中聽(tīng)不懂指令、誤改內(nèi)容和生成效果差的痛點(diǎn)。該模型面向指令遵循、圖像保持和圖像質(zhì)量三方面進(jìn)行優(yōu)化,讓用戶(hù)僅用自然語(yǔ)言就能完成替換元素、消除冗余、風(fēng)格轉(zhuǎn)換等操作,可在影像創(chuàng)作、廣告營(yíng)銷(xiāo)等領(lǐng)域得到廣泛應(yīng)用,助力解鎖更多創(chuàng)新場(chǎng)景。據(jù)了解,目前個(gè)人用戶(hù)可在豆包APP和即夢(mèng)中體驗(yàn)該模型,企業(yè)用戶(hù)可在火山方舟調(diào)用其應(yīng)用程序編程接口(API,ApplicationProgrammingInterface)。
豆包·同聲傳譯模型1.0自去年9月發(fā)布以來(lái)便廣受認(rèn)可,但在服務(wù)過(guò)程中,還面臨時(shí)間延遲和聲音復(fù)刻兩大有待解決的問(wèn)題。對(duì)此,本次會(huì)議上,火山引擎推出豆包·同聲傳譯模型2.0(Seed-LiveInterpret2.0),將語(yǔ)音延遲從8-10秒降至2-3秒,實(shí)現(xiàn)文本與語(yǔ)音同步生成,且支持0樣本聲音復(fù)刻,無(wú)需提前錄制即可實(shí)時(shí)生成同音色外語(yǔ)語(yǔ)音,甚至匹配方言口音。實(shí)測(cè)該模型時(shí),筆者朗讀了一段來(lái)自人民日?qǐng)?bào)的文章,發(fā)現(xiàn)該模型能清楚地識(shí)別筆者的音色,并快速地將中文同傳為英文。
實(shí)測(cè)豆包·同聲傳譯模型2.0
會(huì)上,該公司發(fā)布并開(kāi)源了豆包最新翻譯模型Doubao-Seed-Translation。其支持28種語(yǔ)言,能實(shí)現(xiàn)26種小語(yǔ)種與中英文的高質(zhì)量互譯。無(wú)論是科技領(lǐng)域的專(zhuān)業(yè)術(shù)語(yǔ),還是生物醫(yī)藥、金融法律等場(chǎng)景下的復(fù)雜文本,該模型都能精準(zhǔn)地把握語(yǔ)境,提供高質(zhì)量的翻譯結(jié)果。
另外,豆包大模型1.6系列也迎來(lái)新升級(jí)。
首先,極速版Doubao-Seed-1.6-flash模型具備強(qiáng)大的視覺(jué)理解能力,代碼、推理、數(shù)學(xué)等能力也進(jìn)一步強(qiáng)化,可在商超、工廠、家居等行業(yè)發(fā)揮重要作用。測(cè)評(píng)時(shí),筆者上傳了一張飲品店的圖片,要求模型回答“店內(nèi)員工是否正確佩戴口罩,奶茶桶是否被擺放在正確的位置”,模型很快便給出正確判斷。
實(shí)測(cè)Doubao-Seed-1.6-flash模型視覺(jué)理解能力
其次,全模態(tài)向量化模型Seed1.6-Embedding也有三大升級(jí)。第一,效果全面領(lǐng)先。在延續(xù)上一代圖文檢索優(yōu)勢(shì)的基礎(chǔ)上,進(jìn)一步增強(qiáng)圖文理解能力。第二,在語(yǔ)義匹配等通用向量化任務(wù)中表現(xiàn)良好,跨任務(wù)泛化能力更強(qiáng),首次實(shí)現(xiàn)“文本+圖像+視頻”混合模態(tài)融合檢索。第三,自定義指令能力全面升級(jí),向量生成更貼合各類(lèi)業(yè)務(wù)需求。
最后,新版Doubao-1.6-thinking,則在代碼、推理和視覺(jué)理解等能力上實(shí)現(xiàn)大幅優(yōu)化。
優(yōu)化AI云原生全棧服務(wù),為加速Agent落地提供全鏈路技術(shù)支持
為幫助企業(yè)在AI時(shí)代更好地構(gòu)建Agent,火山引擎持續(xù)優(yōu)化AI云原生全棧服務(wù),為AI原生應(yīng)用提供全鏈路技術(shù)支持。
在本次大會(huì)上,AIAgent開(kāi)發(fā)平臺(tái)扣子核心能力正式開(kāi)源,覆蓋扣子開(kāi)發(fā)平臺(tái)(CozeStudio)和扣子羅盤(pán)(CozeLoop),采用Apache2.0許可證。
“開(kāi)源僅三天,CozeStudio星標(biāo)數(shù)破萬(wàn),CozeLoop星標(biāo)數(shù)超3000。火山引擎為其提供全面支持,企業(yè)AI平臺(tái)HiAgent可調(diào)用其能力,云基礎(chǔ)產(chǎn)品支持一鍵部署?!被鹕揭婵偛米T待表示。
圖丨譚待(來(lái)源:資料圖)
針對(duì)有模型定制化需求的企業(yè)客戶(hù),依托火山方舟模型單元推出自有模型托管方案。企業(yè)無(wú)需運(yùn)維底層GPU資源及復(fù)雜配置,即可實(shí)現(xiàn)自研模型全托管。此外,通過(guò)火山方舟的彈性模型單元,企業(yè)還可自主選擇部署方式與機(jī)型,精準(zhǔn)控制時(shí)延,且無(wú)需為業(yè)務(wù)低谷期付費(fèi)。
為促進(jìn)多模態(tài)API的開(kāi)發(fā)者統(tǒng)一,火山引擎升級(jí)火山方舟平臺(tái)的API開(kāi)發(fā)體系,推出新的ResponsesAPI。該API具備原生上下文管理能力,不僅支持多輪對(duì)話(huà)鏈?zhǔn)焦芾砑拔谋?、圖像等多模態(tài)數(shù)據(jù)銜接,還支持用戶(hù)單次請(qǐng)求聯(lián)動(dòng)多工具與模型組合響應(yīng),讓智能助手Agent開(kāi)發(fā)從460行代碼縮減至60行代碼,幫助客戶(hù)降本增效。
高性能云原生向量數(shù)據(jù)庫(kù)VikingDB,也在全介質(zhì)索引升級(jí)、更好的性?xún)r(jià)比和全模態(tài)表征能力等方面迎來(lái)升級(jí),以該數(shù)據(jù)庫(kù)為基礎(chǔ),火山引擎還打造了方便易用的知識(shí)庫(kù)產(chǎn)品,支持圖、文、視頻多模態(tài)處理及混排輸出。
提示詞工程,是開(kāi)發(fā)AI應(yīng)用時(shí)必不可少的環(huán)節(jié)?!拔覀儜?yīng)該讓Agent隨著用戶(hù)數(shù)據(jù)自發(fā)改進(jìn),就像所有成功的搜索引擎和推薦引擎那樣,讓Agent也找到自己的scalinglaw?!被鹕揭嬷悄芩惴ㄘ?fù)責(zé)人吳迪表示。
基于此,火山引擎升級(jí)智能提示詞優(yōu)化平臺(tái)PromptPilot,支持任意模型的提示詞優(yōu)化,通過(guò)與火山引擎知識(shí)庫(kù)的深度融合,該平臺(tái)在文本理解任務(wù)的生成、調(diào)試等環(huán)節(jié)中,能精準(zhǔn)調(diào)用專(zhuān)業(yè)內(nèi)容,幫助模型在垂直領(lǐng)域?qū)崿F(xiàn)更深入、精準(zhǔn)、可信的理解與輸出。
另外,本次還發(fā)布了AIAgent人機(jī)協(xié)同工作臺(tái)。“我們通過(guò)提供千人千面的畫(huà)布形態(tài),作為數(shù)字員工的交互入口,連接企業(yè)所有系統(tǒng),讓數(shù)字員工主動(dòng)服務(wù)用戶(hù),解決企業(yè)效率瓶頸?!被鹕揭娓笨偛脧?chǎng)伪硎尽?/p>
同時(shí),廈門(mén)大學(xué)信息與網(wǎng)絡(luò)中心副主任鄭海山,上臺(tái)分享了廈門(mén)大學(xué)Agent上崗案例,該校聯(lián)合火山引擎構(gòu)建專(zhuān)有智能體開(kāi)發(fā)基座,結(jié)合學(xué)校自有知識(shí)庫(kù)形成的智能底座,支撐學(xué)校管理決策與教學(xué)科研。
最后,ServingKit、AgentKit和TrainingKit這三款A(yù)I開(kāi)發(fā)工具包也完成新升級(jí)。
“ServingKit為推理服務(wù)和推理引擎提供更有性?xún)r(jià)比的底層支持能力,包括模型部署與分發(fā)加速、全鏈路透明運(yùn)維可觀測(cè)能力等?!被鹕揭嬖苹A(chǔ)產(chǎn)品負(fù)責(zé)人羅浩解釋道。
而另外兩款工具,前者新增了CozeStudio托管服務(wù)、擴(kuò)展插件與模型調(diào)用,并優(yōu)化了ComputerUse性能,后者優(yōu)化預(yù)訓(xùn)練性能,支持大規(guī)模集群線性加速。
基于火山引擎提供的工具,游戲企業(yè)網(wǎng)龍開(kāi)展了多方面探索。據(jù)網(wǎng)龍?zhí)烨鏏I平臺(tái)技術(shù)負(fù)責(zé)人黃繼峰分享,該公司訓(xùn)練了高智能MOBA人機(jī)陪玩智能體,接入豆包1.6多模態(tài)模型,探索了更多游戲新玩法與內(nèi)容生成。
回看本次大會(huì),圍繞大模型和AI云原生服務(wù),火山引擎發(fā)布并升級(jí)了諸多產(chǎn)品,進(jìn)一步完善了公司AI生態(tài)布局?;诖?,該公司的目標(biāo)是,致力于為企業(yè)與開(kāi)發(fā)者提供從基礎(chǔ)模型到開(kāi)發(fā)工具的全鏈條技術(shù)支持,加速AI在各行業(yè)快速落地。
延伸閱讀:與 讓人人:都是49%P【圖大師】 的相關(guān)文章