汝芮欣
7月30日,昆侖萬(wàn)維正式推出并開(kāi)源采用自回歸路線的「多模態(tài)統(tǒng)一預(yù)訓(xùn)練模型SkyworkUniPic」,在單一模型中深度融合圖像理解、文本到圖像生成、圖像編輯三大核心能力。該模型基于大規(guī)模高質(zhì)量數(shù)據(jù)進(jìn)行端到端預(yù)訓(xùn)練,具備良好的通用性與可遷移性。
秉持開(kāi)放協(xié)作、共享創(chuàng)新的理念,昆侖萬(wàn)維面向社區(qū)全面開(kāi)放SkyworkUniPic的核心資源:
01
SkyworkUniPic:統(tǒng)一自回歸模型實(shí)現(xiàn)圖片生成、編輯與理解一體化
GPT-4o的迅速走紅,標(biāo)注著人工智能領(lǐng)域多模態(tài)統(tǒng)一預(yù)訓(xùn)練模型的成熟。SkyworkUniPic延續(xù)了GPT-4o的自回歸范式,在單一模型中深度融合圖像理解、文本生成圖像(T2I)與圖像編輯三大核心任務(wù),構(gòu)建了真正統(tǒng)一的多模態(tài)模型架構(gòu)。
傳統(tǒng)多模態(tài)統(tǒng)一模型多依賴VQ或VAE編碼器來(lái)壓縮視覺(jué)內(nèi)容,雖然具備一定效果,但也存在局限性,它們更側(cè)重保留圖像的視覺(jué)細(xì)節(jié)而非語(yǔ)義信息,這會(huì)在一定程度上削弱模型的圖像理解能力。
為此,SkyworkUniPic團(tuán)隊(duì)借鑒Harmon架構(gòu)設(shè)計(jì),并在表征方式上做出關(guān)鍵調(diào)整:采用MAR編碼器作為圖像生成路徑的視覺(jué)表征基礎(chǔ),同時(shí)引入SigLIP2作為圖像理解路徑的主干。
該結(jié)構(gòu)設(shè)計(jì)的核心洞察在于:能否構(gòu)建一個(gè)輕量級(jí)統(tǒng)一模型,在保持實(shí)際部署可行性的同時(shí),在理解、生成與編輯任務(wù)上均達(dá)到頂尖性能?
Skywork-UniPic模型核心能力包含:
圖文理解:基于token預(yù)測(cè)完成文本的自回歸建模
圖像生成:采用掩碼自回歸方式,逐步生成圖像patch
圖像引入?yún)⒖紙D與編輯指令作為條件,生成編輯后的圖像
此外,Skywork-UniPic完成端到端優(yōu)化流程,能夠?qū)崿F(xiàn)生成、理解、編輯三大能力的協(xié)同訓(xùn)練和相互促進(jìn),突破傳統(tǒng)方法中能力權(quán)衡的技術(shù)瓶頸。
這一架構(gòu)設(shè)計(jì)不僅保持了自回歸模型的簡(jiǎn)潔高效,更通過(guò)共享編碼器實(shí)現(xiàn)了跨任務(wù)的深度協(xié)同,為多模態(tài)統(tǒng)一模型的實(shí)用化部署奠定了堅(jiān)實(shí)基礎(chǔ)。
用戶只需要輸入提示詞,Skywork-UniPic既可以像VLM一樣理解圖像、像T2I模型一樣生成圖片,還可以像美圖工具一樣,一鍵實(shí)現(xiàn)風(fēng)格轉(zhuǎn)繪/吉卜力化的編輯功能。
02
模型優(yōu)勢(shì):1.5B輕量級(jí)規(guī)模性能逼近同類大參數(shù)統(tǒng)一模型,詮釋了“小而美”的技術(shù)美學(xué)
團(tuán)隊(duì)在追求模型能力極限的同時(shí),也堅(jiān)持效率重要性的設(shè)計(jì)理念。SkyworkUniPic以1.5B的緊湊參數(shù)規(guī)模,真正詮釋了“小而美”的技術(shù)美學(xué):
多重技術(shù)亮點(diǎn)
指令遵循能力媲美大型模型:在GenEval指令遵循評(píng)估中取得0.86的優(yōu)異成績(jī),超越了絕大多數(shù)同類統(tǒng)一模型,在無(wú)CoT的情況下取得了SOTA分?jǐn)?shù),逼近較大模型BAGEL(7B+7B*)帶CoT的0.88分;
復(fù)雜指令生圖能力領(lǐng)先:在DPG-Bench復(fù)雜指令生圖基準(zhǔn)上達(dá)到85.5分的行業(yè)SOTA水平;
圖像編輯能力統(tǒng)一模型第一梯隊(duì):GEditBench-EN獲得5.83分,ImgEdit-Bench達(dá)到3.49分,展現(xiàn)出精準(zhǔn)的編輯執(zhí)行能力;
參數(shù)效率優(yōu)勢(shì)顯著:相比同類大參數(shù)統(tǒng)一模型(如BAGEL的14B總參數(shù)、UniWorld-V1的19B總參數(shù)),SkyworkUniPic以1.5B的輕量級(jí)規(guī)模實(shí)現(xiàn)了接近甚至超越大參數(shù)模型的性能表現(xiàn);
部署友好,真正可落地:模型在RTX4090消費(fèi)級(jí)顯卡上均可流暢運(yùn)行,為廣大開(kāi)發(fā)者和研究者提供了真正可落,地的統(tǒng)一模型解決方案,大幅降低了技術(shù)應(yīng)用門檻。
03
Skywork-UniPic是怎樣煉成的?
數(shù)據(jù)構(gòu)建:億級(jí)高質(zhì)量語(yǔ)料庫(kù)支撐統(tǒng)一模型預(yù)訓(xùn)練
首先,SkyworkUniPic的卓越性能,并非源自數(shù)據(jù)堆疊的蠻力,而是得益于一套高度精煉、系統(tǒng)優(yōu)化的數(shù)據(jù)構(gòu)建體系。
團(tuán)隊(duì)突破了“更大即更強(qiáng)”的傳統(tǒng)認(rèn)知邊界,通過(guò)約億級(jí)規(guī)模的精選預(yù)訓(xùn)練語(yǔ)料與數(shù)百萬(wàn)級(jí)任務(wù)精調(diào)(SFT)樣本,成功構(gòu)建出一套面向理解、生成與編輯三大核心任務(wù)的高效能多模態(tài)訓(xùn)練語(yǔ)料庫(kù)。
這一構(gòu)建體系產(chǎn)生的語(yǔ)料庫(kù)不僅顯著壓縮了訓(xùn)練資源成本,更在模型泛化能力與任務(wù)遷移表現(xiàn)上展現(xiàn)出驚人的性價(jià)比,充分驗(yàn)證了小規(guī)模、精篩選、高質(zhì)量數(shù)據(jù)對(duì)統(tǒng)一多模態(tài)模型訓(xùn)練的可行性與潛力。
獎(jiǎng)勵(lì)模型構(gòu)建:數(shù)據(jù)質(zhì)量驅(qū)動(dòng)的智能評(píng)估體系
其次,為了確保SkyworkUniPic在圖像生成和編輯任務(wù)上的卓越表現(xiàn),我們?cè)O(shè)計(jì)了專用于圖像生成的RewardModel(Skywork-ImgReward)和專用于圖片編輯的RewardModel(Skywork-EditReward)。
其中,Skywork-ImgReward是基于強(qiáng)化學(xué)習(xí)訓(xùn)練的RewardModel,相比于其他T2IRewardModel,Skywork-ImgReward在多個(gè)文生圖場(chǎng)景下的偏好選擇表現(xiàn)都更接近人類偏好。它不僅被用來(lái)作為文生圖數(shù)據(jù)質(zhì)量的篩選,也可以在后續(xù)被用于圖像生成能力強(qiáng)化學(xué)習(xí)訓(xùn)練中的獎(jiǎng)勵(lì)信號(hào),以及作為生成圖像的質(zhì)量評(píng)估指標(biāo)。
同時(shí)面對(duì)圖像編輯這一核心挑戰(zhàn),我們創(chuàng)新性地構(gòu)建了具有針對(duì)性的Skywork-EditReward,其被用作數(shù)據(jù)質(zhì)量評(píng)估時(shí)可以自動(dòng)剔除超過(guò)30%的低質(zhì)量編輯樣本,在GEditBench-EN和ImgEdit-Bench基準(zhǔn)測(cè)試中表現(xiàn)明顯改善。后續(xù)同樣也可以被用作圖像編輯強(qiáng)化學(xué)習(xí)訓(xùn)練中的獎(jiǎng)勵(lì)信號(hào),以及作為圖像編輯的質(zhì)量評(píng)估指標(biāo)。
訓(xùn)練體系優(yōu)化與策略提升
MAR訓(xùn)練優(yōu)化體系:為提升模型表現(xiàn),我們采用了兩項(xiàng)關(guān)鍵優(yōu)化策略:首先,在數(shù)據(jù)層面引入覆蓋更廣視覺(jué)場(chǎng)景和類別的億級(jí)專有圖像數(shù)據(jù),顯著拓展了模型的學(xué)習(xí)空間。其次,訓(xùn)練過(guò)程中采用漸進(jìn)式分辨率提升策略,先在256×256分辨率下建立穩(wěn)定的底層特征抽取能力,再逐步遷移至512×512,以增強(qiáng)模型的語(yǔ)義理解和細(xì)粒度建模能力。
HARMON訓(xùn)練優(yōu)化體系:為進(jìn)一步提升模型性能并兼顧訓(xùn)練效率,我們?cè)O(shè)計(jì)了多階段分層分辨率訓(xùn)練機(jī)制。在第一階段,模型在512×512分辨率下進(jìn)行微調(diào),聚焦基礎(chǔ)特征提取的穩(wěn)定性與收斂性。隨后逐步提升輸入分辨率至1024×1024,促使模型更好地捕捉紋理、邊緣等高精度細(xì)節(jié)信息。
同時(shí),我們采用分階段參數(shù)解凍策略,逐步釋放模型能力。在初始階段,僅訓(xùn)練Projector模塊以實(shí)現(xiàn)視覺(jué)與語(yǔ)言特征的對(duì)齊,凍結(jié)主干網(wǎng)絡(luò)和LLM參數(shù);接著在保持LLM編碼器凍結(jié)的前提下優(yōu)化視覺(jué)主干;最后進(jìn)入全量解凍階段,進(jìn)行端到端聯(lián)合優(yōu)化,實(shí)現(xiàn)多模態(tài)協(xié)同增強(qiáng)。
漸進(jìn)式多任務(wù)訓(xùn)練策略:為解決理解、生成和編輯三類任務(wù)難以兼得的問(wèn)題,我們提出漸進(jìn)式多任務(wù)訓(xùn)練機(jī)制。
訓(xùn)練初期,模型先專注于單一任務(wù)(如文本生成圖像),待其收斂后再引入理解與編輯任務(wù),按照由易到難的順序逐步增加任務(wù)復(fù)雜度,避免多任務(wù)早期相互干擾。在精細(xì)化階段,我們通過(guò)獎(jiǎng)勵(lì)模型篩選構(gòu)建高質(zhì)量訓(xùn)練數(shù)據(jù),采用動(dòng)態(tài)閾值與多樣性采樣策略,確保樣本既具高置信度又具語(yǔ)義多樣性。
整體來(lái)看,以上策略在訓(xùn)練過(guò)程中實(shí)現(xiàn)了結(jié)構(gòu)合理的能力釋放和任務(wù)適應(yīng),顯著提升了模型在理解、生成和編輯等任務(wù)上的統(tǒng)一表現(xiàn),達(dá)成真正意義上的“一專多能”。
過(guò)去半年,昆侖萬(wàn)維已經(jīng)開(kāi)源了多個(gè)SOTA大模型,涵蓋獎(jiǎng)勵(lì)模型、推理、軟件工程、多模態(tài)、空間智能等領(lǐng)域。今天,Skywork-UniPic正式加入「Skywork」開(kāi)源大家庭,讓AI真正成為每個(gè)人觸手可及的創(chuàng)意伙伴。
昆侖萬(wàn)維開(kāi)源系列
更多Skywork系列開(kāi)源模型,可在網(wǎng)站查看。
書(shū)荒必存《修仙狂徒》有趣的小說(shuō),爽點(diǎn)極多讀起來(lái)很舒服
今日推薦:《修仙狂徒》作者:王小蠻。搜索書(shū)名開(kāi)始觀看吧~---精選段落--- 第1792章天機(jī)谷力王傻笑著道:“鳥(niǎo)兄弟,不過(guò)我覺(jué)得這里比剛才好,剛才一片深藍(lán)色,我看都看煩了_|?!比~空道:“這里一片灰蒙蒙,也不像是什么好地方——?!比~空身處一個(gè)山坳的半中腰,山坳的上方和下方都布滿了灰色的霧氣,也看不見(jiàn)上是什么——。
主角智商在線的經(jīng)典小說(shuō)《修仙狂徒》,文筆質(zhì)量上上乘值得細(xì)細(xì)品味!
今日推薦:《修仙狂徒》作者:王小蠻--。點(diǎn)擊文末超鏈接開(kāi)始觀看吧~---精選段落--- 第1070章來(lái)得巧了陳俊杰說(shuō)道:“我尸陰宗有個(gè)規(guī)矩,凡是坐化的先祖都會(huì)進(jìn)入白骨洞,死后成為無(wú)主的僵尸,雖然他們的靈魂死去,可是身體卻長(zhǎng)期的流傳下來(lái),這對(duì)他們來(lái)說(shuō),也是另一種形式的生存?!比~空皺眉道:“那些先祖的身體本等會(huì)說(shuō)。
讓人回味無(wú)窮的玄幻小說(shuō)《修仙狂徒》,描寫細(xì)膩?lái)嵨妒?看完熱血...
今日推薦:《修仙狂徒》作者:王小蠻-。搜索書(shū)名開(kāi)始觀看吧~---精選段落--- 第1842章一個(gè)中央城聽(tīng)說(shuō)白毛域來(lái)的,冷老祖覺(jué)得自己眼皮子一跳,連忙道:“你想要什么東西?”下邊的青衣年輕人微微一笑道:“真是好笑,你們?cè)谶@大勝打死,搶來(lái)?yè)屓?,卻不知道,你們要搶的東西,都是我的!全部都是我的!我想要是什么。
來(lái)源:紅網(wǎng)
作者:掌佩杉
編輯:吳佑誠(chéng)
本文為紅辣椒評(píng)論 原創(chuàng)文章,僅系作者個(gè)人觀點(diǎn),不代表紅網(wǎng)立場(chǎng)。轉(zhuǎn)載請(qǐng)附原文出處鏈接和本聲明。