魚(yú)羊西風(fēng)發(fā)自凹非寺量子位|公眾號(hào)QbitAI
聽(tīng)說(shuō)了嗎,GPT-5這兩天那叫一個(gè)瘋狂造勢(shì),奧特曼怕不是真有些急了(doge)。
但有一說(shuō)一,回顧上半年最火AI事件,GPT-4o帶來(lái)的“吉卜力”風(fēng)暴,還是熱度TOP。
△數(shù)據(jù)來(lái)自微信指數(shù)
不僅由“萬(wàn)物皆可吉卜力”為始,GPT-4o生圖功能被網(wǎng)友們瘋玩至今,更重要的是,還引發(fā)了更深的技術(shù)思考:
AIGC的范式,已經(jīng)被悄然改變。
從割裂地處理文本、圖像、聲音,到現(xiàn)在,大眾在應(yīng)用領(lǐng)域的反饋已經(jīng)證明,AI需要以更接近人類(lèi)認(rèn)知的方式,融合多模態(tài)信息。
新的技術(shù)趨勢(shì)值得關(guān)注,也有人第一時(shí)間開(kāi)源了對(duì)新范式的深入思考:
昆侖萬(wàn)維已開(kāi)源多模態(tài)統(tǒng)一模型SkyworkUniPic,和GPT-4o呈現(xiàn)出類(lèi)似的圖像一體化能力,在單一模型里實(shí)現(xiàn)圖像理解、文本到圖像生成、圖像編輯三大核心能力的深度融合。
對(duì)生圖提示詞的理解力,是這樣的:
提示詞:兩位壽司師傅在江戶時(shí)代熙攘的街市投擲彩虹壽司。他們頭頂?shù)募垷艋\明滅閃爍。整個(gè)場(chǎng)景呈現(xiàn)出像素化的復(fù)古游戲畫(huà)風(fēng)。
把圖片轉(zhuǎn)換成吉卜力風(fēng)格,也很有內(nèi)味兒:
并且相比狂卷大參數(shù)量的同類(lèi)模型,SkyworkUniPic主打一個(gè)高“性能密度”:
1.5B參數(shù)模型效果就能接近甚至超越百億參數(shù)專(zhuān)用模型,可以在消費(fèi)級(jí)顯卡上流暢運(yùn)行。
開(kāi)源還很全套:
完整模型權(quán)重、詳細(xì)技術(shù)報(bào)告、配套全流程代碼,通通開(kāi)源。
想要學(xué)習(xí)借鑒增長(zhǎng)姿勢(shì)知識(shí)的小伙伴,值得馬克一波。
1.5B模型效果逼近大型專(zhuān)用模型
一句話總結(jié)一下SkyworkUniPic的模型特點(diǎn),就是既可以像視覺(jué)模型(VLM)一樣理解圖像,也可以像擴(kuò)散模型一樣生成圖片,用戶還只需“動(dòng)動(dòng)嘴”,就可以指導(dǎo)模型完成圖像編輯。
在不同任務(wù)上,1.5B的SkyworkUniPic都有不錯(cuò)的指令理解和生成效果。
比如文本到圖像生成:
修女的鉛筆肖像畫(huà)
一幅身著絲絨長(zhǎng)裙的貴婦人油畫(huà)
圖像編輯方面,換個(gè)背景:
調(diào)整表情:
換個(gè)風(fēng)格:
效果上看都不遜色于一些商業(yè)閉源模型。
更定量地來(lái)看,SkyworkUniPic以1.5B的緊湊參數(shù)規(guī)模,在四大核心評(píng)估維度上均展現(xiàn)出了卓越表現(xiàn)。
在GenEval指令遵循評(píng)估中,SkyworkUniPic取得0.86的優(yōu)異成績(jī),超越了絕大多數(shù)同類(lèi)統(tǒng)一模型,在無(wú)CoT的情況下取得了SOTA分?jǐn)?shù),逼近較大模型BAGEL(7B+7B*)帶CoT的0.88分。
在DPG-Bench復(fù)雜指令生圖基準(zhǔn)上,SkyworkUniPic達(dá)到85.5分的行業(yè)SOTA水平,與14B參數(shù)的BAGEL(85.07分)不相上下。
在圖像編輯能力方面,SkyworkUniPic在GEditBench-EN獲得5.83分,ImgEdit-Bench達(dá)到3.49分,展現(xiàn)出一定的編輯執(zhí)行能力。
值得一提的是,1.5B的參數(shù)量,使得SkyworkUniPic可以在RTX4090這樣的消費(fèi)級(jí)顯卡上流暢運(yùn)行,提供了一套真正可落地的統(tǒng)一模型解決方案。
技術(shù)細(xì)節(jié)大揭秘
而SkyworkUniPic具體是如何做到,昆侖萬(wàn)維此次也給出了非常詳細(xì)的技術(shù)報(bào)告。
自回歸模型架構(gòu)
首先在架構(gòu)方面,SkyworkUniPic采用自回歸模型(AutoregressiveModel)架構(gòu),這是其實(shí)現(xiàn)多模態(tài)統(tǒng)一能力的核心技術(shù)基礎(chǔ),與GPT-4o的技術(shù)路線一脈相承,顯著區(qū)別于主流的擴(kuò)散模型(DiffusionModel)。
該架構(gòu)的核心優(yōu)勢(shì)在于將圖像生成深度整合到多模態(tài)框架中,而非作為一個(gè)獨(dú)立模塊存在,從而能讓圖像理解、文本到圖像生成、圖像編輯三大核心能力在單一模型中實(shí)現(xiàn)完美融合。
△文生圖prompt:一只紋理鮮明的綠色鬣蜥靜臥在飽經(jīng)風(fēng)霜的樹(shù)干上,倚靠著一堵幽暗墻壁。
整體框架借鑒了Harmon的設(shè)計(jì)思路,在表征方式和結(jié)構(gòu)上做出關(guān)鍵調(diào)整——
采用解耦的視覺(jué)編碼器設(shè)計(jì),分別用于不同路徑:
圖像生成路徑采用MAR編碼器作為視覺(jué)表征基礎(chǔ);圖像理解路徑采用SigLIP2編碼器作為主干。
MAR編碼器與SigLIP2都天然契合自回歸的統(tǒng)一訓(xùn)練范式,有助于實(shí)現(xiàn)跨任務(wù)、跨模態(tài)的一體化建模。
MAR(AutoregressiveImageGenerationwithoutVectorQuantization)本身具有連續(xù)空間自回歸的特性,通過(guò)采用DiffusionLoss替代傳統(tǒng)的VQ離散化處理,天然具備高質(zhì)量圖像生成、低延遲響應(yīng)以及自回歸可控的優(yōu)勢(shì)。MAR編碼器還展現(xiàn)了極強(qiáng)的語(yǔ)義理解能力,linearprobing精度出色,能有效支持圖像概念抽取。
此外,昆侖萬(wàn)維Skywork天工大模型團(tuán)隊(duì),通過(guò)大規(guī)模預(yù)訓(xùn)練對(duì)模型進(jìn)行升級(jí):
基于億級(jí)高質(zhì)量圖像-文本對(duì)進(jìn)行獨(dú)立預(yù)訓(xùn)練,使其從單純的“圖像生成”能力,躍升為兼具“高質(zhì)量生成”與“強(qiáng)大語(yǔ)義表征”的綜合視覺(jué)基座,能夠有效支持圖像概念的精準(zhǔn)抽取。
通過(guò)這一自回歸框架的構(gòu)建,SkyworkUniPic成功實(shí)現(xiàn)了:
圖像與文本的統(tǒng)一表征學(xué)習(xí)跨模態(tài)的上下文理解與推理生成與編輯的端到端流程優(yōu)化
精煉高質(zhì)量數(shù)據(jù)體系
另外值得一提的是,SkyworkUniPic的卓越性能并非依賴于海量數(shù)據(jù)的簡(jiǎn)單堆砌,而是源于一套高度精煉、系統(tǒng)優(yōu)化的高質(zhì)量數(shù)據(jù)構(gòu)建體系。
團(tuán)隊(duì)突破了“數(shù)據(jù)量越大模型性能越強(qiáng)”的傳統(tǒng)認(rèn)知,通過(guò)億級(jí)精選預(yù)訓(xùn)練語(yǔ)料與數(shù)百萬(wàn)級(jí)任務(wù)精調(diào)(SFT)樣本,構(gòu)建了一套面向圖像理解、文本到圖像生成與圖像編輯三大核心任務(wù)的高效能多模態(tài)訓(xùn)練語(yǔ)料庫(kù)。
該數(shù)據(jù)體系在數(shù)量上遠(yuǎn)低于當(dāng)前行業(yè)內(nèi)普遍依賴的數(shù)億至百億級(jí)數(shù)據(jù)規(guī)模,卻實(shí)現(xiàn)了與主流大模型相當(dāng)?shù)男阅鼙憩F(xiàn),充分驗(yàn)證了高質(zhì)量小規(guī)模數(shù)據(jù)訓(xùn)練多模態(tài)模型的可行性與高效性。
在數(shù)據(jù)構(gòu)建階段,團(tuán)隊(duì)實(shí)施了三大關(guān)鍵優(yōu)化策略,以“提純”為核心目標(biāo):
嚴(yán)格控制任務(wù)類(lèi)型的均衡分布,確保模型在各領(lǐng)域的泛化能力;精心設(shè)計(jì)多樣化的指令模板,覆蓋不同應(yīng)用場(chǎng)景的表達(dá)需求;建立多層質(zhì)檢機(jī)制,包括自動(dòng)過(guò)濾、人工復(fù)核和交叉驗(yàn)證,保證數(shù)據(jù)純凈度。
這種精細(xì)化的數(shù)據(jù)管理方法不僅顯著提升了數(shù)據(jù)的利用效率,降低了訓(xùn)練資源消耗,更促進(jìn)了模型在跨模態(tài)任務(wù)中的知識(shí)遷移與協(xié)同學(xué)習(xí)能力。
自研專(zhuān)用獎(jiǎng)勵(lì)模型
數(shù)據(jù)質(zhì)量如何把控,官方技術(shù)報(bào)告中也給出了詳細(xì)說(shuō)明。
為確保SkyworkUniPic在圖像生成與編輯任務(wù)中性能卓越,昆侖萬(wàn)維天工大模型團(tuán)隊(duì)意識(shí)到高質(zhì)量訓(xùn)練數(shù)據(jù)的關(guān)鍵作用。
為此,研究團(tuán)隊(duì)針對(duì)性設(shè)計(jì)了兩套專(zhuān)用獎(jiǎng)勵(lì)模型,構(gòu)建起覆蓋生成與編輯數(shù)據(jù)質(zhì)量的智能評(píng)估體系。
其一,是專(zhuān)用圖像生成RewardModel。
Skywork-ImgReward是基于強(qiáng)化學(xué)習(xí)訓(xùn)練的RewardModel,相比于其他T2IRewardModel,Skywork-ImgReward在多個(gè)文生圖場(chǎng)景下的偏好選擇表現(xiàn)都更接近人類(lèi)偏好。它不僅被用來(lái)作為文生圖數(shù)據(jù)質(zhì)量的篩選,也可以在后續(xù)被用于圖像生成能力強(qiáng)化學(xué)習(xí)訓(xùn)練中的獎(jiǎng)勵(lì)信號(hào),以及作為生成圖像的質(zhì)量評(píng)估指標(biāo)。
△文生圖prompt:一幅老式廚房場(chǎng)景,鑄鐵水壺與陶瓷茶壺置于粗削木桌上。
其二,是專(zhuān)用圖像編輯RewardModel。
面對(duì)圖像編輯這一核心挑戰(zhàn),團(tuán)隊(duì)創(chuàng)新性地構(gòu)建了具有針對(duì)性的Skywork-EditReward,其被用作數(shù)據(jù)質(zhì)量評(píng)估時(shí)可以自動(dòng)剔除超過(guò)30%的低質(zhì)量編輯樣本,在GEditBench-EN和ImgEdit-Bench基準(zhǔn)測(cè)試中表現(xiàn)明顯改善。后續(xù)同樣也可以被用作圖像編輯強(qiáng)化學(xué)習(xí)訓(xùn)練中的獎(jiǎng)勵(lì)信號(hào),以及作為圖像編輯的質(zhì)量評(píng)估指標(biāo)。
經(jīng)其篩選數(shù)據(jù)訓(xùn)練的SkyworkUniPic,編輯性能明顯改善,充分驗(yàn)證了對(duì)編輯任務(wù)的強(qiáng)效賦能。
例如,當(dāng)指令要求“Removethebirdsfromtheimage.(將圖中的鳥(niǎo)移除)”時(shí),即便鳥(niǎo)橫跨草甸、湖面、石頭等多個(gè)區(qū)域,SkyworkUniPic仍能精準(zhǔn)移除。對(duì)于湖面被遮擋的倒影,模型也能依據(jù)場(chǎng)景的光影邏輯與物體關(guān)聯(lián)性,進(jìn)行自然且連貫的補(bǔ)全,最終呈現(xiàn)出毫無(wú)編輯痕跡的畫(huà)面效果。
漸進(jìn)式多任務(wù)訓(xùn)練策略
接下來(lái),訓(xùn)練策略方面,SkyworkUniPic是如何讓模型在圖像理解能力、圖像生成質(zhì)量與圖像編輯精度這三大核心任務(wù)上實(shí)現(xiàn)均衡發(fā)展,避免出現(xiàn)“一強(qiáng)兩弱”或“全而不精”的局面?
SkyworkUniPic團(tuán)隊(duì)的做法是:創(chuàng)新性引入漸進(jìn)式多任務(wù)訓(xùn)練機(jī)制,并結(jié)合了MAR訓(xùn)練優(yōu)化體系與Harmon訓(xùn)練優(yōu)化體系的精髓,實(shí)現(xiàn)了模型能力的有序、高效提升。
1、MAR訓(xùn)練優(yōu)化體系
基于ImageNet-1M訓(xùn)練的MAR基線模型存在表征能力弱、語(yǔ)義層次淺的問(wèn)題,百萬(wàn)級(jí)數(shù)據(jù)限制了視覺(jué)特征泛化能力,256×256低分辨率輸入制約細(xì)節(jié)建模。
為此,團(tuán)隊(duì)采取兩項(xiàng)關(guān)鍵優(yōu)化:
數(shù)據(jù)層面引入覆蓋更廣場(chǎng)景與類(lèi)別的億級(jí)專(zhuān)有圖像數(shù)據(jù),拓展學(xué)習(xí)空間;訓(xùn)練中采用漸進(jìn)式分辨率提升策略,先在256×256下建立穩(wěn)定底層特征抽取能力,再逐步遷移至512×512,增強(qiáng)語(yǔ)義理解與細(xì)粒度建模能力。
2、Harmon訓(xùn)練優(yōu)化體系
為進(jìn)一步提升性能并兼顧效率,團(tuán)隊(duì)設(shè)計(jì)多階段分層分辨率訓(xùn)練:
第一階段在512×512分辨率下微調(diào),聚焦基礎(chǔ)特征提取的穩(wěn)定性與收斂性;隨后逐步提升至1024×1024,強(qiáng)化對(duì)紋理、邊緣等高精度細(xì)節(jié)的捕捉。
同時(shí)采用分階段參數(shù)解凍策略,初始階段僅訓(xùn)練Projector模塊以對(duì)齊視覺(jué)與語(yǔ)言特征,凍結(jié)主干網(wǎng)絡(luò)和LLM參數(shù);接著在保持LLM編碼器凍結(jié)的前提下優(yōu)化視覺(jué)主干;最終全量解凍,進(jìn)行端到端聯(lián)合優(yōu)化,實(shí)現(xiàn)多模態(tài)協(xié)同增強(qiáng)。
3、漸進(jìn)式多任務(wù)訓(xùn)練策略
為解決理解、生成和編輯三類(lèi)任務(wù)難以兼得的問(wèn)題,團(tuán)隊(duì)提出漸進(jìn)式多任務(wù)訓(xùn)練機(jī)制。
訓(xùn)練初期聚焦單一任務(wù)(如文本到圖像生成),待其穩(wěn)定收斂后,再按難度遞增順序引入理解與編輯任務(wù),避免早期任務(wù)間的相互干擾。
精細(xì)化調(diào)優(yōu)階段,通過(guò)獎(jiǎng)勵(lì)模型篩選構(gòu)建高質(zhì)量訓(xùn)練數(shù)據(jù),結(jié)合動(dòng)態(tài)閾值與多樣性采樣策略,確保樣本既具備高置信度,又覆蓋豐富的語(yǔ)義場(chǎng)景。
整體而言,這些策略在訓(xùn)練過(guò)程中實(shí)現(xiàn)了能力的有序釋放與任務(wù)的逐步適配,顯著提升了模型在理解、生成和編輯任務(wù)上的綜合表現(xiàn),真正達(dá)成“一專(zhuān)多能”的效果。
為什么原生多模態(tài)統(tǒng)一模型值得關(guān)注
說(shuō)回到技術(shù)趨勢(shì)上,原生多模態(tài)統(tǒng)一模型,本身正在受到技術(shù)圈越來(lái)越多的關(guān)注。
為什么原生多模態(tài)統(tǒng)一模型如此受研究者們重視?
首先,在落地層面上,GPT-4o“吉卜力風(fēng)”的成功出圈已經(jīng)證明,相比于割裂的視覺(jué)大模型(VLM)的“讀圖”、擴(kuò)散模型的“生圖”,真正在統(tǒng)一模型中集成“看圖”+“生圖”+“改圖”等全能多模態(tài)能力,才更能切實(shí)滿足用戶的使用體驗(yàn)。
簡(jiǎn)而言之,就是把多模態(tài)AI的使用門(mén)檻給打下來(lái)了,真的人人可用了。
其次,在技術(shù)層面上,原生多模態(tài)統(tǒng)一模型把跨模態(tài)表征、上下文推理、內(nèi)容生成全部鎖進(jìn)同一組參數(shù),帶來(lái)了“一次訓(xùn)練,處處生效”的范式升級(jí),為AIGC從“拼規(guī)?!弊呦颉捌葱省⑵大w驗(yàn)”指明了發(fā)展方向。
SkyworkUniPic就證明了,高質(zhì)量小數(shù)據(jù)+統(tǒng)一自回歸框架,也能逼近甚至超越大型專(zhuān)用模型的性能極限。
在這個(gè)技術(shù)方向上,好消息是,像昆侖萬(wàn)維這樣全面開(kāi)放核心資源,一方面,技術(shù)社區(qū)能夠在開(kāi)放的氛圍里持續(xù)推動(dòng)底層技術(shù)的演進(jìn)。
另一方面,小而可靠的統(tǒng)一模型架構(gòu),代表了技術(shù)平民化的重要方向,也有助于開(kāi)發(fā)者們探索AI應(yīng)用的更多可能性。
值得一提的是,自2023年8月23日,昆侖萬(wàn)維發(fā)布國(guó)內(nèi)第一款A(yù)I搜索產(chǎn)品“天工AI搜索”以來(lái),其一直保持著持續(xù)開(kāi)源的狀態(tài)。
2023年10月,開(kāi)源百億級(jí)大語(yǔ)言模型“天工”Skywork-13B系列,并配套開(kāi)源了600GB、150BTokens的超大高質(zhì)量開(kāi)源中文數(shù)據(jù)集。
從2024年開(kāi)始,又陸續(xù)開(kāi)源數(shù)字智能體全流程研發(fā)工具包AgentStudio、“天工大模型3.0”4000億參數(shù)MoE超級(jí)模型、2千億稀疏大模型Skywork-MoE、Skywork-o1-Open等模型。
今年初,昆侖萬(wàn)維還一次性開(kāi)源了兩大視頻模型——國(guó)內(nèi)首個(gè)面向AI短劇創(chuàng)作的視頻生成模型SkyReels-V1,和國(guó)內(nèi)首個(gè)SOTA級(jí)別基于視頻基座模型的表情動(dòng)作可控算法SkyReels-A1。
可以說(shuō),從ChatGPT掀起大模型風(fēng)暴以來(lái),昆侖萬(wàn)維一直是國(guó)內(nèi)重要的開(kāi)源力量。也在中國(guó)開(kāi)源越來(lái)越被世界關(guān)注的過(guò)程中,從基礎(chǔ)模型,到音頻,到視頻,多模態(tài)全方位覆蓋。
正如“吉卜力現(xiàn)象”的本質(zhì)所示,是更易用的工具打開(kāi)了普通人利用AI突破想象力邊界的窗口,而昆侖萬(wàn)維這樣的開(kāi)源力量,正在推動(dòng)著我們更快迎來(lái)創(chuàng)意大爆炸時(shí)代。
更令人期待的是,這一次,MadeinChina引領(lǐng)風(fēng)潮。
模型權(quán)重:https://huggingface.co/Skywork/Skywork-UniPic-1.5B技術(shù)報(bào)告:https://github.com/SkyworkAI/UniPic/blob/main/UNIPIC.pdf代碼倉(cāng)庫(kù):https://github.com/SkyworkAI/UniPic
—完—
延伸閱讀:與 今年WAIC智能體爆發(fā)式落地 AI助理賦能萬(wàn)物的時(shí)代來(lái)了丨預(yù):見(jiàn)科!技 的相關(guān)文章