這項(xiàng)由復(fù)旦大學(xué)王藝斌、張宇航等研究團(tuán)隊(duì)與上海人工智能實(shí)驗(yàn)室合作完成的突破性研究發(fā)表于2025年3月,論文題為《UnifiedRewardModelforMultimodalUnderstandingandGeneration》。有興趣深入了解的讀者可以通過論文網(wǎng)址codegoat24.github.io/UnifiedReward訪問完整資料。
在人工智能的世界里,有一個(gè)長期存在的問題就像是缺少了統(tǒng)一的"評(píng)委"。當(dāng)我們讓AI生成圖片或視頻時(shí),不同的AI系統(tǒng)就像是不同比賽項(xiàng)目的選手,而每個(gè)項(xiàng)目都有自己專門的裁判。比如,判斷圖片質(zhì)量的裁判不能評(píng)價(jià)視頻,評(píng)價(jià)視頻的裁判又不懂圖片理解。這就好比奧運(yùn)會(huì)上,游泳裁判不能去評(píng)判體操,體操裁判又不懂跳水規(guī)則。
復(fù)旦大學(xué)的研究團(tuán)隊(duì)意識(shí)到這個(gè)問題的嚴(yán)重性。在現(xiàn)實(shí)應(yīng)用中,這種各自為政的評(píng)價(jià)體系造成了巨大的資源浪費(fèi)和效率低下。每當(dāng)公司想要開發(fā)一個(gè)新的AI產(chǎn)品時(shí),他們就必須為圖片生成、視頻制作、圖片理解、視頻分析等不同功能分別訓(xùn)練專門的評(píng)價(jià)模型。這就像是一家餐廳需要雇傭?qū)iT品嘗中餐的評(píng)委、專門品嘗西餐的評(píng)委、專門評(píng)價(jià)甜點(diǎn)的評(píng)委,每個(gè)評(píng)委只會(huì)做一件事。
更有趣的是,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)重要的洞察:不同的視覺任務(wù)其實(shí)是相互關(guān)聯(lián)的,就像一個(gè)優(yōu)秀的美食評(píng)委在品嘗中餐時(shí)積累的經(jīng)驗(yàn),同樣能幫助他更好地評(píng)價(jià)西餐。當(dāng)AI系統(tǒng)學(xué)會(huì)了如何判斷圖片質(zhì)量時(shí),這種能力實(shí)際上也能幫助它更好地評(píng)價(jià)圖片生成的效果。同樣,當(dāng)它掌握了圖片評(píng)價(jià)的技巧后,也能更準(zhǔn)確地分析視頻中的每一幀畫面。
基于這種認(rèn)識(shí),研究團(tuán)隊(duì)開發(fā)出了世界上第一個(gè)統(tǒng)一的多模態(tài)獎(jiǎng)勵(lì)模型——UnifiedReward。這個(gè)模型就像是培養(yǎng)了一位全能型評(píng)委,他不僅能夠評(píng)判各種不同類型的視覺內(nèi)容,還能在不同任務(wù)之間相互借鑒經(jīng)驗(yàn),做出更準(zhǔn)確的判斷。
UnifiedReward的工作原理可以用培訓(xùn)一位全能型品酒師來比喻。傳統(tǒng)的做法是分別培訓(xùn)紅酒品鑒師、白酒品鑒師、啤酒品鑒師,每個(gè)人只專精一個(gè)領(lǐng)域。而UnifiedReward的方法是培訓(xùn)一位全才,讓他同時(shí)學(xué)習(xí)品鑒各種酒類。在這個(gè)過程中,他在品鑒紅酒時(shí)積累的對(duì)香氣、口感、色澤的敏感度,同樣能幫助他更好地評(píng)價(jià)白酒和啤酒。
這個(gè)統(tǒng)一模型具備兩種核心能力:配對(duì)排名和單點(diǎn)評(píng)分。配對(duì)排名就像是讓評(píng)委比較兩個(gè)作品并選出更好的那個(gè),而單點(diǎn)評(píng)分則是讓評(píng)委給單個(gè)作品打出具體分?jǐn)?shù)。這種雙重能力使得UnifiedReward能夠適應(yīng)各種不同的應(yīng)用場景。
為了訓(xùn)練這樣一個(gè)全能型評(píng)委,研究團(tuán)隊(duì)首先構(gòu)建了一個(gè)大規(guī)模的人類偏好數(shù)據(jù)集,包含了大約23.6萬條數(shù)據(jù),涵蓋了圖片生成、圖片理解、視頻生成、視頻理解四個(gè)主要領(lǐng)域。這就像是為評(píng)委準(zhǔn)備了一個(gè)包含各種類型作品的訓(xùn)練題庫,確保他能見識(shí)到足夠多樣化的樣本。
在具體實(shí)現(xiàn)上,研究團(tuán)隊(duì)采用了一個(gè)三步走的策略。第一步是訓(xùn)練統(tǒng)一獎(jiǎng)勵(lì)模型,就像是對(duì)評(píng)委進(jìn)行基礎(chǔ)培訓(xùn)。第二步是構(gòu)建高質(zhì)量的偏好數(shù)據(jù),這個(gè)過程特別巧妙——他們讓訓(xùn)練好的模型來幫助篩選和組織訓(xùn)練數(shù)據(jù),就像讓經(jīng)驗(yàn)豐富的老師來挑選教學(xué)案例。第三步是使用這些精心篩選的數(shù)據(jù)來對(duì)各種AI模型進(jìn)行偏好對(duì)齊優(yōu)化。
一、統(tǒng)一評(píng)價(jià)體系的革命性突破
要理解UnifiedReward的革命性意義,我們需要先了解之前AI評(píng)價(jià)體系的問題。傳統(tǒng)的AI評(píng)價(jià)就像是古代的行業(yè)公會(huì)制度,每個(gè)行業(yè)都有自己的標(biāo)準(zhǔn)和規(guī)則,彼此之間壁壘森嚴(yán)。圖片生成有自己的評(píng)價(jià)標(biāo)準(zhǔn),比如PickScore、ImageReward等模型;視頻生成又有另一套評(píng)價(jià)體系,如VideoScore、VideoReward等;而圖片理解和視頻理解則各自有專門的評(píng)判工具。
這種分割式的評(píng)價(jià)體系帶來了多重問題。首先是資源浪費(fèi),每開發(fā)一個(gè)新的AI應(yīng)用,就需要重新訓(xùn)練對(duì)應(yīng)的評(píng)價(jià)模型,就像每開一家新餐廳都要重新培訓(xùn)所有服務(wù)員一樣低效。其次是標(biāo)準(zhǔn)不統(tǒng)一,不同評(píng)價(jià)模型的判斷標(biāo)準(zhǔn)可能存在沖突,導(dǎo)致AI系統(tǒng)無法獲得一致的反饋信號(hào)。
更重要的是,這種割裂忽視了視覺任務(wù)之間的內(nèi)在聯(lián)系。研究團(tuán)隊(duì)通過大量實(shí)驗(yàn)發(fā)現(xiàn),當(dāng)AI系統(tǒng)學(xué)會(huì)了判斷圖片質(zhì)量時(shí),這種能力能夠顯著提升它評(píng)價(jià)圖片生成效果的準(zhǔn)確性。同樣,掌握了圖片評(píng)價(jià)技能的AI在處理視頻任務(wù)時(shí)也表現(xiàn)得更加出色,因?yàn)橐曨l本質(zhì)上是由連續(xù)的圖片幀組成的。
UnifiedReward的設(shè)計(jì)理念就是要打破這些人為的壁壘,創(chuàng)建一個(gè)真正統(tǒng)一的評(píng)價(jià)體系。這個(gè)系統(tǒng)不僅能夠處理不同類型的視覺任務(wù),更重要的是能夠在不同任務(wù)之間實(shí)現(xiàn)知識(shí)的遷移和共享。當(dāng)系統(tǒng)在圖片理解任務(wù)上積累經(jīng)驗(yàn)時(shí),這些經(jīng)驗(yàn)會(huì)自動(dòng)幫助提升圖片生成的評(píng)價(jià)準(zhǔn)確性;而在圖片相關(guān)任務(wù)上的所有學(xué)習(xí)成果,又會(huì)進(jìn)一步增強(qiáng)視頻任務(wù)的處理能力。
為了驗(yàn)證這種跨任務(wù)協(xié)同效應(yīng),研究團(tuán)隊(duì)進(jìn)行了詳細(xì)的對(duì)比實(shí)驗(yàn)。他們發(fā)現(xiàn),單獨(dú)訓(xùn)練圖片理解評(píng)價(jià)模型的準(zhǔn)確率是46.8%,而同時(shí)學(xué)習(xí)圖片理解和圖片生成評(píng)價(jià)的模型準(zhǔn)確率提升到53.5%。更令人驚訝的是,當(dāng)模型同時(shí)學(xué)習(xí)圖片和視頻理解任務(wù)時(shí),準(zhǔn)確率進(jìn)一步提升到55.1%。最終的統(tǒng)一模型在所有任務(wù)上都取得了最佳性能,整體準(zhǔn)確率達(dá)到66.5%。
這種協(xié)同效應(yīng)的機(jī)制可以用學(xué)習(xí)外語來類比。當(dāng)你學(xué)習(xí)英語時(shí),掌握的語法規(guī)則和詞匯積累不僅幫助你更好地理解英語,也為學(xué)習(xí)法語、德語等其他語言奠定了基礎(chǔ)。同樣,AI在學(xué)習(xí)判斷圖片質(zhì)量時(shí)積累的對(duì)色彩、構(gòu)圖、清晰度的理解,同樣適用于評(píng)價(jià)視頻的視覺效果。
二、大規(guī)模數(shù)據(jù)集的精心構(gòu)建
要訓(xùn)練一個(gè)全能型評(píng)委,首先需要一個(gè)包含豐富多樣案例的訓(xùn)練題庫。研究團(tuán)隊(duì)面臨的第一個(gè)挑戰(zhàn)就是如何構(gòu)建一個(gè)涵蓋所有視覺任務(wù)類型的大規(guī)模數(shù)據(jù)集。這個(gè)過程就像是為一所綜合性大學(xué)收集各個(gè)學(xué)科的教材和參考資料。
現(xiàn)有的數(shù)據(jù)集都有明顯的局限性。圖片生成領(lǐng)域有EvalMuse、HPD等數(shù)據(jù)集,視頻生成有VideoDPO、VideoFeedback等,圖片理解有LLaVA-Critic數(shù)據(jù),視頻理解有ShareGPTVideo數(shù)據(jù)。但這些數(shù)據(jù)集都是為特定任務(wù)設(shè)計(jì)的,格式標(biāo)準(zhǔn)、評(píng)價(jià)維度、數(shù)據(jù)規(guī)模都不統(tǒng)一,就像是用不同語言寫成的教科書,無法直接整合使用。
研究團(tuán)隊(duì)采用了一種系統(tǒng)性的數(shù)據(jù)整合策略。他們首先對(duì)現(xiàn)有數(shù)據(jù)集進(jìn)行深入分析,識(shí)別出每個(gè)數(shù)據(jù)集的核心價(jià)值和獨(dú)特貢獻(xiàn)。然后設(shè)計(jì)了統(tǒng)一的數(shù)據(jù)預(yù)處理流程,將不同格式的數(shù)據(jù)轉(zhuǎn)換為標(biāo)準(zhǔn)化的訓(xùn)練樣本。這個(gè)過程需要極其細(xì)致的工作,就像是將不同出版社的教材重新編排成統(tǒng)一的課程體系。
在圖片生成任務(wù)上,團(tuán)隊(duì)整合了多個(gè)重要數(shù)據(jù)集。EvalMuse提供了4000個(gè)提示詞,每個(gè)提示詞對(duì)應(yīng)多張由不同模型生成的圖片,并配有詳細(xì)的人工評(píng)分。HumanPreferenceDataset包含70萬條人類偏好投票數(shù)據(jù),記錄了用戶對(duì)不同生成圖片的選擇偏好。Open-Image-Preferences則貢獻(xiàn)了7400對(duì)文本到圖片的偏好數(shù)據(jù)。
處理這些數(shù)據(jù)時(shí),研究團(tuán)隊(duì)采用了巧妙的策略來同時(shí)支持配對(duì)排名和單點(diǎn)評(píng)分兩種訓(xùn)練方式。對(duì)于配對(duì)排名,他們從同一提示詞生成的多張圖片中選擇評(píng)分最高和最低的作為對(duì)比樣本。對(duì)于單點(diǎn)評(píng)分,他們將多個(gè)評(píng)估者的分?jǐn)?shù)進(jìn)行平均,并整合整體評(píng)分和元素級(jí)別的標(biāo)注信息,形成綜合的評(píng)價(jià)答案。
視頻生成數(shù)據(jù)的處理面臨更大挑戰(zhàn),因?yàn)橐曨l評(píng)價(jià)涉及時(shí)間維度上的連貫性和動(dòng)態(tài)效果。VideoDPO提供了1萬對(duì)合成視頻的對(duì)比數(shù)據(jù),專門用于文本到視頻模型的偏好學(xué)習(xí)。LiFT-HRA和VideoFeedback則提供了大量的人工評(píng)分?jǐn)?shù)據(jù),每個(gè)視頻都有詳細(xì)的多維度評(píng)價(jià)分?jǐn)?shù)和評(píng)價(jià)理由。
在理解任務(wù)方面,團(tuán)隊(duì)使用了LLaVA-Critic的數(shù)據(jù)集,其中包含4萬條單點(diǎn)評(píng)分?jǐn)?shù)據(jù)和7.3萬條配對(duì)排名數(shù)據(jù)。這些數(shù)據(jù)專門針對(duì)圖片理解任務(wù)的評(píng)價(jià)學(xué)習(xí),涵蓋了多種評(píng)價(jià)標(biāo)準(zhǔn)和場景。視頻理解則主要依托ShareGPTVideo-DPO數(shù)據(jù)集,包含1.7萬條視頻理解的DPO數(shù)據(jù)。
數(shù)據(jù)預(yù)處理過程中,團(tuán)隊(duì)特別注意保持評(píng)價(jià)標(biāo)準(zhǔn)的一致性。對(duì)于配對(duì)排名數(shù)據(jù),他們統(tǒng)一采用"X比Y更好"的表達(dá)格式。對(duì)于包含評(píng)價(jià)理由的數(shù)據(jù),他們保留了人類的推理過程,讓模型能夠?qū)W習(xí)到評(píng)價(jià)的邏輯和依據(jù)。而對(duì)于單點(diǎn)評(píng)分,他們沒有強(qiáng)制統(tǒng)一評(píng)分范圍,而是讓模型學(xué)習(xí)適應(yīng)不同數(shù)據(jù)集的評(píng)分體系和標(biāo)準(zhǔn)。
最終構(gòu)建的統(tǒng)一數(shù)據(jù)集包含約23.6萬條訓(xùn)練樣本,均勻覆蓋了四個(gè)主要任務(wù)類型。這個(gè)數(shù)據(jù)集的價(jià)值不僅在于規(guī)模龐大,更在于其內(nèi)在的多樣性和互補(bǔ)性。不同任務(wù)的數(shù)據(jù)能夠相互補(bǔ)充,幫助模型建立更全面的視覺評(píng)價(jià)能力。
三、創(chuàng)新性的三階段訓(xùn)練策略
有了豐富的訓(xùn)練數(shù)據(jù),如何有效地訓(xùn)練出一個(gè)全能型評(píng)價(jià)模型成為了關(guān)鍵問題。研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)創(chuàng)新的三階段訓(xùn)練策略,這個(gè)過程就像是培養(yǎng)一位世界級(jí)的全能運(yùn)動(dòng)員。
第一階段是統(tǒng)一獎(jiǎng)勵(lì)模型的訓(xùn)練。研究團(tuán)隊(duì)選擇了LLaVA-OneVision7B作為基礎(chǔ)模型,這是一個(gè)在圖片和視頻理解方面都表現(xiàn)出色的預(yù)訓(xùn)練模型。選擇這個(gè)模型作為起點(diǎn)就像是選擇一個(gè)已經(jīng)具備良好身體素質(zhì)的運(yùn)動(dòng)員作為培養(yǎng)對(duì)象。
訓(xùn)練過程采用了多任務(wù)聯(lián)合學(xué)習(xí)的策略。模型需要同時(shí)學(xué)習(xí)處理四種不同類型的任務(wù):圖片生成評(píng)價(jià)、視頻生成評(píng)價(jià)、圖片理解評(píng)價(jià)、視頻理解評(píng)價(jià)。對(duì)于生成任務(wù)的評(píng)價(jià),模型的輸入包括視覺內(nèi)容、指令和文本描述;對(duì)于理解任務(wù)的評(píng)價(jià),模型的輸入則包括視覺內(nèi)容、問題和對(duì)應(yīng)的回答。
訓(xùn)練的目標(biāo)是讓模型能夠根據(jù)指令要求,輸出相應(yīng)的評(píng)價(jià)結(jié)果。這可能是一個(gè)具體的評(píng)分,也可能是兩個(gè)選項(xiàng)之間的排名選擇。如果訓(xùn)練數(shù)據(jù)中包含了評(píng)價(jià)的理由和解釋,模型還需要學(xué)習(xí)生成詳細(xì)的評(píng)價(jià)說明。
第二階段是偏好數(shù)據(jù)的自動(dòng)構(gòu)建。這是整個(gè)訓(xùn)練策略中最具創(chuàng)新性的部分。傳統(tǒng)的方法通常是先收集人工標(biāo)注的偏好數(shù)據(jù),然后直接用于模型訓(xùn)練。而這里的方法是讓訓(xùn)練好的統(tǒng)一獎(jiǎng)勵(lì)模型來幫助構(gòu)建更高質(zhì)量的偏好數(shù)據(jù)。
這個(gè)過程包含三個(gè)精密設(shè)計(jì)的步驟。首先是數(shù)據(jù)生成,讓目標(biāo)AI模型(比如圖片生成模型或視頻理解模型)針對(duì)給定的輸入生成多個(gè)候選輸出。這就像是讓多個(gè)選手參加同一項(xiàng)比賽,產(chǎn)生可供比較的作品。
接下來是配對(duì)排名階段。統(tǒng)一獎(jiǎng)勵(lì)模型會(huì)對(duì)這些候選輸出進(jìn)行兩兩比較,識(shí)別出相對(duì)較好和相對(duì)較差的輸出。這個(gè)過程會(huì)產(chǎn)生一個(gè)"優(yōu)選列表"和一個(gè)"劣選列表"。這種方法的優(yōu)勢(shì)在于能夠捕捉到輸出之間的相對(duì)質(zhì)量差異。
最后是單點(diǎn)篩選階段。獎(jiǎng)勵(lì)模型會(huì)對(duì)優(yōu)選列表和劣選列表中的所有輸出進(jìn)行絕對(duì)質(zhì)量評(píng)分,然后從優(yōu)選列表中選擇得分最高的輸出作為最終的正例,從劣選列表中選擇得分最低的輸出作為最終的負(fù)例。這種雙重篩選機(jī)制確保了偏好數(shù)據(jù)的高質(zhì)量。
通過這種方法構(gòu)建的偏好數(shù)據(jù)具有很高的可靠性。配對(duì)排名捕捉了相對(duì)質(zhì)量差異,單點(diǎn)篩選確保了絕對(duì)質(zhì)量水平,兩者結(jié)合產(chǎn)生了既有區(qū)分度又有代表性的訓(xùn)練樣本。
第三階段是模型的偏好對(duì)齊優(yōu)化。利用第二階段構(gòu)建的高質(zhì)量偏好數(shù)據(jù),研究團(tuán)隊(duì)采用直接偏好優(yōu)化(DPO)技術(shù)來改進(jìn)目標(biāo)AI模型的表現(xiàn)。這個(gè)過程分別針對(duì)生成任務(wù)和理解任務(wù)采用了不同的優(yōu)化策略。
對(duì)于圖片和視頻生成任務(wù),優(yōu)化過程直接作用于擴(kuò)散模型的去噪預(yù)測(cè)過程。通過比較微調(diào)模型和參考模型在處理偏好樣本和非偏好樣本時(shí)的噪聲預(yù)測(cè)差異,逐步調(diào)整模型參數(shù),使其更傾向于生成高質(zhì)量的輸出。
對(duì)于理解任務(wù),優(yōu)化過程則是調(diào)整模型的響應(yīng)概率分布。通過增加對(duì)偏好響應(yīng)的生成概率,同時(shí)降低對(duì)非偏好響應(yīng)的生成概率,讓模型的輸出更符合人類的期望和標(biāo)準(zhǔn)。
整個(gè)三階段策略的巧妙之處在于形成了一個(gè)良性循環(huán)。第一階段訓(xùn)練出的統(tǒng)一獎(jiǎng)勵(lì)模型為第二階段提供了高質(zhì)量的數(shù)據(jù)篩選能力;第二階段構(gòu)建的精確偏好數(shù)據(jù)為第三階段的模型優(yōu)化提供了可靠的訓(xùn)練信號(hào);而第三階段優(yōu)化后的模型又可以為新一輪的訓(xùn)練提供更好的起點(diǎn)。
四、跨任務(wù)協(xié)同效應(yīng)的深度分析
UnifiedReward最令人著迷的特性是其跨任務(wù)協(xié)同效應(yīng)。為了深入理解這種現(xiàn)象,研究團(tuán)隊(duì)進(jìn)行了大量的對(duì)比實(shí)驗(yàn),就像是科學(xué)家研究不同化學(xué)元素之間的相互作用。
研究團(tuán)隊(duì)設(shè)計(jì)了一系列對(duì)照實(shí)驗(yàn)來驗(yàn)證跨任務(wù)學(xué)習(xí)的效果。他們分別訓(xùn)練了只專注單一任務(wù)的模型和同時(shí)學(xué)習(xí)多個(gè)任務(wù)的模型,然后比較它們?cè)诟髯匀蝿?wù)上的表現(xiàn)。結(jié)果顯示了令人驚訝的協(xié)同效應(yīng)。
在圖片理解任務(wù)上,單獨(dú)訓(xùn)練的模型在VLRewardBench基準(zhǔn)測(cè)試中的總體準(zhǔn)確率為46.8%。當(dāng)模型同時(shí)學(xué)習(xí)圖片理解和圖片生成評(píng)價(jià)時(shí),準(zhǔn)確率顯著提升到53.5%。這種提升可以用廚師的經(jīng)驗(yàn)來理解:一個(gè)既懂得品鑒美食又了解烹飪過程的廚師,比只會(huì)品嘗或只會(huì)做菜的人更能準(zhǔn)確評(píng)價(jià)一道菜的優(yōu)劣。
更有趣的是,當(dāng)模型進(jìn)一步學(xué)習(xí)視頻相關(guān)任務(wù)時(shí),圖片理解的性能還會(huì)繼續(xù)提升。同時(shí)學(xué)習(xí)圖片和視頻理解的模型在圖片理解任務(wù)上達(dá)到了55.1%的準(zhǔn)確率。這說明視頻理解能力的獲得反過來也增強(qiáng)了圖片分析能力,因?yàn)橐曨l理解需要對(duì)時(shí)間序列上的圖片幀進(jìn)行連貫分析,這種能力自然地增強(qiáng)了對(duì)單個(gè)圖片的理解深度。
在視頻理解任務(wù)上,協(xié)同效應(yīng)同樣顯著?;A(chǔ)模型的準(zhǔn)確率為48.2%,單獨(dú)學(xué)習(xí)視頻理解后提升到74.2%,而同時(shí)學(xué)習(xí)視頻和圖片理解后進(jìn)一步提升到76.6%,最終的統(tǒng)一模型達(dá)到了84.0%的準(zhǔn)確率。這種階梯式的性能提升清楚地顯示了不同任務(wù)之間的相互促進(jìn)作用。
生成任務(wù)的評(píng)價(jià)能力也展現(xiàn)出類似的協(xié)同效應(yīng)。在圖片生成評(píng)價(jià)方面,GenAI-Bench基準(zhǔn)測(cè)試顯示,單獨(dú)訓(xùn)練的模型準(zhǔn)確率為64.0%,而統(tǒng)一模型達(dá)到了70.9%。視頻生成評(píng)價(jià)的提升更加明顯,從單任務(wù)的69.4%提升到統(tǒng)一模型的77.2%。
這種協(xié)同效應(yīng)的機(jī)制可以從多個(gè)角度來理解。首先是特征表示的共享。不同視覺任務(wù)雖然目標(biāo)不同,但都需要對(duì)圖像的基本特征進(jìn)行理解,如顏色、紋理、形狀、構(gòu)圖等。當(dāng)模型在一個(gè)任務(wù)上學(xué)習(xí)這些特征表示時(shí),這些知識(shí)能夠直接遷移到其他任務(wù)上。
其次是評(píng)價(jià)標(biāo)準(zhǔn)的互補(bǔ)。圖片生成的評(píng)價(jià)需要考慮內(nèi)容的準(zhǔn)確性、視覺質(zhì)量、藝術(shù)美感等多個(gè)維度。而圖片理解的評(píng)價(jià)則更注重語義的準(zhǔn)確性、邏輯的一致性、信息的完整性。這兩套評(píng)價(jià)標(biāo)準(zhǔn)實(shí)際上是互補(bǔ)的,綜合掌握后能夠形成更全面的評(píng)價(jià)能力。
時(shí)間維度的理解也是重要的協(xié)同因素。視頻任務(wù)要求模型理解時(shí)間序列上的連貫性和一致性,這種能力的獲得讓模型對(duì)靜態(tài)圖像的理解也更加深入。反過來,對(duì)靜態(tài)圖像的深度理解為分析視頻中的每一幀提供了堅(jiān)實(shí)基礎(chǔ)。
研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:即使在訓(xùn)練數(shù)據(jù)相對(duì)較少的任務(wù)上,協(xié)同學(xué)習(xí)也能帶來顯著改善。比如視頻生成評(píng)價(jià)的訓(xùn)練數(shù)據(jù)相對(duì)稀少,但通過與其他任務(wù)的聯(lián)合學(xué)習(xí),模型在這個(gè)任務(wù)上的表現(xiàn)仍然超越了專門的單任務(wù)模型。這說明跨任務(wù)學(xué)習(xí)不僅能夠提升整體性能,還能夠緩解數(shù)據(jù)稀缺的問題。
這種協(xié)同效應(yīng)的發(fā)現(xiàn)對(duì)AI系統(tǒng)的設(shè)計(jì)具有重要啟示。傳統(tǒng)的做法是為每個(gè)任務(wù)訓(xùn)練專門的模型,但這項(xiàng)研究證明了統(tǒng)一建模的優(yōu)勢(shì)。通過讓模型同時(shí)學(xué)習(xí)相關(guān)的多個(gè)任務(wù),不僅能夠提升單項(xiàng)任務(wù)的性能,還能夠顯著提高整體的資源利用效率。
五、實(shí)際應(yīng)用中的顯著改進(jìn)效果
為了驗(yàn)證UnifiedReward在實(shí)際應(yīng)用中的效果,研究團(tuán)隊(duì)在多個(gè)AI系統(tǒng)上進(jìn)行了全面的測(cè)試和比較。這些測(cè)試就像是讓新培訓(xùn)的全能教練指導(dǎo)不同類型的運(yùn)動(dòng)員,看看他們的成績能夠提升多少。
在圖片理解任務(wù)上,團(tuán)隊(duì)選擇了LLaVA-OneVision7B作為基礎(chǔ)模型,使用UnifiedReward構(gòu)建的偏好數(shù)據(jù)進(jìn)行優(yōu)化。測(cè)試涵蓋了五個(gè)不同的基準(zhǔn)數(shù)據(jù)集:LLaVABench、WildVision、LLaVABench-Wilder、LiveBench和MMHal。這些測(cè)試就像是對(duì)學(xué)生進(jìn)行多科目的綜合考試。
結(jié)果顯示,使用UnifiedReward優(yōu)化后的模型在所有測(cè)試中都取得了顯著改進(jìn)。在LLaVABench測(cè)試中,基礎(chǔ)模型得分為90.3,經(jīng)過LLaVA-Critic方法優(yōu)化后提升到100.3,而使用UnifiedReward優(yōu)化后達(dá)到了101.4。在WildVision測(cè)試中,改進(jìn)更加明顯,從基礎(chǔ)的54.9提升到67.8。在最具挑戰(zhàn)性的LLaVABench-Wilder測(cè)試中,UnifiedReward的優(yōu)化效果最為突出,將得分從67.8提升到75.0。
視頻理解任務(wù)的改進(jìn)同樣令人印象深刻。研究團(tuán)隊(duì)在LLaVA-Video-7B模型上進(jìn)行了測(cè)試,涵蓋了六個(gè)不同的視頻理解基準(zhǔn):MSRVTT、MSVD、TGIF、LongVideoBench、MLVU和Video-MME。在MSRVTT測(cè)試中,基礎(chǔ)模型的準(zhǔn)確率為52.8%,使用現(xiàn)有的Houd-DPO方法可以提升到56.8%,而UnifiedReward將準(zhǔn)確率大幅提升到65.0%。在MSVD測(cè)試中,改進(jìn)幅度同樣顯著,從基礎(chǔ)的69.7%提升到78.3%。
生成任務(wù)的改進(jìn)效果更加直觀。在圖片生成方面,研究團(tuán)隊(duì)使用SDXL-Turbo作為基礎(chǔ)生成模型,通過三種不同的評(píng)價(jià)指標(biāo)進(jìn)行測(cè)試:PickScore、HPSv2和ImageReward。結(jié)果顯示,基礎(chǔ)模型在PickScore指標(biāo)上的得分為43.24,使用傳統(tǒng)的Pick-a-Pic數(shù)據(jù)集優(yōu)化后提升到54.32,而使用UnifiedReward構(gòu)建的偏好數(shù)據(jù)優(yōu)化后達(dá)到了63.32。在其他兩個(gè)指標(biāo)上也有類似的改進(jìn)幅度。
視頻生成的改進(jìn)效果同樣顯著。使用T2V-Turbo作為基礎(chǔ)模型,在VBench綜合評(píng)價(jià)基準(zhǔn)上進(jìn)行測(cè)試?;A(chǔ)模型的總體得分為80.95%,使用傳統(tǒng)的VideoDPO方法可以提升到81.80%,而UnifiedReward的優(yōu)化方法將得分提升到82.10%。在質(zhì)量維度上,改進(jìn)從82.71%提升到84.11%,在語義一致性方面從73.93%提升到74.06%。
這些數(shù)值背后反映的是實(shí)際使用體驗(yàn)的顯著改善。在圖片生成中,優(yōu)化后的模型能夠更好地理解用戶的意圖,生成更符合描述的圖像,減少無關(guān)元素的出現(xiàn),提高整體的視覺質(zhì)量。在視頻生成中,改進(jìn)主要體現(xiàn)在時(shí)間一致性、動(dòng)作流暢性和內(nèi)容準(zhǔn)確性方面。
研究團(tuán)隊(duì)還進(jìn)行了定性分析,通過人工評(píng)估來驗(yàn)證數(shù)值改進(jìn)的實(shí)際意義。他們邀請(qǐng)?jiān)u估者對(duì)比基礎(chǔ)模型和優(yōu)化后模型的輸出,結(jié)果顯示用戶確實(shí)能夠感受到明顯的質(zhì)量提升。在圖片生成任務(wù)中,優(yōu)化后的模型生成的圖像在細(xì)節(jié)豐富度、色彩準(zhǔn)確性、構(gòu)圖合理性方面都有明顯改善。在視頻生成中,動(dòng)作的連貫性、場景的一致性、整體的觀感都得到了提升。
特別值得注意的是,UnifiedReward的改進(jìn)效果在不同類型的任務(wù)中表現(xiàn)出了一致性。無論是理解任務(wù)還是生成任務(wù),無論是圖片還是視頻,都能獲得穩(wěn)定的性能提升。這種一致性證明了統(tǒng)一建模方法的可靠性和通用性。
更重要的是,這種改進(jìn)是在保持模型效率的前提下實(shí)現(xiàn)的。UnifiedReward不需要為每個(gè)任務(wù)訓(xùn)練專門的評(píng)價(jià)模型,大大減少了計(jì)算資源的需求和維護(hù)的復(fù)雜性。這對(duì)于實(shí)際部署具有重要意義,特別是對(duì)于需要處理多種視覺任務(wù)的綜合性AI系統(tǒng)。
六、技術(shù)創(chuàng)新點(diǎn)與方法論貢獻(xiàn)
UnifiedReward的技術(shù)創(chuàng)新可以從多個(gè)維度來理解,每個(gè)創(chuàng)新點(diǎn)都代表了對(duì)傳統(tǒng)方法的重要突破。這些創(chuàng)新就像是在傳統(tǒng)的單項(xiàng)競技中引入了全能運(yùn)動(dòng)的概念,徹底改變了比賽規(guī)則。
首先是統(tǒng)一建模架構(gòu)的創(chuàng)新。傳統(tǒng)的做法是為每個(gè)視覺任務(wù)設(shè)計(jì)專門的評(píng)價(jià)模型,這種方法的問題在于無法充分利用任務(wù)間的相關(guān)性。UnifiedReward采用了單一模型處理多種任務(wù)的架構(gòu),通過任務(wù)特定的輸入格式和指令來區(qū)分不同的評(píng)價(jià)需求。這種設(shè)計(jì)既保持了任務(wù)的特異性,又實(shí)現(xiàn)了知識(shí)的共享。
模型的輸入設(shè)計(jì)特別巧妙。對(duì)于生成任務(wù)的評(píng)價(jià),模型接收視覺內(nèi)容、指令文本和生成描述作為輸入;對(duì)于理解任務(wù)的評(píng)價(jià),模型接收視覺內(nèi)容、問題文本和回答內(nèi)容。通過這種統(tǒng)一而靈活的輸入格式,單一模型能夠適應(yīng)不同任務(wù)的需求,同時(shí)保持內(nèi)部表示的一致性。
雙模式評(píng)價(jià)能力是另一個(gè)重要?jiǎng)?chuàng)新。UnifiedReward既能進(jìn)行配對(duì)排名(比較兩個(gè)輸出的優(yōu)劣),也能進(jìn)行單點(diǎn)評(píng)分(給單個(gè)輸出打分)。傳統(tǒng)方法通常只支持其中一種模式,這限制了模型的應(yīng)用場景。雙模式能力讓UnifiedReward能夠適應(yīng)不同的使用需求和評(píng)價(jià)標(biāo)準(zhǔn)。
數(shù)據(jù)構(gòu)建策略的創(chuàng)新性體現(xiàn)在主動(dòng)學(xué)習(xí)的應(yīng)用上。傳統(tǒng)方法依賴預(yù)先標(biāo)注的偏好數(shù)據(jù),而UnifiedReward采用了"自舉"的方法——讓訓(xùn)練好的獎(jiǎng)勵(lì)模型來幫助構(gòu)建更高質(zhì)量的偏好數(shù)據(jù)。這種方法的優(yōu)勢(shì)在于能夠充分利用模型已有的評(píng)價(jià)能力,生成更加精確和一致的訓(xùn)練樣本。
三步驟的數(shù)據(jù)篩選流程設(shè)計(jì)得非常精密。首先生成多個(gè)候選輸出,然后進(jìn)行配對(duì)排名篩選出相對(duì)的優(yōu)劣組,最后通過單點(diǎn)評(píng)分在每組中選擇極端樣本。這種多層篩選確保了最終偏好數(shù)據(jù)的高質(zhì)量和強(qiáng)區(qū)分度。
跨任務(wù)知識(shí)遷移機(jī)制的發(fā)現(xiàn)和利用是最重要的方法論貢獻(xiàn)。研究團(tuán)隊(duì)不僅驗(yàn)證了這種遷移的存在,還深入分析了其機(jī)制和規(guī)律。他們發(fā)現(xiàn)圖片和視頻任務(wù)之間、理解和生成任務(wù)之間都存在顯著的正向遷移效應(yīng),這為未來的多任務(wù)學(xué)習(xí)研究提供了重要指導(dǎo)。
聯(lián)合訓(xùn)練策略的優(yōu)化也值得關(guān)注。研究團(tuán)隊(duì)沒有簡單地混合不同任務(wù)的數(shù)據(jù),而是設(shè)計(jì)了平衡的采樣策略,確保每個(gè)任務(wù)都能獲得充分的學(xué)習(xí)機(jī)會(huì)。同時(shí),他們采用了任務(wù)特定的損失函數(shù)和優(yōu)化參數(shù),在保持統(tǒng)一性的同時(shí)兼顧了任務(wù)的特殊性。
評(píng)價(jià)指令的標(biāo)準(zhǔn)化是另一個(gè)重要貢獻(xiàn)。研究團(tuán)隊(duì)設(shè)計(jì)了一套統(tǒng)一而靈活的指令模板,能夠清晰地向模型傳達(dá)不同的評(píng)價(jià)需求。這些指令不僅包含任務(wù)類型信息,還包含具體的評(píng)價(jià)標(biāo)準(zhǔn)和輸出格式要求,確保模型能夠產(chǎn)生一致和準(zhǔn)確的評(píng)價(jià)結(jié)果。
模型優(yōu)化方面,研究團(tuán)隊(duì)針對(duì)生成任務(wù)和理解任務(wù)的不同特點(diǎn),分別采用了適配的DPO實(shí)現(xiàn)。對(duì)于生成任務(wù),優(yōu)化直接作用于擴(kuò)散過程的噪聲預(yù)測(cè);對(duì)于理解任務(wù),優(yōu)化調(diào)整的是響應(yīng)概率分布。這種差異化的優(yōu)化策略體現(xiàn)了對(duì)不同任務(wù)本質(zhì)的深入理解。
實(shí)驗(yàn)設(shè)計(jì)的系統(tǒng)性也是重要貢獻(xiàn)。研究團(tuán)隊(duì)不僅進(jìn)行了全面的性能對(duì)比,還通過消融實(shí)驗(yàn)詳細(xì)分析了每個(gè)組件的貢獻(xiàn)。他們系統(tǒng)地研究了不同任務(wù)組合對(duì)性能的影響,為多任務(wù)學(xué)習(xí)的實(shí)踐提供了具體指導(dǎo)。
這些技術(shù)創(chuàng)新的綜合效果不僅體現(xiàn)在性能指標(biāo)的提升上,更重要的是為AI評(píng)價(jià)系統(tǒng)的發(fā)展開辟了新的方向。UnifiedReward證明了統(tǒng)一建模的可行性和優(yōu)越性,這對(duì)于構(gòu)建更加高效和通用的AI系統(tǒng)具有重要意義。
七、實(shí)驗(yàn)驗(yàn)證的全面性與可信度
為了確保研究結(jié)果的可靠性和說服力,研究團(tuán)隊(duì)設(shè)計(jì)了極其全面的實(shí)驗(yàn)驗(yàn)證體系。這套驗(yàn)證體系就像是對(duì)一位全能運(yùn)動(dòng)員進(jìn)行的奧運(yùn)級(jí)別的全面測(cè)試,確保在各種不同條件下都能保持優(yōu)異表現(xiàn)。
實(shí)驗(yàn)設(shè)計(jì)的第一個(gè)特點(diǎn)是基準(zhǔn)測(cè)試的多樣性。研究團(tuán)隊(duì)沒有僅僅依賴單一的評(píng)價(jià)指標(biāo),而是在每個(gè)任務(wù)類型上都選擇了多個(gè)權(quán)威的基準(zhǔn)測(cè)試。在圖片理解方面,他們使用了VLRewardBench這個(gè)專門設(shè)計(jì)的綜合性基準(zhǔn),該基準(zhǔn)包含了1250個(gè)高質(zhì)量樣本,涵蓋了通用多模態(tài)查詢、視覺幻覺檢測(cè)和復(fù)雜推理任務(wù)三個(gè)維度。
視頻理解的測(cè)試更加全面,包括了六個(gè)不同特點(diǎn)的數(shù)據(jù)集:MSRVTT和MSVD主要測(cè)試基礎(chǔ)的視頻描述和問答能力,TGIF專注于動(dòng)態(tài)GIF的理解,LongVideoBench測(cè)試長視頻的理解能力,MLVU評(píng)估多任務(wù)長視頻理解,Video-MME則是最新的視頻多模態(tài)評(píng)價(jià)基準(zhǔn)。這種多維度的測(cè)試確保了結(jié)果的全面性。
在生成任務(wù)的評(píng)價(jià)上,研究團(tuán)隊(duì)同樣采用了多元化的評(píng)價(jià)策略。圖片生成使用了三個(gè)不同的自動(dòng)評(píng)價(jià)指標(biāo):PickScore注重用戶偏好的預(yù)測(cè),HPSv2關(guān)注人類偏好得分,ImageReward則專門評(píng)估文本到圖片生成的質(zhì)量。視頻生成則使用了VBench這個(gè)綜合性評(píng)價(jià)框架,它從多個(gè)維度對(duì)視頻質(zhì)量進(jìn)行全面評(píng)估。
對(duì)比基線的選擇體現(xiàn)了實(shí)驗(yàn)的嚴(yán)謹(jǐn)性。研究團(tuán)隊(duì)沒有僅僅與簡單的基線進(jìn)行比較,而是選擇了每個(gè)領(lǐng)域內(nèi)最先進(jìn)的方法作為對(duì)比對(duì)象。在圖片理解方面,他們與LLaVA-Critic這個(gè)專門的圖片理解評(píng)價(jià)模型進(jìn)行比較,還包括了Gemini-1.5-Pro和GPT-4o這樣的頂級(jí)商業(yè)模型。在視頻理解方面,對(duì)比對(duì)象包括了Houd-DPO和TPO等最新的優(yōu)化方法。
實(shí)驗(yàn)的控制變量設(shè)計(jì)特別值得關(guān)注。為了確保比較的公平性,研究團(tuán)隊(duì)在使用不同方法時(shí)保持了相同的基礎(chǔ)模型、訓(xùn)練數(shù)據(jù)來源、訓(xùn)練超參數(shù)和評(píng)價(jià)標(biāo)準(zhǔn)。這種嚴(yán)格的控制確保了性能差異確實(shí)來源于方法本身,而非其他外在因素。
消融實(shí)驗(yàn)的設(shè)計(jì)揭示了不同組件的具體貢獻(xiàn)。研究團(tuán)隊(duì)系統(tǒng)地測(cè)試了不同任務(wù)組合對(duì)最終性能的影響。他們分別訓(xùn)練了只包含單一任務(wù)、兩個(gè)任務(wù)、三個(gè)任務(wù)和全部四個(gè)任務(wù)的模型,清晰地展示了任務(wù)數(shù)量增加如何逐步提升整體性能。這種階梯式的實(shí)驗(yàn)設(shè)計(jì)讓讀者能夠直觀地理解跨任務(wù)學(xué)習(xí)的價(jià)值。
統(tǒng)計(jì)顯著性的驗(yàn)證增強(qiáng)了結(jié)果的可信度。研究團(tuán)隊(duì)不僅報(bào)告了平均性能數(shù)據(jù),還通過多次獨(dú)立實(shí)驗(yàn)驗(yàn)證了結(jié)果的穩(wěn)定性。在一些關(guān)鍵實(shí)驗(yàn)中,他們重復(fù)進(jìn)行了多次測(cè)試,確保觀察到的改進(jìn)不是偶然現(xiàn)象。
定性分析補(bǔ)充了定量結(jié)果的不足。研究團(tuán)隊(duì)展示了大量的輸出示例,讓讀者能夠直觀地看到優(yōu)化前后的差異。在圖片生成中,優(yōu)化后的模型生成了更加細(xì)致和準(zhǔn)確的圖像;在視頻生成中,動(dòng)作的流暢性和場景的一致性都有明顯改善。這些直觀的對(duì)比為數(shù)值結(jié)果提供了有力的支撐。
實(shí)驗(yàn)結(jié)果的一致性也值得注意。無論是在不同的任務(wù)類型上,還是在不同的基準(zhǔn)測(cè)試中,UnifiedReward都表現(xiàn)出了一致的優(yōu)勢(shì)。這種一致性表明方法的改進(jìn)不是針對(duì)特定場景的過度優(yōu)化,而是真正的通用性提升。
錯(cuò)誤分析和失敗案例的討論增加了研究的完整性。研究團(tuán)隊(duì)誠實(shí)地報(bào)告了方法的局限性,分析了在某些特定情況下性能改進(jìn)有限的原因。這種客觀的態(tài)度提高了研究的可信度。
實(shí)驗(yàn)規(guī)模的充分性也需要強(qiáng)調(diào)。研究團(tuán)隊(duì)使用了大規(guī)模的測(cè)試數(shù)據(jù),確保統(tǒng)計(jì)結(jié)果的可靠性。在一些關(guān)鍵測(cè)試中,樣本數(shù)量達(dá)到了數(shù)千甚至上萬,這樣的規(guī)模足以支撐得出的結(jié)論。
重現(xiàn)性考慮體現(xiàn)了負(fù)責(zé)任的研究態(tài)度。研究團(tuán)隊(duì)詳細(xì)描述了實(shí)驗(yàn)設(shè)置、超參數(shù)選擇、數(shù)據(jù)預(yù)處理方法等關(guān)鍵細(xì)節(jié),并承諾開源相關(guān)代碼和數(shù)據(jù),讓其他研究者能夠驗(yàn)證和擴(kuò)展這項(xiàng)工作。
說到底,這項(xiàng)研究在人工智能領(lǐng)域真正實(shí)現(xiàn)了一個(gè)重要突破。過去,我們需要為每種不同的視覺任務(wù)訓(xùn)練專門的評(píng)價(jià)模型,就像需要為每種運(yùn)動(dòng)項(xiàng)目配備專門的裁判?,F(xiàn)在,研究團(tuán)隊(duì)創(chuàng)造了一個(gè)"全能裁判",不僅能夠勝任各種不同的評(píng)判工作,而且通過跨領(lǐng)域的經(jīng)驗(yàn)積累,在每個(gè)單項(xiàng)上的表現(xiàn)都超過了專業(yè)的單項(xiàng)裁判。
這種統(tǒng)一建模的成功不僅僅是技術(shù)上的進(jìn)步,更代表了AI系統(tǒng)設(shè)計(jì)思路的根本轉(zhuǎn)變。從專門化走向通用化,從孤立學(xué)習(xí)走向協(xié)同學(xué)習(xí),這種轉(zhuǎn)變將為未來的AI應(yīng)用帶來更高的效率和更好的性能。
研究團(tuán)隊(duì)構(gòu)建的23.6萬條訓(xùn)練數(shù)據(jù)涵蓋了圖片生成、圖片理解、視頻生成、視頻理解四個(gè)核心領(lǐng)域,這個(gè)數(shù)據(jù)集本身就是對(duì)學(xué)術(shù)界的重要貢獻(xiàn)。更重要的是,他們提出的三階段訓(xùn)練策略——統(tǒng)一獎(jiǎng)勵(lì)模型訓(xùn)練、偏好數(shù)據(jù)構(gòu)建、模型對(duì)齊優(yōu)化——為其他研究者提供了清晰的技術(shù)路線圖。
實(shí)驗(yàn)結(jié)果的顯著性令人印象深刻。在圖片理解任務(wù)上,統(tǒng)一模型的準(zhǔn)確率比單任務(wù)模型提升了19.7個(gè)百分點(diǎn);在視頻理解上提升了35.8個(gè)百分點(diǎn)。這樣的改進(jìn)幅度在AI研究中是相當(dāng)罕見的,說明了跨任務(wù)協(xié)同學(xué)習(xí)的巨大潛力。
從實(shí)際應(yīng)用的角度來看,這項(xiàng)技術(shù)將大大降低AI系統(tǒng)開發(fā)和維護(hù)的成本。公司不再需要為每種視覺任務(wù)單獨(dú)訓(xùn)練評(píng)價(jià)模型,而是可以使用一個(gè)統(tǒng)一的系統(tǒng)來處理所有需求。這種效率提升對(duì)于AI技術(shù)的普及和商業(yè)化具有重要意義。
當(dāng)然,這項(xiàng)研究也存在一些局限性。目前的數(shù)據(jù)分布在不同任務(wù)間仍有不平衡,訓(xùn)練數(shù)據(jù)的質(zhì)量和數(shù)量還有進(jìn)一步提升的空間。研究團(tuán)隊(duì)也坦誠地指出,使用更大規(guī)模的模型(如72B參數(shù))可能會(huì)帶來更好的效果,而在線優(yōu)化方法可能比當(dāng)前的離線方法更加有效。
展望未來,這項(xiàng)研究為多模態(tài)AI系統(tǒng)的發(fā)展指明了方向。隨著數(shù)據(jù)規(guī)模的不斷擴(kuò)大和模型能力的持續(xù)提升,我們有理由相信,這種統(tǒng)一建模的思路將在更多AI任務(wù)中得到應(yīng)用,最終實(shí)現(xiàn)真正通用的人工智能系統(tǒng)。
對(duì)于普通用戶而言,這項(xiàng)技術(shù)的成果將體現(xiàn)在日常使用的AI產(chǎn)品中。未來的圖片生成工具將更好地理解用戶意圖,視頻制作軟件將產(chǎn)生更加流暢自然的內(nèi)容,而各種視覺AI應(yīng)用的整體質(zhì)量都將得到顯著提升。這正是科技進(jìn)步的真正價(jià)值所在——讓技術(shù)更好地服務(wù)于人類的創(chuàng)造性工作和日常生活。
Q&A
Q1:UnifiedReward到底是什么?它和傳統(tǒng)的AI評(píng)價(jià)方法有什么不同?A:UnifiedReward是全球首個(gè)統(tǒng)一的多模態(tài)獎(jiǎng)勵(lì)模型,就像培養(yǎng)了一位全能型評(píng)委,能夠同時(shí)評(píng)判圖片生成、視頻生成、圖片理解、視頻理解四種不同任務(wù)。傳統(tǒng)方法需要為每種任務(wù)訓(xùn)練專門的評(píng)價(jià)模型,而UnifiedReward用一個(gè)模型就能處理所有任務(wù),而且通過跨任務(wù)學(xué)習(xí),在每個(gè)單項(xiàng)上的表現(xiàn)都超過了專門的單任務(wù)模型。
Q2:這種跨任務(wù)協(xié)同學(xué)習(xí)真的有效嗎?具體提升有多大?A:非常有效。實(shí)驗(yàn)顯示,同時(shí)學(xué)習(xí)多個(gè)任務(wù)比單獨(dú)學(xué)習(xí)一個(gè)任務(wù)的效果要好得多。比如在圖片理解任務(wù)上,單任務(wù)模型準(zhǔn)確率是46.8%,而統(tǒng)一模型達(dá)到了66.5%,提升了近20個(gè)百分點(diǎn)。這就像一個(gè)既會(huì)品嘗又懂烹飪的廚師,比只會(huì)其中一樣的人更能準(zhǔn)確評(píng)價(jià)食物質(zhì)量。
Q3:普通用戶什么時(shí)候能用上這種技術(shù)?會(huì)對(duì)日常使用產(chǎn)生什么影響?A:這項(xiàng)技術(shù)主要是面向AI系統(tǒng)開發(fā)者的底層技術(shù),普通用戶不會(huì)直接使用,但會(huì)間接受益。未來使用AI生成圖片和視頻的工具時(shí),生成質(zhì)量會(huì)更高,更符合用戶期望;AI對(duì)圖片和視頻的理解也會(huì)更準(zhǔn)確。簡單說,就是各種視覺AI產(chǎn)品的整體表現(xiàn)都會(huì)變得更好。