AI風(fēng)暴席卷全球的第三個(gè)年頭,開源大模型始終是行業(yè)重點(diǎn)攻堅(jiān)目標(biāo)。截止目前,GUI開源大模型已經(jīng)走過概念驗(yàn)證階段,逐步向場(chǎng)景調(diào)優(yōu)、端側(cè)部署等生態(tài)維度延伸,不僅要拼參數(shù)、拼執(zhí)行力,也要拼場(chǎng)景落地能力,各家大廠的技術(shù)競(jìng)賽已然進(jìn)入決勝階段。
在此階段,開源與合作是一個(gè)繞不開的焦點(diǎn),7月26日在上海揭幕的世界人工智能大會(huì)(WAIC)上,這也是行業(yè)貫穿始終的核心議題。
在此次WAIC人工智能標(biāo)準(zhǔn)化國(guó)際合作論壇上,榮耀作為首批單位,攜手阿里、百度等百余家行業(yè)領(lǐng)軍企業(yè)共同發(fā)布《智能體協(xié)議共建共享聯(lián)合倡議》,進(jìn)一步推動(dòng)行業(yè)標(biāo)準(zhǔn)化發(fā)展和國(guó)際合作。同時(shí),榮耀還帶來(lái)了全新驚喜:MagicGUI大模型正式發(fā)布并開源。
事實(shí)上,國(guó)內(nèi)的大模型開源早已從星星之火演變成燎原之勢(shì),前有DeepSeek-V3、DeepSeek-R1以千億參數(shù)構(gòu)筑智能基座,后有阿里、字節(jié)、榮耀等科技巨頭紛紛加碼。對(duì)比之下,硅谷眾大廠似乎正“逆流”而行,Meta的Llama、谷歌的Gemma等雖然也開放了部分使用和修改權(quán)限,但并未公開訓(xùn)練數(shù)據(jù)集、仍在限制開發(fā)選項(xiàng),很難稱得上真正的開源。
大模型的競(jìng)爭(zhēng)來(lái)到這個(gè)階段,開源的重要意義正在凸顯:不僅事關(guān)技術(shù)平權(quán)和產(chǎn)業(yè)創(chuàng)新,更是構(gòu)建AI商業(yè)生態(tài),加速技術(shù)擴(kuò)散以換取長(zhǎng)期價(jià)值的關(guān)鍵。要抹平中外發(fā)展時(shí)間差、在產(chǎn)業(yè)落地階段搶得先機(jī),就要合全行業(yè)開發(fā)者之力,通過數(shù)以億計(jì)的微調(diào)催生“鏈?zhǔn)椒磻?yīng)”,打破外國(guó)巨頭的“算力霸權(quán)”——開源是必然選擇。
在此背景下,榮耀MagicGUI面向全球軟硬件開發(fā)者正式開源。這不僅是榮耀的首個(gè)開源GUI大模型,也是其“阿爾法戰(zhàn)略”的重要里程碑:高達(dá)70億的參數(shù)規(guī)模,基于榮耀MagicV5常用場(chǎng)景用機(jī)操控準(zhǔn)確率達(dá)到91.5%,較業(yè)內(nèi)同類頂級(jí)開源模型高出16.4%,性能足以比肩SOTA。(SOTA是"StateoftheArt"的縮寫,中文可譯為“最先進(jìn)的”,常用于描述某一領(lǐng)域當(dāng)前技術(shù)或模型的最高水平。例如,在人工智能領(lǐng)域,SOTA模型指在特定任務(wù)中性能最優(yōu)的模型,如數(shù)學(xué)證明、自然語(yǔ)言處理等方向。)
詳細(xì)拆解之下,MagicGUI在GUI數(shù)據(jù)采集框架、知識(shí)數(shù)據(jù)構(gòu)建方法、動(dòng)作空間定義等維度都有一系列開創(chuàng)性成果,比如構(gòu)建了全新的數(shù)據(jù)采集與構(gòu)建框架,優(yōu)化了數(shù)據(jù)配比與篩選方案,在此基礎(chǔ)上構(gòu)建了多樣且高質(zhì)量的數(shù)據(jù)集。但其最具突破性的能力,在于對(duì)兩大訓(xùn)練階段——繼續(xù)預(yù)訓(xùn)練和強(qiáng)化微調(diào)的迭代創(chuàng)新。
首先,在繼續(xù)預(yù)訓(xùn)練階段,MagicGUI重點(diǎn)改進(jìn)數(shù)據(jù)處理、合成數(shù)據(jù)等環(huán)節(jié),目的是夯實(shí)基礎(chǔ)能力,全方位提升大模型在推理、規(guī)劃、動(dòng)作執(zhí)行上的綜合表現(xiàn)。
比如在數(shù)據(jù)處理環(huán)節(jié)中,MagicGUI通過過濾相似、重復(fù)數(shù)據(jù),搭配啟發(fā)式規(guī)則和開源模型評(píng)估,多重篩選、攔截掉低質(zhì)數(shù)據(jù)。合成數(shù)據(jù)環(huán)節(jié)同樣以提高數(shù)據(jù)質(zhì)量為目的,一邊結(jié)合UI元素類別、空間位置、形狀等維度合成更全面的UI描述數(shù)據(jù)集,一邊優(yōu)化開源模型,批量合成多難度層次指令數(shù)據(jù)。
其次,強(qiáng)化微調(diào)訓(xùn)練階段,MagicGUI采用了極具創(chuàng)新性的采樣策略——GRPO雙重過濾方案。
所謂雙重過濾,即靜態(tài)過濾與動(dòng)態(tài)過濾的結(jié)合:一方面,通過靜態(tài)過濾剔除生成響應(yīng)中始終給出完全正確/錯(cuò)誤預(yù)測(cè)的樣本,專注于更有挑戰(zhàn)性和信息量的樣本;另一方面則借助動(dòng)態(tài)過濾模式,不對(duì)全部正確/錯(cuò)誤的結(jié)果進(jìn)行訓(xùn)練,保證強(qiáng)化微調(diào)效果。
技術(shù)上的突破有沒有價(jià)值,不能光靠參數(shù)說(shuō)話,落地到應(yīng)用側(cè)的效果也是重要檢驗(yàn)標(biāo)準(zhǔn)??上驳氖牵覀円呀?jīng)能看到榮耀MagicGUI借助關(guān)鍵能力突破,落地應(yīng)用榮耀MagicV5等一系列成果,以及對(duì)用戶實(shí)際生活的幫助。
比如通過一語(yǔ)多平臺(tái)打車功能,用戶只需一句話就能在高德、滴滴等主流APP自動(dòng)完成叫車,此外還可以輕松完成打開APP、修改地址、選擇車型等細(xì)致的指令。而在這背后,想必少不了MagicGUI單步操作等關(guān)鍵能力的進(jìn)步。
不積跬步無(wú)以至千里,GUI大模型的研發(fā)與創(chuàng)新從來(lái)不是一蹴而就的,更像是一場(chǎng)比拼耐力的馬拉松。在MagicGUI的發(fā)布,承載著榮耀長(zhǎng)期、大力度、毫不保留的資源與人才投入。
當(dāng)然,展望未來(lái),相信中國(guó)科技企業(yè)也不會(huì)停下繼續(xù)探索的步伐。目前GUI開源大模型仍有不少困擾整個(gè)行業(yè)的難題有待解決,如OOD泛化、安全與隱私保護(hù)等。
這些難題既是各大科技巨頭的挑戰(zhàn),也是機(jī)會(huì)。誰(shuí)能搶先一步取得下一階段的突破性進(jìn)展,誰(shuí)就更有機(jī)會(huì)搶到技術(shù)話語(yǔ)權(quán)——而到最終,技術(shù)層面上的創(chuàng)新還是會(huì)落地產(chǎn)業(yè)、應(yīng)用,給開發(fā)者、用戶帶去實(shí)打?qū)嵉谋憷c體驗(yàn)優(yōu)化。
小說(shuō):回到古代成為小媳婦,意外收獲寵愛與逆襲!
小說(shuō):明末亂世將傾,少年目睹蒼生慘狀,誓要從零造反稱王!
小說(shuō):穿越大明成廢柴,卻靠科技泡妞稱雄,妹子搶著愛!