罕允
7月27日,2025世界人工智能大會(huì)騰訊論壇上,騰訊正式發(fā)布混元3D世界模型1.0,并宣布全面開源。這是業(yè)界首個(gè)開源可沉浸漫游、可交互、可仿真的世界生成模型,為游戲開發(fā)、VR、數(shù)字內(nèi)容創(chuàng)作等領(lǐng)域帶來(lái)了全新的可能性。
除3D模型外,騰訊混元還披露了包括端側(cè)混合推理語(yǔ)言模型、多模態(tài)理解模型、游戲視覺(jué)模型等在內(nèi)的一系列開源計(jì)劃。
混元3D世界模型1.0:一句話創(chuàng)造可漫游的3D世界
作為此次發(fā)布的亮點(diǎn)之一,騰訊混元3D世界模型1.0融合了全景圖像合成與分層3D重建技術(shù),同時(shí)支持文字和圖片輸入,實(shí)現(xiàn)了高質(zhì)量、風(fēng)格多樣的可漫游3D場(chǎng)景生成。過(guò)去需要專業(yè)建模團(tuán)隊(duì)數(shù)周才能搭建的3D虛擬世界,現(xiàn)在只需一句文字或一張圖片,幾分鐘內(nèi)即可生成。
混元世界模型1.0應(yīng)用概覽(VR,游戲開發(fā),場(chǎng)景編輯,物理仿真等)
對(duì)游戲開發(fā)者而言,混元3D世界模型極大簡(jiǎn)化了3D場(chǎng)景構(gòu)建流程,只需輸入“一座中世紀(jì)城堡,城堡塔樓宏偉壯闊,城堡周圍是一座石頭雕像,石頭鋪成的路以及美麗的花朵,卡通風(fēng)格”等簡(jiǎn)單指令,模型即可快速生成包含建筑、地形、植被的完整3D場(chǎng)景。輸出的Mesh文件可用于游戲原型搭建或關(guān)卡設(shè)計(jì),還能靈活調(diào)整前景物體、更換天空背景,滿足個(gè)性化創(chuàng)作需求。
(生成界面演示:生成3D場(chǎng)景資產(chǎn)可二次編輯)
(文生3D漫游場(chǎng)景效果展示:熾熱的巖漿形成河流,在黑色熔巖的地表上流動(dòng),蒸汽霧靄)
對(duì)于無(wú)建模經(jīng)驗(yàn)的普通用戶,混元3D世界模型同樣友好易用,通過(guò)混元3D創(chuàng)作引擎,僅需一句話或者一張圖即可快速生成360°沉浸式視覺(jué)空間,生成的場(chǎng)景可無(wú)縫導(dǎo)入VisionPro等虛擬頭顯,帶來(lái)沉浸式體驗(yàn)。
(VR應(yīng)用場(chǎng)景效果展示)
混元3D世界模型1.0的核心還在于其創(chuàng)新的“語(yǔ)意層次化3D場(chǎng)景表征及生成算法”。該算法將復(fù)雜3D世界解構(gòu)為不同語(yǔ)意層級(jí),實(shí)現(xiàn)前景與背景、地面與天空的智能分離,不僅生成視覺(jué)效果逼真的整體場(chǎng)景,還能輸出標(biāo)準(zhǔn)化的3DMesh資產(chǎn),兼容Unity、UnrealEngine、Blender等主流工具。用戶可對(duì)場(chǎng)景內(nèi)元素進(jìn)行獨(dú)立編輯或物理仿真,無(wú)縫銜接AIGC技術(shù)與傳統(tǒng)CG工作流。
(游戲開發(fā)應(yīng)用展示)
(物理仿真應(yīng)用展示)
與全球領(lǐng)先的開源模型相比,混元3D世界模型1.0在文生世界、圖生世界的美學(xué)質(zhì)量和指令遵循能力等關(guān)鍵維度均全面超越當(dāng)前SOTA的開源模型。目前,混元3D世界模型1.0已全面開源。從秒級(jí)生成單個(gè)3D資產(chǎn),到一鍵打造可漫游的3D世界,騰訊混元正逐步構(gòu)建完善的3D內(nèi)容生成生態(tài)。
混元基座模型持續(xù)進(jìn)化,綜合能力全球領(lǐng)先
騰訊混元的模型迭代正在悄悄加速。
混元旗艦?zāi)P蚑urboS自年初發(fā)布后,保持著每月一個(gè)版本的快速迭代,在代碼、理科能力和復(fù)雜指令遵循方面都有明顯提升,在全球大模型權(quán)威排行榜上穩(wěn)居前列。混元TurboS創(chuàng)新采用了前沿的混合線性注意力機(jī)制與MoE模型架構(gòu),是大模型研發(fā)前沿分支的重要代表,這也是業(yè)界首個(gè)基于混合線性注意力機(jī)制落地的超大規(guī)模MoE模型。
基于TurboS基座,混元T1進(jìn)一步提升了推理能力,憑借架構(gòu)創(chuàng)新和扎實(shí)的工程能力,混元T1綜合能力國(guó)內(nèi)領(lǐng)先,在項(xiàng)目級(jí)代碼生成、高難度數(shù)學(xué)推理、文本寫作等方面都展現(xiàn)出不錯(cuò)的效果。
端到端語(yǔ)音模型混元Voice、多模態(tài)理解模型混元Vision基于混元大語(yǔ)言模型基座打造,繼承了出色的理解、認(rèn)知和推理能力。尤其在多模態(tài)理解上,今年連續(xù)發(fā)布多款模型,在LMArenaVision全球大模型權(quán)威榜單中獲得國(guó)內(nèi)榜首,在中文能力上穩(wěn)居全球第一梯隊(duì)。
混元在多模態(tài)生成方面布局全面,具備超高速生成高清圖的實(shí)時(shí)生圖能力和人物一致性可控的視頻生成能力。3D生成能力全球領(lǐng)先,最新混元3D2.5模型質(zhì)感大幅提升,在上海人工智能實(shí)驗(yàn)室6月評(píng)測(cè)中評(píng)測(cè)排名全球第一。同時(shí),騰訊混元大模型在生產(chǎn)場(chǎng)景中也展現(xiàn)了巨大價(jià)值。全球首個(gè)AI設(shè)計(jì)智能體Lovart已首選調(diào)用混元3D模型的API接口,知名3D打印公司拓竹科技旗下的模型平臺(tái)MakerWorld也已接入混元3D模型。
全面擁抱開源,共建社區(qū)生態(tài)
在會(huì)上,騰訊混元進(jìn)一步明確了其全面擁抱開源的路線。
據(jù)介紹,除本次發(fā)布即開源的混元3D世界模型1.0,混元還將在月底開源一系列小尺寸模型,包含0.5B、1.8B、4B、7B混合推理模型,更輕量、好部署。在LMArenaVision榜單拿下國(guó)內(nèi)第一的多模態(tài)理解模型混元-large-vision,以及專為游戲場(chǎng)景優(yōu)化的交互式游戲視頻生成框架混元GameCraft等也將于近期對(duì)外開源。
前不久騰訊開源的企業(yè)級(jí)混合推理大語(yǔ)言模型混元-A13B,在總參數(shù)80B、激活參數(shù)僅13B的情況下,效果比肩同等架構(gòu)的領(lǐng)先開源模型,同時(shí)推理速度更快,性價(jià)比更高。該模型因其在效率和性能上的平衡,發(fā)布后在HuggingFace社區(qū)獲得了較高的關(guān)注度,開源僅3天,就拿下模型趨勢(shì)榜的第二名。
混元還開放了完整多模態(tài)生成能力及工具集插件,陸續(xù)開源了業(yè)界領(lǐng)先的文生圖、視頻生成和3D生成能力,提供接近商業(yè)模型性能的開源基座,方便社區(qū)基于業(yè)務(wù)和使用場(chǎng)景定制,圖像、視頻衍生模型數(shù)量分別達(dá)到1400和1600個(gè),混元3D系列模型社區(qū)下載量超過(guò)230萬(wàn),已成為全球最受歡迎的3D開源模型。
騰訊混元3D世界模型1.0:
lGithub項(xiàng)目地址:https://github.com/Tencent-Hunyuan/HunyuanWorld-1.0
l項(xiàng)目主頁(yè):https://3d-models.hunyuan.tencent.com/world/
l體驗(yàn)地址:https://3d.hunyuan.tencent.com/sceneTo3D
lHuggingFace模型地址:https://huggingface.co/tencent/HunyuanWorld-1
來(lái)源:紅網(wǎng)
作者:桑飛槐
編輯:淦心語(yǔ)
本文為紅辣椒評(píng)論 原創(chuàng)文章,僅系作者個(gè)人觀點(diǎn),不代表紅網(wǎng)立場(chǎng)。轉(zhuǎn)載請(qǐng)附原文出處鏈接和本聲明。