7月27日,2025世界人工智能大會騰訊論壇上,騰訊正式發(fā)布混元3D世界模型1.0,并宣布全面開源。這是業(yè)界首個開源可沉浸漫游、可交互、可仿真的世界生成模型,為游戲開發(fā)、VR、數(shù)字內(nèi)容創(chuàng)作等領(lǐng)域帶來了全新的可能性。
除3D模型外,騰訊混元還披露了包括端側(cè)混合推理語言模型、多模態(tài)理解模型、游戲視覺模型等在內(nèi)的一系列開源計劃。
混元3D世界模型1.0:一句話創(chuàng)造可漫游的3D世界
作為此次發(fā)布的亮點(diǎn)之一,騰訊混元3D世界模型1.0融合了全景圖像合成與分層3D重建技術(shù),同時支持文字和圖片輸入,實現(xiàn)了高質(zhì)量、風(fēng)格多樣的可漫游3D場景生成。過去需要專業(yè)建模團(tuán)隊數(shù)周才能搭建的3D虛擬世界,現(xiàn)在只需一句文字或一張圖片,幾分鐘內(nèi)即可生成。
混元世界模型1.0應(yīng)用概覽(VR,游戲開發(fā),場景編輯,物理仿真等)
對游戲開發(fā)者而言,混元3D世界模型極大簡化了3D場景構(gòu)建流程,只需輸入“一座中世紀(jì)城堡,城堡塔樓宏偉壯闊,城堡周圍是一座石頭雕像,石頭鋪成的路以及美麗的花朵,卡通風(fēng)格”等簡單指令,模型即可快速生成包含建筑、地形、植被的完整3D場景。輸出的Mesh文件可用于游戲原型搭建或關(guān)卡設(shè)計,還能靈活調(diào)整前景物體、更換天空背景,滿足個性化創(chuàng)作需求。
(生成界面演示:生成3D場景資產(chǎn)可二次編輯)
(文生3D漫游場景效果展示:熾熱的巖漿形成河流,在黑色熔巖的地表上流動,蒸汽霧靄)
對于無建模經(jīng)驗的普通用戶,混元3D世界模型同樣友好易用,通過混元3D創(chuàng)作引擎,僅需一句話或者一張圖即可快速生成360°沉浸式視覺空間,生成的場景可無縫導(dǎo)入VisionPro等虛擬頭顯,帶來沉浸式體驗。
(VR應(yīng)用場景效果展示)
混元3D世界模型1.0的核心還在于其創(chuàng)新的“語意層次化3D場景表征及生成算法”。該算法將復(fù)雜3D世界解構(gòu)為不同語意層級,實現(xiàn)前景與背景、地面與天空的智能分離,不僅生成視覺效果逼真的整體場景,還能輸出標(biāo)準(zhǔn)化的3DMesh資產(chǎn),兼容Unity、UnrealEngine、Blender等主流工具。用戶可對場景內(nèi)元素進(jìn)行獨(dú)立編輯或物理仿真,無縫銜接AIGC技術(shù)與傳統(tǒng)CG工作流。
(游戲開發(fā)應(yīng)用展示)
(物理仿真應(yīng)用展示)
與全球領(lǐng)先的開源模型相比,混元3D世界模型1.0在文生世界、圖生世界的美學(xué)質(zhì)量和指令遵循能力等關(guān)鍵維度均全面超越當(dāng)前SOTA的開源模型。目前,混元3D世界模型1.0已全面開源。從秒級生成單個3D資產(chǎn),到一鍵打造可漫游的3D世界,騰訊混元正逐步構(gòu)建完善的3D內(nèi)容生成生態(tài)。
混元基座模型持續(xù)進(jìn)化,綜合能力全球領(lǐng)先
騰訊混元的模型迭代正在悄悄加速。
混元旗艦?zāi)P蚑urboS自年初發(fā)布后,保持著每月一個版本的快速迭代,在代碼、理科能力和復(fù)雜指令遵循方面都有明顯提升,在全球大模型權(quán)威排行榜上穩(wěn)居前列?;煸猅urboS創(chuàng)新采用了前沿的混合線性注意力機(jī)制與MoE模型架構(gòu),是大模型研發(fā)前沿分支的重要代表,這也是業(yè)界首個基于混合線性注意力機(jī)制落地的超大規(guī)模MoE模型。
基于TurboS基座,混元T1進(jìn)一步提升了推理能力,憑借架構(gòu)創(chuàng)新和扎實的工程能力,混元T1綜合能力國內(nèi)領(lǐng)先,在項目級代碼生成、高難度數(shù)學(xué)推理、文本寫作等方面都展現(xiàn)出不錯的效果。
端到端語音模型混元Voice、多模態(tài)理解模型混元Vision基于混元大語言模型基座打造,繼承了出色的理解、認(rèn)知和推理能力。尤其在多模態(tài)理解上,今年連續(xù)發(fā)布多款模型,在LMArenaVision全球大模型權(quán)威榜單中獲得國內(nèi)榜首,在中文能力上穩(wěn)居全球第一梯隊。
混元在多模態(tài)生成方面布局全面,具備超高速生成高清圖的實時生圖能力和人物一致性可控的視頻生成能力。3D生成能力全球領(lǐng)先,最新混元3D2.5模型質(zhì)感大幅提升,在上海人工智能實驗室6月評測中評測排名全球第一。同時,騰訊混元大模型在生產(chǎn)場景中也展現(xiàn)了巨大價值。全球首個AI設(shè)計智能體Lovart已首選調(diào)用混元3D模型的API接口,知名3D打印公司拓竹科技旗下的模型平臺MakerWorld也已接入混元3D模型。
全面擁抱開源,共建社區(qū)生態(tài)
在會上,騰訊混元進(jìn)一步明確了其全面擁抱開源的路線。
據(jù)介紹,除本次發(fā)布即開源的混元3D世界模型1.0,混元還將在月底開源一系列小尺寸模型,包含0.5B、1.8B、4B、7B混合推理模型,更輕量、好部署。在LMArenaVision榜單拿下國內(nèi)第一的多模態(tài)理解模型混元-large-vision,以及專為游戲場景優(yōu)化的交互式游戲視頻生成框架混元GameCraft等也將于近期對外開源。
前不久騰訊開源的企業(yè)級混合推理大語言模型混元-A13B,在總參數(shù)80B、激活參數(shù)僅13B的情況下,效果比肩同等架構(gòu)的領(lǐng)先開源模型,同時推理速度更快,性價比更高。該模型因其在效率和性能上的平衡,發(fā)布后在HuggingFace社區(qū)獲得了較高的關(guān)注度,開源僅3天,就拿下模型趨勢榜的第二名。
混元還開放了完整多模態(tài)生成能力及工具集插件,陸續(xù)開源了業(yè)界領(lǐng)先的文生圖、視頻生成和3D生成能力,提供接近商業(yè)模型性能的開源基座,方便社區(qū)基于業(yè)務(wù)和使用場景定制,圖像、視頻衍生模型數(shù)量分別達(dá)到1400和1600個,混元3D系列模型社區(qū)下載量超過230萬,已成為全球最受歡迎的3D開源模型。
騰訊混元3D世界模型1.0:
lGithub項目地址:https://github.com/Tencent-Hunyuan/HunyuanWorld-1.0
l項目主頁:https://3d-models.hunyuan.tencent.com/world/
l體驗地址:https://3d.hunyuan.tencent.com/sceneTo3D
lHuggingFace模型地址:https://huggingface.co/tencent/HunyuanWorld-1