9月2日,混元3D世界模型系列最新成員——HunyuanWorld-Voyager(簡(jiǎn)稱混元Voyager)正式發(fā)布,這也是業(yè)界首個(gè)支持原生3D重建的超長(zhǎng)漫游世界模型。
該模型聚焦于AI在空間智能領(lǐng)域的應(yīng)用擴(kuò)展,將為虛擬現(xiàn)實(shí)、物理仿真、游戲開發(fā)等領(lǐng)域提供高保真的3D場(chǎng)景漫游能力。
混元Voyager突破了傳統(tǒng)視頻生成在空間一致性和探索范圍上的局限,能夠生成長(zhǎng)距離、世界一致的漫游場(chǎng)景,支持將視頻直接導(dǎo)出為3D格式。
混元Voyager 3D輸入-3D輸出的特性,與此前已開源的混元世界模型1.0高度適配,可進(jìn)一步擴(kuò)展1.0模型漫游范圍,提升復(fù)雜場(chǎng)景的生成質(zhì)量,并可對(duì)生成的場(chǎng)景做風(fēng)格化控制和編輯。
不僅如此,混元Voyager還可支持視頻場(chǎng)景重建、3D物體紋理生成、視頻風(fēng)格定制化生成、視頻深度估計(jì)等多種3D理解與生成應(yīng)用,展現(xiàn)出空間智能的潛力。
當(dāng)前,可交互的視頻模型已經(jīng)展現(xiàn)出在世界模型生成上的潛力。然而,實(shí)際應(yīng)用中(如虛擬現(xiàn)實(shí)、物理仿真等)通常需要能夠建模的顯式3D場(chǎng)景,純視頻的生成內(nèi)容很難為用戶提供更加真實(shí)的交互形式。
另一方面,直接生成3D形式的世界場(chǎng)景,雖具備更好的空間結(jié)構(gòu)的一致性和交互應(yīng)用的拓展性,卻受限于3D訓(xùn)練數(shù)據(jù)稀缺與3D表征內(nèi)存效率低下等問題,無法泛化到更多的類別和更大場(chǎng)景中。
混元Voyager框架創(chuàng)新性地將場(chǎng)景深度預(yù)測(cè)引入視頻生成過程,融合了視頻生成與3D建模優(yōu)勢(shì),基于相機(jī)可控的視頻生成技術(shù),從初始場(chǎng)景視圖和用戶指定相機(jī)軌跡中,合成可自由控制視角、空間連貫的RGB-D視頻(包含RGB圖像和深度信息的點(diǎn)云視頻)。
用戶可通過鍵盤或者搖桿控制生成對(duì)應(yīng)的視頻畫面,并通過3D空間記憶保持畫面的高度一致性,實(shí)現(xiàn)與可交互視頻模型如Genie3等相同的功能。同時(shí),Voyager還支持將生成視頻無損導(dǎo)出3D點(diǎn)云,無需依賴COLMAP等額外重建工具。
混元Voyager首次通過空間與特征結(jié)合的方式,支持原生的3D記憶和場(chǎng)景重建,避免了傳統(tǒng)后處理帶來的延遲和精度損失。同時(shí),在輸入端加入3D條件保證畫面視角精準(zhǔn),輸出端直接生成3D點(diǎn)云,適配多種應(yīng)用場(chǎng)景。額外的深度信息還能支持視頻場(chǎng)景重建、3D物體紋理生成、風(fēng)格化編輯和深度估計(jì)等功能。
Voyager還引入了可擴(kuò)展的世界緩存機(jī)制,基于1.0模型生成的初始3D點(diǎn)云緩存,將其投影到目標(biāo)相機(jī)視圖,為擴(kuò)散模型提供指導(dǎo)。此外,生成的視頻幀還會(huì)實(shí)時(shí)更新緩存,形成閉環(huán)系統(tǒng),支持任意相機(jī)軌跡,同時(shí)維持幾何一致性。這不僅擴(kuò)展了漫游范圍,還為1.0模型補(bǔ)充新視角內(nèi)容,提升整體生成質(zhì)量。
該模型在斯坦福大學(xué)李飛飛團(tuán)隊(duì)發(fā)布的世界模型基準(zhǔn)測(cè)試WorldScore上位居綜合能力首位,超越現(xiàn)有開源方法,在視頻生成和3D重建任務(wù)中均表現(xiàn)出色。在視頻生成和視頻3D重建兩個(gè)任務(wù)上,Voyager也均取得更好的結(jié)果。
騰訊混元世界模型系列開源正不斷加速。7月,混元3D世界模型1.0發(fā)布并開源,成為業(yè)界首個(gè)兼容傳統(tǒng)CG管線的可漫游世界生成模型。8月,推出1.0 Lite版,降低顯存需求,支持消費(fèi)級(jí)顯卡部署。僅兩周后,針對(duì)遮擋視圖和探索范圍限制,混元團(tuán)隊(duì)進(jìn)一步優(yōu)化,推出超長(zhǎng)漫游世界模型Voyager。
此前,混元已陸續(xù)開源業(yè)界領(lǐng)先的文生圖、視頻生成和3D生成能力,提供接近商業(yè)模型性能的開源模型,混元3D系列開源模型下載量位居開源社區(qū)榜首。
在基礎(chǔ)模型方面,混元開源了MoE架構(gòu)的代表性模型混元large、混合推理模型Hunyuan-A13B,以及多個(gè)面向端側(cè)場(chǎng)景的小尺寸模型,最小僅0.5B參數(shù)。最新開源的翻譯模型Hunyuan-MT-7B,在國(guó)際翻譯比賽中斬獲31個(gè)語種中的30項(xiàng)冠軍。
{{item.content}}