国产成人福利在线视频播放下载,成人无码www免费视频在线看,放荡的美妇在线播放,大地资源网最新更新,国产成人精品日本亚洲网站

泡泡網(wǎng)新聞頻道 PCPOP首頁(yè)      /      新聞?lì)l道     /      動(dòng)態(tài)    /    正文

昆侖萬(wàn)維正式開(kāi)源Matrix-Game:從圖像出發(fā)構(gòu)建可控交互世界,重塑交互式世界生成標(biāo)桿

  5月13日,昆侖萬(wàn)維正式開(kāi)源(17B+)Matrix-Game大模型,即Matrix-Zero世界模型中的可交互視頻生成大模型。Matrix-Game是Matrix系列在交互式世界生成方向的正式落地,也是工業(yè)界首個(gè)開(kāi)源的10B+空間智能大模型,它是一個(gè)面向游戲世界建模的交互式世界基礎(chǔ)模型,專為開(kāi)放式環(huán)境中的高質(zhì)量生成與精確控制而設(shè)計(jì)。

  空間智能作為AI時(shí)代的重要前沿技術(shù),正在重塑我們與虛擬世界的交互方式。通過(guò)融合視頻生成、三維建模與交互控制等核心技術(shù),空間智能不僅支持更加自然、直觀、沉浸的體驗(yàn),也在具身智能、影視制作、游戲開(kāi)發(fā)等領(lǐng)域展現(xiàn)出巨大潛力。

  昆侖萬(wàn)維長(zhǎng)期關(guān)注空間智能的新進(jìn)展,經(jīng)過(guò)不懈的技術(shù)研發(fā),今天正式開(kāi)源Matrix-Game,不僅刷新了交互式世界生成的技術(shù)上限,也為構(gòu)建通用虛擬世界基座樹(shù)立了全新標(biāo)桿。

  Matrix-Game聚焦于視頻生成與用戶交互的深度融合,讓用戶可以通過(guò)簡(jiǎn)單直觀的指令,自由探索、操控、甚至創(chuàng)造出細(xì)節(jié)豐富、物理規(guī)則合理的虛擬世界。

  Matrix-Game由以下三大核心部分構(gòu)成:

  1. Matrix-Game-MC數(shù)據(jù)集:自主構(gòu)建的大規(guī)模交互世界數(shù)據(jù)集,包含兩類數(shù)據(jù):一是大規(guī)模無(wú)標(biāo)簽的Minecraft游戲視頻,二是帶有鍵盤與鼠標(biāo)控制信號(hào)的 Minecraft 與 Unreal 可控視頻數(shù)據(jù),具備精細(xì)的動(dòng)作注釋。該數(shù)據(jù)集支持對(duì)復(fù)雜環(huán)境動(dòng)態(tài)與交互模式的高效建模與學(xué)習(xí)。

  2. Matrix-Game主模型:基于先進(jìn)擴(kuò)散模型技術(shù)開(kāi)發(fā)的圖像到世界生成框架,能夠根據(jù)用戶輸入(鍵盤指令、鼠標(biāo)移動(dòng)等)生成連貫、可控的互動(dòng)視頻,兼顧視覺(jué)質(zhì)量、時(shí)序一致性與物理合理性。

  3. GameWorld Score評(píng)測(cè)體系:提出統(tǒng)一的游戲交互世界評(píng)估標(biāo)準(zhǔn),從視頻的視覺(jué)質(zhì)量、時(shí)序質(zhì)量、動(dòng)作可控性與物理規(guī)則理解四個(gè)維度,全面量化模型性能,填補(bǔ)了該領(lǐng)域缺乏系統(tǒng)性評(píng)測(cè)基準(zhǔn)的空白。

  通過(guò)兩階段訓(xùn)練策略(無(wú)標(biāo)簽數(shù)據(jù)預(yù)訓(xùn)練 + 標(biāo)注數(shù)據(jù)可控訓(xùn)練),參數(shù)規(guī)模達(dá) 17B 的 Matrix-Game 世界基座模型在空間理解、用戶指令響應(yīng)以及物理交互建模等方面取得了顯著提升。具備以下模型優(yōu)勢(shì):

  細(xì)粒度用戶交互控制:支持前進(jìn)、跳躍、攻擊、視角移動(dòng)等細(xì)節(jié)操作,根據(jù)用戶輸入響應(yīng),操作體驗(yàn)準(zhǔn)確自然。

  高保真視覺(jué)與物理一致性:生成結(jié)果在保持視覺(jué)連貫的同時(shí),遵循自然物理規(guī)律,如重力、碰撞等,顯著提升沉浸感。

  多場(chǎng)景泛化能力:具備對(duì)多種 Minecraft 游戲場(chǎng)景的泛化能力,涵蓋不同地形、天氣和生物群系,并具備向非 Minecraft 游戲環(huán)境泛化的潛力。

  系統(tǒng)化評(píng)估體系:提出統(tǒng)一的 GameWorld Score 標(biāo)準(zhǔn),為交互世界模型的客觀評(píng)估與持續(xù)優(yōu)化提供有力支撐。

  與知名創(chuàng)業(yè)公司 Decart 開(kāi)源方案 Oasis 和微軟開(kāi)源模型 MineWorld 對(duì)比,Matrix-Game 在 Minecraft 世界生成任務(wù)的各項(xiàng)指標(biāo)上實(shí)現(xiàn)了全面超越,尤其在交互可控性和物理一致性理解方面表現(xiàn)尤為出色。此外,得益于 Unreal 數(shù)據(jù)的融入,Matrix-Game 在泛化到更廣泛的通用游戲場(chǎng)景方面展現(xiàn)出明顯優(yōu)勢(shì)。

  來(lái)源:Matrix-Game技術(shù)報(bào)告

  Matrix-Game能夠在不同Minecraft場(chǎng)景下(如森林、沙灘、沙漠、冰川、河流、平原等)實(shí)現(xiàn)可控生成,包括基礎(chǔ)運(yùn)動(dòng)、復(fù)合運(yùn)動(dòng)、視角運(yùn)動(dòng)等。例如,在一個(gè)沙漠場(chǎng)景中,Matrix-Game 能夠根據(jù)用戶輸入的任意控制指令(如鍵盤的 W/A/S/D 方向鍵、Space 鍵用于跳躍、Attack 鍵用于攻擊,以及鼠標(biāo)用于視角移動(dòng)),生成對(duì)應(yīng)的游戲世界視頻,支持角色的前后左右移動(dòng)、跳躍、攻擊以及視角變換等動(dòng)態(tài)行為。

  在此基礎(chǔ)上,Matrix-Game 支持自回歸式的長(zhǎng)視頻生成,不僅能實(shí)現(xiàn)動(dòng)作與視角之間的絲滑銜接,還在時(shí)間一致性與環(huán)境適應(yīng)性方面表現(xiàn)出色,為開(kāi)發(fā)沉浸式長(zhǎng)時(shí)體驗(yàn)、創(chuàng)意內(nèi)容生成及游戲設(shè)計(jì)等應(yīng)用奠定了堅(jiān)實(shí)的模型基礎(chǔ)。

  不僅如此,在非Minecraft場(chǎng)景泛化上,Matrix-Game表現(xiàn)得也非常出色。

  接下來(lái),我們來(lái)看看Matrix-Game是如何達(dá)到這樣的效果的。

  01

  數(shù)據(jù)構(gòu)建:大規(guī)模高質(zhì)量Matrix-Game-MC數(shù)據(jù)集

  為構(gòu)建能夠理解物理規(guī)則并具備交互生成能力的世界基礎(chǔ)模型,Matrix-Game 自主構(gòu)建了大規(guī)模 Matrix-Game-MC 數(shù)據(jù)集,涵蓋從無(wú)標(biāo)簽預(yù)訓(xùn)練數(shù)據(jù)到精細(xì)標(biāo)注的可控視頻的完整流程,兼顧數(shù)據(jù)規(guī)模與質(zhì)量。

  無(wú)標(biāo)簽預(yù)訓(xùn)練數(shù)據(jù)集采用三階段過(guò)濾機(jī)制從6000小時(shí)的MineDojo數(shù)據(jù)中過(guò)濾出近千小時(shí)高質(zhì)量數(shù)據(jù): (1) 畫質(zhì)與美學(xué)過(guò)濾;(2) 非游戲內(nèi)容剔除;(3) 動(dòng)態(tài)與視角穩(wěn)定性過(guò)濾。

  有標(biāo)簽數(shù)據(jù)采用兩種策略混合生成數(shù)千小時(shí)的可控監(jiān)督數(shù)據(jù):

  探索代理(Exploration Agent):借助 VPT agent 在 MineRL 環(huán)境中進(jìn)行自動(dòng)探索,生成大規(guī)模、高質(zhì)量的 Minecraft 視頻數(shù)據(jù),數(shù)據(jù)中包含精確的鍵盤與鼠標(biāo)控制信號(hào),支持可控性學(xué)習(xí)。

  程序化模擬(Unreal Procedural Simulation):基于 Unreal Engine 手動(dòng)構(gòu)建結(jié)構(gòu)清晰、標(biāo)簽精確的模擬交互場(chǎng)景,提供位置信息、動(dòng)作標(biāo)簽(離散與連續(xù))、以及環(huán)境反饋信號(hào)(如方塊是否成功破壞),生成高精度、無(wú)噪聲的可控標(biāo)注數(shù)據(jù),助力高保真動(dòng)作-響應(yīng)建模。

  02

  模型架構(gòu):Matrix-Game從圖像出發(fā)構(gòu)建可控交互世界

  Matrix-Game是以圖像為輸入的交互式世界生成基礎(chǔ)模型,整體架構(gòu)圍繞以下幾個(gè)核心設(shè)計(jì):

  圖像到世界建模(Image-to-World Modeling)

  強(qiáng)調(diào)空間智能能力:不依賴語(yǔ)言提示,僅基于視覺(jué)信號(hào)建模空間幾何、物體運(yùn)動(dòng)及其物理交互;

  輸入形式:以單張參考圖像作為生成交互式視頻的起點(diǎn);

  交互可控生成:融合用戶動(dòng)作輸入(如鍵盤、鼠標(biāo)),通過(guò)類似 Flux 與 HunyuanVideo 的多模態(tài)擴(kuò)散模型直接生成虛擬游戲世界的視頻內(nèi)容。

  自回歸式視頻生成(Autoregressive Diffusion Generation)

  支持自回歸方式擴(kuò)展生成長(zhǎng)度,可持續(xù)生成高一致性長(zhǎng)視頻內(nèi)容;

  每次以前一視頻片段的最后 k=5幀作為運(yùn)動(dòng)上下文,逐段遞進(jìn)生成,確保時(shí)間上的連貫性;

  為緩解時(shí)序漂移和誤差累積,訓(xùn)練中以一定概率針對(duì)參考圖像與運(yùn)動(dòng)上下文引入隨機(jī)擾動(dòng)、隨機(jī)刪除,以及Classifier-free guidance策略。

  可控交互設(shè)計(jì)(Injecting Actions for Controllability)

  鍵盤動(dòng)作(如上下左右、跳躍、攻擊)以離散token表達(dá),視角移動(dòng)動(dòng)作(如鼠標(biāo)pitch角度)則以連續(xù)token表達(dá);

  采用GameFactory的控制模塊,并融入多模態(tài)Diffusion Transformer架構(gòu);

  使用 Classifier-free guidance策略提升對(duì)控制信號(hào)的魯棒響應(yīng)能力。

  03

  評(píng)測(cè)體系與模型性能:提出統(tǒng)一基準(zhǔn) GameWorld Score,重塑交互式世界生成標(biāo)桿

  為了系統(tǒng)性評(píng)估和比較交互式世界生成模型的性能,Matrix-Game提出了一套專為 Minecraft 世界建模設(shè)計(jì)的統(tǒng)一評(píng)測(cè)框架 —— GameWorld Score。該評(píng)測(cè)體系彌補(bǔ)了現(xiàn)有基準(zhǔn)在交互性、物理一致性等維度的缺失,首次實(shí)現(xiàn)了對(duì)感知質(zhì)量 + 控制能力 + 物理合理性的全方位衡量。

  GameWorld Score 包含四大核心評(píng)估維度:

  視覺(jué)質(zhì)量(Visual Quality):評(píng)估每一幀圖像的清晰度、結(jié)構(gòu)一致性與真實(shí)感。依據(jù)人類視覺(jué)系統(tǒng)(HVS)標(biāo)準(zhǔn)衡量每一幀圖像生成效果。

  時(shí)序質(zhì)量(Temporal Quality):衡量模型生成視頻的動(dòng)態(tài)連貫性,包括運(yùn)動(dòng)連續(xù)性、節(jié)奏平滑性與時(shí)間穩(wěn)定性。

  交互可控性(Action Controllability):評(píng)估生成結(jié)果是否準(zhǔn)確響應(yīng)用戶輸入的控制信號(hào),涵蓋離散控制(如前進(jìn)、跳躍)和連續(xù)控制(如視角轉(zhuǎn)換)。

  物理規(guī)則理解(Physical Rule Understanding):測(cè)試生成視頻是否遵循物理常識(shí)與空間一致性。

  在GameWorld Score評(píng)測(cè)系統(tǒng)中,Matrix-Game在視覺(jué)質(zhì)量、時(shí)間一致性、動(dòng)作可控性與物理規(guī)則理解四大維度上均取得領(lǐng)先成績(jī),全面超越現(xiàn)有開(kāi)源基線模型 Oasis 與 MineWorld。

  在雙盲人評(píng)實(shí)驗(yàn)中,用戶更傾向于選擇 Matrix-Game生成的視頻:

  96.3% 總體偏好率,生成效果更真實(shí)、連貫、可信;

  93.76% 動(dòng)作控制偏好,準(zhǔn)確響應(yīng)鍵盤與鼠標(biāo)指令;

  98.23% 視覺(jué)質(zhì)量得分,單幀畫面更清晰美觀;

  89.56% 時(shí)間一致性得分,動(dòng)態(tài)流暢,無(wú)閃爍跳變。

  在控制性能上,Matrix-Game可實(shí)現(xiàn):“運(yùn)動(dòng)”“攻擊”等動(dòng)作高達(dá) 90%+ 準(zhǔn)確率;細(xì)粒度視角控制下依然保持高精度響應(yīng)。

  在 8 大典型 Minecraft 場(chǎng)景中全面領(lǐng)先,展現(xiàn)出卓越的環(huán)境適應(yīng)性與泛化能力,可廣泛應(yīng)用于復(fù)雜動(dòng)態(tài)的虛擬世界交互任務(wù)。

  Matrix-Game用事實(shí)證明,它不僅能“看得清”,更能“動(dòng)得準(zhǔn)、控得穩(wěn)”,是當(dāng)前工業(yè)界最強(qiáng)的交互式世界生成基座模型之一。

  04

  昆侖萬(wàn)維引領(lǐng)交互式世界生成新紀(jì)元

  Matrix-Game作為空間智能領(lǐng)域交互式世界生成的重要里程碑,將潛在為多個(gè)領(lǐng)域帶來(lái)革命性影響:

  虛擬游戲世界快速搭建:借助模型的可控生成能力,可低成本、高效率地創(chuàng)建多樣化、結(jié)構(gòu)合理的游戲地圖與交互環(huán)境,顯著提升關(guān)卡設(shè)計(jì)與任務(wù)構(gòu)建的自由度。

  影視與元宇宙內(nèi)容生產(chǎn):支持高保真、物理一致的動(dòng)態(tài)場(chǎng)景合成,為沉浸式體驗(yàn)開(kāi)發(fā)與創(chuàng)意內(nèi)容生成提供通用世界建?;A(chǔ)。

  具身智能體訓(xùn)練與數(shù)據(jù)生成:盡管當(dāng)前模型未直接用于具身智能,Matrix-Game 具備生成大規(guī)模交互視頻的能力,具備擴(kuò)展至具身智能體訓(xùn)練與評(píng)估的潛力,可為智能體創(chuàng)建多樣復(fù)雜的虛擬環(huán)境,輔助其任務(wù)執(zhí)行與推理能力的提升。

  Matrix-Game讓世界不再只是被觀看,而是被探索、被操控、被創(chuàng)造。昆侖萬(wàn)維正站在空間智能時(shí)代的新起點(diǎn),邀請(qǐng)每一位探索者一起,用指尖繪制屬于自己的無(wú)限虛擬世界。

  未來(lái),昆侖萬(wàn)維將持續(xù)投入前沿技術(shù)與基礎(chǔ)模型研發(fā),并且堅(jiān)定開(kāi)源SOTA級(jí)別模型回歸社區(qū)。我們相信,Matrix系列世界模型將對(duì)公司AI短劇生產(chǎn)和編輯以及AI游戲生產(chǎn)等業(yè)務(wù)進(jìn)一步賦能,為用戶和開(kāi)發(fā)者帶來(lái)新的平臺(tái)和工具。

特別提醒:本網(wǎng)信息來(lái)自于互聯(lián)網(wǎng),目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。本站不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系我們,本站將會(huì)在24小時(shí)內(nèi)處理完畢。
0人已贊

關(guān)注我們

泡泡網(wǎng)

手機(jī)掃碼關(guān)注