编译/VR陀螺
NVIDIA的研究团队于2026年5月14日发布了关于开源世界模型“SANA-WM”的论文。所谓世界模型,是指通过学习现实空间中的物理运动和深度信息,并据此生成图像的人工智能模型。SANA-WM也被视为具身智能、机器人训练、游戏原型开发、VR/AR内容创作和影视预可视化等领域的研究新基准。

在SANA-WM中,只需输入一张静态图像和摄像机的移动路径,即可生成60秒、720p分辨率的高保真可控视频。摄像机的运动可通过6DoF进行控制。除了上下左右的移动外,还可以指定平移、俯仰等旋转方向的运动,因此可以输出仿佛在实际移动中拍摄的影像。
演示页面上公开了雪山小径、水下遗迹、沙漠科幻废墟等多种场景的样片。此外,这些演示视频是通过结合2.6B参数,且整个推理过程可在单张H100 GPU上高效完成。
在技术层面,据称该模型在实现36倍于现有开源模型的吞吐量(指系统或设备每单位时间可处理的“实际数据量”或“作业处理能力”)的同时,还达到了与LingBot-World和HY-WorldPlay等闭源产品相当的视频质量。
仅使用约21.3万条带度量尺度姿态标注的公开视频片段,在64张H100上训练15天即可完成。标准推理可在单块H100上运行。若对蒸馏版应用NVFP4量化技术,即使使用RTX 5090,也能将60秒的720p视频生成时间缩短至34秒。
来源:moguravr
投稿/爆料:tougao@youxituoluo.com
稿件/商务合作: 林南(微信 19250561593) 六六(微信 13138755620)
加入行业交流群:林南(微信 19250561593)
元宇宙数字产业服务平台
下载「陀螺科技」APP,获取前沿深度元宇宙讯息