海淀企业发布全球首个可实时交互的通用世界模型

第01版：头版

下一版

放大+ 缩小- 默认o

边看边创造所想即所见所说即所现

海淀企业发布全球首个可实时交互的通用世界模型

□本报记者王萌

边看边创造，所想即所见，所说即所现——这是爱诗科技最新发布的全球首个可实时交互的通用世界模型PixVerseR1所带来的体验。日前，海淀大模型企业北京爱诗科技有限公司（以下简称“爱诗科技”）正式发布全球首个支持最高1080P分辨率、可实时交互的通用世界模型Pix-VerseR1。该模型基于原生多模态架构、自回归流式生成和瞬时响应引擎构建，将视频生成延迟缩短至“瞬时”。

三大核心技术突破视频生成从延迟到“瞬时”

过去，传统视频生成是单向的：用户输入指令、等待结果、获取成品，难以满足实时响应与内容共创的需求。如今，PixVerseR1将这一过程转化为“瞬时”对话，即用户每说一句，画面就随之变化，可持续生成、无时长限制，从而推动数字媒体从“预录制回放”向“实时动态生成”演进。

据介绍，PixVerseR1的突破，其背后并非单一技术的跃进，而是由三大技术支柱协同构建的完整“实时交互世界引擎”。其中，Omni原生多模态基础模型打破了传统多模态系统“拼接式”处理的局限，将文本、图像、音频与视频融合为单一生成序列，实现真正端到端的跨模态理解与输出。模型全程在原生分辨率下训练，避免了上采样导致的模糊与伪影，并通过规模化训练，使光影变化、物体运动与物理交互具备高度一致性和真实感，让AI不仅能“画图”，更能模拟一个符合现实的场景世界。

在此基础上，自回归流式生成机制通过引入记忆增强注意力模块，解决了长时序一致性的行业难题，可生成任意长度视频，并长期维持角色身份、物体状态与环境逻辑的一致性。用户可在生成过程中随时插入新指令，系统即时响应并动态调整叙事，实现真正的“流式交互”，从而告别画面突变、逻辑断裂等传统生成痛点。

而让这一切“实时”成为可能的，是创造性的瞬时响应引擎。通过时间轨迹折叠、引导校正和自适应稀疏采样三大创新，将传统扩散模型所需的50+采样步数压缩至1–4步，计算效率提升数百倍，使动态画面响应进入人眼可感知的“即时”阈值。该引擎不仅支撑高并发API服务，也为未来终端设备部署奠定基础。

Omni提供现实世界的“计算基座”，自回归流式生成机制赋予其“持久记忆”，瞬时响应引擎则注入即时反应的“神经反射”。它们共同构成了PixVerseR1这一全球首个支持1080P实时生成的通用视频大模型，也正式开启了“视频即交互、世界可共创”的新范式。

从“观看”到“共创”重新定义视频体验

PixVerseR1不仅是一个视频生成工具，更是一个“可交互的数字世界计算基础设施”，其应用场景覆盖游戏、影视、娱乐、创意等多个领域。

在游戏领域，非玩家角色与环境可实时响应玩家操作；在互动娱乐中，观众能通过语音或手势实时影响剧情走向；在共创体验方面，用户可协同生成并重塑动态世界，涵盖科研实验、场景推演、经典影像重制乃至实时产品模拟。

“PixVerseR1代表一种全新的媒体形式。这是首次AI能够基于用户意图实时生成一个持续演化、物理合理的世界。传统视频是被记录的历史，而PixVerseR1开创了‘正在发生的现在’的实时生成新纪元。”爱诗科技创始人兼CEO王长虎表示，“无论是AI原生游戏、互动电影，还是生成式直播体验，叙事都能‘所想即所现’。创作与消费的边界正逐渐模糊：视频消费者同时也可以是创作者，能够在观看的同时实时调整并生成新内容。我们相信，智能化媒体应实时响应用户意图，让每个人成为动态叙事的创作者。”

据悉，PixVerseR1的发布，不仅是视频生成技术上的突破，更标志着一种新媒介形态的诞生——视频不再是封闭的“内容成品”，而是可交互、可延续、可共同演进的数字世界。

放大+ 缩小- 默认o