□本报记者 王萌
边看边创造,所想即所见,所说即所现——这是爱诗科技最新发布的全球首个可实时交互的通用世界模型PixVerseR1所带来的体验。日前,海淀大模型企业北京爱诗科技有限公司(以下简称“爱诗科技”)正式发布全球首个支持最高1080P分辨率、可实时交互的通用世界模型Pix-VerseR1。该模型基于原生多模态架构、自回归流式生成和瞬时响应引擎构建,将视频生成延迟缩短至“瞬时”。
三大核心技术突破视频生成从延迟到“瞬时”
过去,传统视频生成是单向的:用户输入指令、等待结果、获取成品,难以满足实时响应与内容共创的需求。如今,PixVerseR1将这一过程转化为“瞬时”对话,即用户每说一句,画面就随之变化,可持续生成、无时长限制,从而推动数字媒体从“预录制回放”向“实时动态生成”演进。
据介绍,PixVerseR1的突破,其背后并非单一技术的跃进,而是由三大技术支柱协同构建的完整“实时交互世界引擎”。其中,Omni原生多模态基础模型打破了传统多模态系统“拼接式”处理的局限,将文本、图像、音频与视频融合为单一生成序列,实现真正端到端的跨模态理解与输出。模型全程在原生分辨率下训练,避免了上采样导致的模糊与伪影,并通过规模化训练,使光影变化、物体运动与物理交互具备高度一致性和真实感,让AI不仅能“画图”,更能模拟一个符合现实的场景世界。
在此基础上,自回归流式生成机制通过引入记忆增强注意力模块,解决了长时序一致性的行业难题,可生成任意长度视频,并长期维持角色身份、物体状态与环境逻辑的一致性。用户可在生成过程中随时插入新指令,系统即时响应并动态调整叙事,实现真正的“流式交互”,从而告别画面突变、逻辑断裂等传统生成痛点。
而让这一切“实时”成为可能的,是创造性的瞬时响应引擎。通过时间轨迹折叠、引导校正和自适应稀疏采样三大创新,将传统扩散模型所需的50+采样步数压缩至1–4步,计算效率提升数百倍,使动态画面响应进入人眼可感知的“即时”阈值。该引擎不仅支撑高并发API服务,也为未来终端设备部署奠定基础。
Omni提供现实世界的“计算基座”,自回归流式生成机制赋予其“持久记忆”,瞬时响应引擎则注入即时反应的“神经反射”。它们共同构成了PixVerseR1这一全球首个支持1080P实时生成的通用视频大模型,也正式开启了“视频即交互、世界可共创”的新范式。
从“观看”到“共创”重新定义视频体验
PixVerseR1不仅是一个视频生成工具,更是一个“可交互的数字世界计算基础设施”,其应用场景覆盖游戏、影视、娱乐、创意等多个领域。
在游戏领域,非玩家角色与环境可实时响应玩家操作;在互动娱乐中,观众能通过语音或手势实时影响剧情走向;在共创体验方面,用户可协同生成并重塑动态世界,涵盖科研实验、场景推演、经典影像重制乃至实时产品模拟。
“PixVerseR1代表一种全新的媒体形式。这是首次AI能够基于用户意图实时生成一个持续演化、物理合理的世界。传统视频是被记录的历史,而PixVerseR1开创了‘正在发生的现在’的实时生成新纪元。”爱诗科技创始人兼CEO王长虎表示,“无论是AI原生游戏、互动电影,还是生成式直播体验,叙事都能‘所想即所现’。创作与消费的边界正逐渐模糊:视频消费者同时也可以是创作者,能够在观看的同时实时调整并生成新内容。我们相信,智能化媒体应实时响应用户意图,让每个人成为动态叙事的创作者。”
据悉,PixVerseR1的发布,不仅是视频生成技术上的突破,更标志着一种新媒介形态的诞生——视频不再是封闭的“内容成品”,而是可交互、可延续、可共同演进的数字世界。
