对标Genie3,蚂蚁灵波所开源的世界模型是LingBot-World

发布时间:2026-02-15 作者:admin

1月29日,在连续推出空间感知与VLA基座模型之后,蚂蚁灵波科技又以开源形式发布了世界模型LingBot-World。相关信息显示,该模型在视频质量、动态表现、长时一致性、交互能力等核心指标方面已与Google Genie 3持平,其定位是为具身智能、自动驾驶以及游戏开发领域,打造一个具备高保真度、高动态性且支持实时操控的“数字模拟环境”。

针对视频生成领域普遍存在的“长时漂移”难题——即随着生成时长增加,容易出现物体变形、细节缺失、主体消失或场景结构错乱等状况,LingBot-World借助多阶段训练与并行化加速技术,成功达成了近10分钟连续稳定且无质量损耗的生成效果,从而为长序列、多步骤的复杂任务训练筑牢了基础。

在交互性能方面,LingBot-World的生成吞吐速率可达每秒约16帧,端到端的交互延迟能控制在1秒以内。用户能够借助键盘或鼠标对角色与相机视角进行实时操控,画面会依据指令即刻做出反馈。不仅如此,用户还可以通过文本指令来触发环境变化和世界事件,比如调节天气状况、切换画面风格或者生成特定事件,并且这些变化是在保持场景几何关系相对稳定的前提下完成的。

模型拥有Zero-shot泛化能力,无论是输入真实照片(比如城市街景)还是游戏截图,都能生成可交互的视频流,并且不需要针对单个场景额外开展训练或采集数据,进而降低了在不同场景里的部署和使用成本。

为解决世界模型训练过程中高质量交互数据短缺的难题,LingBot-World运用了混合数据采集策略:其一,对海量网络视频进行清洗处理,以此覆盖更为丰富多样的场景;其二,将游戏采集与虚幻引擎(UE)合成管线相结合,从渲染层面直接获取无UI干扰的清晰画面,同时同步记录操作指令与相机位姿信息,为模型理解“动作怎样改变环境”提供精准对齐的训练数据支持。

目前,LingBot-World模型的权重与推理代码已正式向社区开放。

复制本文链接 攻略文章为firedg所有,未经允许不得转载。
同类推荐
查看更多 →
攻略资讯
查看更多 →
猜你可能喜欢的
查看更多 →
热门精选
更多 →
精彩专题
更多 →
最新热游
更多 →