首页攻略资讯正文

宇树推出的开源多模态视觉语言大模型UnifoLM-VLA-0

发布时间：2026-02-15 作者：admin

1月29日，机器人企业宇树科技对外宣布，将其自主研发的视觉-语言-动作（VLA）大模型UnifoLM-VLA-0进行开源。这款模型的核心目标是突破传统视觉语言大模型（VLM）在物理交互场景下存在的局限性，借助专门设计的预训练流程，推动模型从单纯的图文理解能力，升级为拥有物理常识、能够支撑具身交互的“智能大脑”。

据官方信息，UnifoLM-VLA-0 属于 UnifoLM 系列，是专门针对通用人形机器人操作开发的模型。该模型以开源的 Qwen2.5-VL-7B 模型为基础搭建，通过采用涵盖通用场景与机器人场景的多任务数据集开展持续预训练，旨在增强模型在几何空间与语义逻辑方面的对齐能力。

模型的核心创新点在于，为满足操作任务的严苛要求，深度整合了文本指令与2D/3D空间信息，并通过构建全流程动力学预测数据来提升任务的泛化能力。值得一提的是，宇树在模型架构中加入了动作预测模块，同时对开源数据集开展了系统性的清洗工作，最终仅借助约340小时的实际机器人运行数据，结合动作分段预测与动力学限制条件，达成了对复杂动作序列的一体化建模以及长周期规划。

评估结果表明，该模型在多项空间理解基准测试中的表现较基础模型有明显进步，在“no thinking”模式下甚至能与 Gemini-Robotics-ER 1.5 相媲美。而在 LIBERO 仿真基准测试里，它的多任务模型也达到了接近最佳的性能水平。

在实际机器验证阶段，UnifoLM-VLA-0 在宇树 G1 人形机器人平台上，仅依靠单一策略网络就能高质量完成打开关闭抽屉、插入拔出插头、抓取与放置物品等12类复杂操作任务。官方表示，即便处于外部存在扰动的条件下，该模型依然展现出优异的执行鲁棒性和抗干扰性能。

目前，该模型的项目主页与开源代码已在GitHub平台公布，开发者和研究人员可通过该平台进行获取。

复制本文链接攻略文章为firedg所有，未经允许不得转载。