通义全尺寸GUI智能体基座模型MAI-UI现已开源,其原生就拥有用户交互能力

发布时间:2026-02-12 作者:admin

12月29日消息,通义实验室多模态交互团队近期对外宣布,正式开源了其通用GUI智能体基座模型MAI-UI。这款模型的核心目标是借助对屏幕界面的理解能力以及操作执行能力,来完成跨应用、多步骤的复杂任务,像查询车票、在通讯群组内同步信息、调整会议安排等场景都能覆盖。

据介绍,MAI-UI拥有在指令模糊时主动向用户询问以明确需求的能力,还能借助调用结构化工具(像地图搜索、路线规划API这类)来代替复杂的界面点击步骤,从而提升任务完成的成功率和效率。这个模型家族涵盖了2B、8B等不同参数大小的版本,其中2B和8B模型已经开源。

根据团队公布的评测数据,MAI-UI在ScreenSpot-Pro、AndroidWorld等多个GUI理解与任务执行基准测试中取得了当前领先的成绩。该模型适用于手机、电脑等不同操作系统的界面交互场景。

复制本文链接 攻略文章为firedg所有,未经允许不得转载。
同类推荐
查看更多 →
攻略资讯
查看更多 →
猜你可能喜欢的
查看更多 →
热门精选
更多 →
精彩专题
更多 →
最新热游
更多 →