最懂中文App开源智能体最新开源多模态智能体最新开源多模态智能体,能自动操作手机

量子位看科技 2025-08-31 13:51:49

最懂中文App开源智能体最新开源多模态智能体

最新开源多模态智能体,能自动操作手机、电脑、浏览器的那种!开源评测榜单和中文场景交互成绩全面提升。

比如让它播放一首歌,它就能自己找到对应软件、找到对应歌手、选择歌曲,像人类一样点击、滑动、输入。其中,多模态智能体学习和交互的对象是多步执行的轨迹数据。

它适用于手机/电脑上的复杂多步任务,尤其是在中文APP场景下的真实交互方面具有优势。

来自浙江大学和美团的研究者们开源了多模态智能体UItron,具有先进的GUI内容感知、任务定位和推理规划能力,以及优秀的中文场景交互能力。

UItron弥补了操作轨迹的稀缺性和智能体交互基建的可用性,提供了更好的基础能力来促进未来的智能体研究,图中展示了UItron和基准方法在十个主流评测榜单中的性能对比,显示了全面的性能水平提升。

0 阅读:0
量子位看科技

量子位看科技

感谢大家的关注