Agentcpm GUI

使用场景在使用 Dianping 应用时,用户可以通过截图和指令来快速获取餐厅信息。在 bilibili 上,用户可以通过指定指令让 AgentCPM-GUI ...

  • Agentcpm GUI

    类别:个人助理,自动化工作流,开源,智能代理,移动应用,中英文支持,GUI 操作,普通产品,开源,
    官网:https://github.com/OpenBMB/AgentCPM-GUI 更新时间:2025-08-02 10:54:50
  • 使用场景

    在使用 Dianping 应用时,用户可以通过截图和指令来快速获取餐厅信息。

    在 bilibili 上,用户可以通过指定指令让 AgentCPM-GUI 自动浏览视频内容。

    使用 Amap 时,用户可以直接指令模型执行导航和路线规划。

    产品特色

    高质量 GUI 元素理解:基于大规模双语 Android 数据集进行预训练,提升了对常见 GUI 组件的理解能力。

    中文应用支持:首次提供针对中文应用的精细调优,覆盖 30 多款热门应用。

    增强的规划与推理能力:通过强化微调 (RFT),模型在输出操作前能够进行深思熟虑,提升复杂任务的成功率。

    紧凑的动作空间设计:优化的动作空间和简洁的 JSON 格式使得平均动作长度减少至 9.7 个 tokens,提升设备上的推理效率。

    简单易用的安装和使用流程:用户可以轻松安装依赖,并快速上手使用。

    强大的示例案例支持:提供多种应用案例,帮助用户更好理解功能与应用场景。

    支持图像输入:能够接收屏幕截图作为输入,进行图像分析和操作执行。

    适应多种 Android 应用:设计上考虑了多种 Android 应用程序的使用场景,具备良好的适配性。

    使用教程

    1. 克隆 AgentCPM-GUI 代码库到本地。

    2. 安装所需的依赖项,例如 Python 和相关库。

    3. 下载模型并将其放置在指定的目录中。

    4. 通过代码加载模型和 tokenizer,准备输入数据。

    5. 提供屏幕截图和相关指令,进行模型推理。

    6. 根据模型的输出,执行相应的操作。

    7. 根据需要调整输入,重复使用以优化结果。