Aria UI

使用场景自动化停止服务任务,通过理解GUI指令并定位到服务停止按钮。检查颜色调色板,通过视觉定位GUI中的调色板区域。启用iCloud照片功能,通过识别并操作G...

  • Aria UI

    类别:AI设计工具,AI模型,视觉定位,多模态模型,GUI自动化,上下文感知,性能卓越,普通产品,开源,
    官网:https://ariaui.github.io/ 更新时间:2025-08-02 10:09:47
  • 使用场景

    自动化停止服务任务,通过理解GUI指令并定位到服务停止按钮。

    检查颜色调色板,通过视觉定位GUI中的调色板区域。

    启用iCloud照片功能,通过识别并操作GUI中的iCloud设置。

    产品特色

    - ✨ 多格式指令理解:Aria-UI能够处理多样的定位指令,适应不同格式,确保在动态场景或与不同规划代理搭配时的鲁棒适应性。

    - 📝 上下文感知定位:Aria-UI有效利用历史输入,无论是纯文本还是图文交错格式,以提高定位精度。

    - ⚡ 轻量级和快速:作为一个每token激活3.9B参数的混合专家模型,Aria-UI能够高效编码不同大小和纵横比的GUI输入,并支持超高分辨率。

    - 🎉 卓越性能:Aria-UI在AndroidWorld和OSWorld基准测试中分别获得第一名和第三名,显示出其卓越的性能。

    使用教程

    1. 访问Aria-UI的HF Space Demo页面,尝试在线体验模型功能。

    2. 下载并安装所需的Aria-UI数据集和模型检查点,以便在本地环境中使用。

    3. 阅读Aria-UI的论文和代码文档,了解模型的工作原理和使用方法。

    4. 根据具体的GUI任务,编写或调整定位指令,以适应Aria-UI的输入要求。

    5. 使用Aria-UI模型对GUI进行视觉定位,执行自动化任务。

    6. 根据需要调整和优化模型参数,以提高任务执行的准确性和效率。