使用场景
使用自然语言指令打开浏览器并搜索特定内容。
通过语音指令在社交媒体上发布消息。
自动填写表单并提交数据。
产品特色
通过自然语言指令控制电脑操作,如打开应用、输入文本等。
支持屏幕截图和视觉识别,能够识别屏幕上的元素并进行交互。
提供精准的鼠标和键盘控制,模拟真实用户操作。
跨平台支持 Windows 和 macOS 系统,适应不同用户需求。
实时反馈操作状态,让用户清楚了解任务执行情况。
使用教程
1. 从 GitHub 下载最新版本的 UI-TARS-desktop 安装包。
2. 根据操作系统(Windows 或 macOS)进行安装。
3. 启动应用后,授权相关权限(如屏幕录制、辅助功能权限)。
4. 打开应用,输入自然语言指令开始使用。
5. 根据需要调整设置,如选择视觉语言模型服务提供商。