Magma

使用场景在 UI 导航任务中,Magma 可以根据指令自动完成网页或移动应用的操作。在机器人操作任务中,Magma 可以通过视觉输入规划机器人的动作,完成抓取和...

  • Magma

    类别:智能体,AI模型,多模态,AI,机器人,UI 导航,空间智能,动作规划,预训练模型,普通产品,开源,
    官网:https://microsoft.github.io/Magma/ 更新时间:2025-08-02 10:28:22
  • 使用场景

    在 UI 导航任务中,Magma 可以根据指令自动完成网页或移动应用的操作。

    在机器人操作任务中,Magma 可以通过视觉输入规划机器人的动作,完成抓取和放置任务。

    在视频问答任务中,Magma 能够理解视频内容并回答相关问题。

    产品特色

    支持多模态输入,包括图像、视频和语言。

    能够在视觉空间中进行动作规划和执行,如机器人操作。

    通过 Set-of-Mark (SoM) 和 Trace-of-Mark (ToM) 技术实现高效的动作理解和规划。

    在 UI 导航和机器人操作任务中表现出色,超越了专门为此任务设计的模型。

    具备零样本学习能力,能够在未见过的任务中快速适应。

    支持多模态理解,如视频问答和空间推理。

    能够在真实机器人上进行少样本微调,实现可靠的性能。

    提供开源代码和模型,便于研究和开发人员使用。

    使用教程

    1. 访问 Magma 的官方网站或 GitHub 仓库,获取模型和代码。

    2. 根据任务需求选择合适的预训练模型版本。

    3. 对于特定任务,如 UI 导航或机器人操作,使用少量标注数据进行微调。

    4. 在实际应用中,将输入(如图像、视频或文本指令)传递给模型。

    5. 模型会输出动作规划或语言回答,根据输出执行相应操作。

    6. 对于复杂任务,可以结合多模态输入进行零样本推理。

    7. 使用开源代码和模型进行二次开发或扩展,以满足特定需求。