2025年3月13日,谷歌旗下的DeepMind实验室宣布推出两款新型机器人控制模型——Gemini Robotics和Gemini Robotics-ER。这一创新标志着人工智能在机器人领域的应用迈出了重要一步,为未来的智能机器人发展奠定了坚实基础。
一、Gemini Robotics:是什么?
Gemini Robotics是一款基于Gemini 2.0大语言模型的机器人控制模型,具备“视觉-语言-动作”(VLA)能力。它能够处理视觉信息、理解自然语言指令,并生成相应的物理动作。例如,用户可以命令机器人“将香蕉放入篮子”或“折一只纸狐狸”,机器人将通过摄像头识别物体并完成任务。 此外,Gemini Robotics还具备多形态适应性,能够适配不同类型的机器人平台,如双臂机器人ALOHA2和人形机器人Apollo。这种通用性使得Gemini Robotics能够在多种场景中发挥作用,从家庭助手到工业生产。 Gemini Robotics-ER则专注于“具身推理”,增强了机器人对三维环境的理解能力。它能够实时规划安全的移动轨迹,例如在复杂环境中抓取物体时,判断最佳的抓握方式。
https://www.yumiok.com/wp-content/uploads/2025/03/1741879179-谷歌.mp4