当前,具身智能(Embodied Artificial Intelligence)作为人工智能领域的一个分支,正在成为学术界和产业界备受关注的一个焦点。

所谓具身智能Embodied AI,指的是有身体并支持物理交互的智能体。英伟达(Nvidia)创始人兼CEO黄仁勋在ITF World 2023半导体大会上称,具身智能将引领下一波人工智能浪潮。在产业界,谷歌DeepMind推出首个控制机器人的视觉语言动作(VLA)模型RT-2;凭借ChatGPT取得巨大成功的OpenAI,曾经解散机器人团队,如今投资挪威机器人初创公司One X Technologies,推出名为Neo的新型人工智能机器人。

国内政策也在推进具身智能的发展。5月,北京市发布《北京市促进通用人工智能创新发展的若干措施》,提出探索通用智能体、具身智能和类脑智能等通用人工智能新路径,包括推动具身智能系统研究及应用,突破机器人在开放环境、泛化场景、连续任务等复杂条件下的感知、认知、决策技术。

01

什么是具身智能?

根据中国计算机学会专家的定义,具身智能(Embodied Artificial Intelligence)是指一种基于物理身体进行感知和行动的人工智能系统,其通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动,从而产生智能行为和适应性。

具身智能植根于认知科学“具身认知”的概念,该概念强调身体在主体的思想和认知能力的形成中发挥的重要作用,认为身体与周围环境之间的互动是发展认知能力的基础。具身视角带来了人工智能系统与物理世界交互的必要性。

机器人技术给了具身智能身体,因为相对于计算机定义输入,机器人可以与物理世界互动。机器人技术为人工智能系统提供了具有感官和运动能力的身体。通过集成摄像头、麦克风和触觉传感器等一系列传感器,配备轮子、电动关节、夹具等执行器,人工智能能够像人类一样依靠感官来感知世界,与环境进行交互和探索,实现具身智能体的“看”“说”“听”“动”等。

人工智能系统是具身智能的“头脑”。随着深度学习的不断进步,具身智能的“头脑”通常由深度神经网络模型驱动,尤其是随着大语言模型(LLM)的发展,结合视觉等多种传感器的复杂多模态模型,成为一大趋势。具有通用能力的LLM和VLM(视觉语言模型)等模型,赋予了强大的泛化能力,使得机器人从程序执行导向转向任务目标导向,不再受限于特定的程序执行,而能够根据任务目标智能地采取行动。从丰富的数据和任务中学习决策和控制,它们不断演化以适应更复杂的任务和环境。

0个人收藏 收藏

评论交流