Drivevlm

使用场景在城市环境中,DriveVLM能够识别并处理复杂的道路条件和微妙的人类行为。DriveVLM-Dual在生产车辆上的部署,展示了其在真实世界自动驾驶环境...

  • Drivevlm

    类别:AI自动驾驶,AI模型,自动驾驶,视觉语言模型,场景理解,分层规划,普通产品,开源,
    官网:https://tsinghua-mars-lab.github.io/DriveVLM/ 更新时间:2025-08-01 18:25:54
  • 使用场景

    在城市环境中,DriveVLM能够识别并处理复杂的道路条件和微妙的人类行为。

    DriveVLM-Dual在生产车辆上的部署,展示了其在真实世界自动驾驶环境中的实用性。

    在nuScenes数据集上的实验,证明了DriveVLM在处理复杂和不可预测的驾驶条件方面的有效性。

    产品特色

    接受图像序列作为输入,通过基于推理的思考链(CoT)机制输出分层规划预测。

    可选地结合传统的3D感知和轨迹规划模块,实现空间推理能力和实时轨迹规划。

    数据挖掘和注释流程,构建场景理解数据集。

    使用注释者团队进行场景注释,包括场景描述、场景分析和规划。

    在nuScenes数据集和SUP-AD数据集上进行实验,验证系统的有效性。

    DriveVLM-Dual在生产车辆上部署,验证其在现实世界自动驾驶环境中的有效性。

    使用教程

    1. 准备图像序列作为输入数据。

    2. 将图像序列输入DriveVLM模型。

    3. 利用DriveVLM的推理机制进行场景描述、分析和规划。

    4. 根据需要,可选地结合3D感知和轨迹规划模块。

    5. 从DriveVLM模型获取分层规划预测结果。

    6. 在实际自动驾驶环境中部署DriveVLM-Dual,验证其效果。