Video Language Planning

使用场景将物体堆叠在桌子中央将水果放入顶层抽屉将积木按颜色分组产品特色训练视觉语言模型和文本到视频模型生成详细的多模态规划合成长期视频规划转化为真实机器人动作