AI模型 开发平台 多模态 Transformer 图像 文本 音频 动作 图像生成 普通产品
使用场景根据提示描述并生成图像理解视频中的内容根据音频生成文本描述产品特色图像 caption执行自由形式指令图像编辑对象检测语义分割表面法线估计基于图像的音频...
使用场景
根据提示描述并生成图像
理解视频中的内容
根据音频生成文本描述
产品特色
图像 caption
执行自由形式指令
图像编辑
对象检测
语义分割
表面法线估计
基于图像的音频生成