使用场景
生成描述性文本的高质量图像
将故事情节转换为动态视频序列
创建具有特定视角的3D模型展示
合成具有特定情感色彩的语音
产品特色
支持文本到图像、视频、3D和语音的生成
采用基于流的大型扩散变换器(Flag-DiT)技术
能够处理高达7亿参数的模型
支持128,000个标记的序列长度
生成任意分辨率、宽高比和时长的输出
引入[nextline]和[nextframe]标记以支持分辨率外推
在训练资源上表现出较低的计算需求
使用教程
访问Lumina-T2X的GitHub页面以获取项目信息
阅读项目文档以了解如何配置和运行模型
根据需求选择适当的文本到模态生成任务
准备或输入描述性的文本内容
运行模型并观察生成的输出
根据需要调整模型参数以优化生成结果
在社交媒体、网站或多媒体项目中使用生成的内容