使用场景
使用IP2V技术将风景图片转换为视频,用于旅游宣传。
将产品图片转换为视频,用于电商产品展示。
利用历史图片生成视频,用于教育和纪录片制作。
产品特色
支持图像到视频的转换(IP2V):利用图像作为视频生成的条件,而非仅仅作为视频的第一帧。
图像风格和概念提取:通过图像提示,提取图像的风格和概念,融入视频生成中。
模型选择与配置:支持下载模型并放置在指定文件夹,或依赖自动下载机制。
图像加载与连接:使用ComfyUI原生节点加载图像,并连接至Hunyuan TextImageEncode节点。
高级配置选项:提供`image_token_selection_expression`用于选择图像隐藏状态的哪一部分用于条件。
支持多图像输入:最多可以连接2张图像至Hunyuan TextImageEncode节点。
实验性功能:产品处于工作进展中,但已经可以正常使用。
使用教程
1. 选择模型:下载xtuner/llava-llama-3-8b-v1_1-transformers模型,并放置在models/LLM文件夹,或依赖自动下载机制。
2. 设置模型类型:将lm_type设置为vision_language。
3. 加载和连接图像:使用ComfyUI原生节点加载图像,并连接至Hunyuan TextImageEncode节点。
4. 提示与图像:在提示中包含
5. 高级配置(可选):根据需要配置image_token_selection_expression,以选择用于条件的图像隐藏状态部分。
6. 生成视频:根据配置和提示,生成视频内容。