近日,阿里巴巴旗下通义万相宣布开源业界首个百亿参数规模的首尾帧生视频模型 Wan2.1-FLF2V-14B。这一创新技术的开源,标志着 AI 视频生成领域迈入了新的发展阶段,为视频创作带来了前所未有的便利和可能性。
一、模型简介与技术突破
Wan2.1-FLF2V-14B 是基于通义万相 Wan2.1 架构的视频生成模型,参数量达到 14B。该模型能够根据用户提供的首帧和尾帧图片,自动生成一段 5 秒的 720P 高清视频。其核心技术突破包括: 高效的视频压缩 VAE 模型:显著降低了运算成本,使高清视频生成更加高效且经济。 条件控制分支:通过引入额外的条件控制机制,实现了流畅且精准的首尾帧变换。 交叉注意力机制:提取首帧和尾帧的 CLIP 语义特征,并将其注入到生成过程中,确保画面稳定性。 优化的训练策略:模型训练分为三个阶段,逐步提升能力,确保生成视频的细节复刻与动作流畅性。
https://www.yumiok.com/wp-content/uploads/2025/04/1745142458-通义万相.mp4