通义万相2.1开源首尾帧生视频模型Wan2.1-FLF2V-14B

模型简介

阿里通义宣布开源 Wan2.1系列模型，其中包括强大的首尾帧生视频模型。这一模型采用了先进的 DiT 架构，在技术上实现了多项突破，显著降低了高清视频生成的运算成本，同时确保了生成视频在时间与空间上的高度一致性。此次开源为开发者和创作者提供了强大的工具，推动视频生成技术的发展。

创新与技术优化

阿里通义发布的 Wan2.1系列模型在多个方面进行了优化和创新。其中，高效的视频压缩 VAE 模型显著降低了运算成本，使得高清视频生成更加高效且经济。模型的 Transformer 部分基于主流的视频 DiT 结构，通过 Full Attention 机制精准捕捉长时程的时空依赖关系，确保了生成视频在时间与空间上的高度一致性。此外，首尾帧生视频模型引入了额外的条件控制分支，用户输入的首帧和尾帧作为控制条件，通过这一分支实现了流畅且精准的首尾帧变换。

微信截图_20250418075738.png

训练与推理优化

在训练及推理优化方面，通义万相首尾帧生视频模型采用了基于线性噪声轨迹的流匹配（Flow Matching）方法。在训练阶段，模型采用了数据并行(DP)与完全分片数据并行(FSDP)相结合的分布式策略，支持分辨率为720p、时长为5秒的视频切片训练。在推理阶段，模型采用了模型切分策略以及序列并行策略，显著缩短了推理时间，同时实现了 FlashAttention3INT8与 FP8混合算子以对注意力机制部分进行8比特量化，确保推理效果无损。

训练过程分阶段进行

模型的训练分为三个阶段，逐步提升能力：

第一阶段：使用与基模型相同的数据集，在480p 分辨率下进行图生视频、任意位置插帧、视频续写等任务的混合训练。
第二阶段：构建专门用于首尾帧模式的训练数据，筛选出首尾帧差异较大的视频片段，专注于优化首尾帧生成能力。
第三阶段：采用高精度数据集，在720p 分辨率下完成最终训练，确保生成视频的细节复刻与动作流畅性达到最佳水平。

开源与试用

基于通义万相首尾帧生视频模型的强大能力，它不仅能完美复刻输入图像的细节，还能生成具有生动真实动作的视频。目前，通义万相首尾帧生视频模型已同步在 GitHub 开源，欢迎广大开发者与创作者试用并提出宝贵意见。开源地址如下:

- GitHub: https://github.com/Wan-Video/Wan2.1
- Hugging Face: https://huggingface.co/Wan-AI/Wan2.1-FLF2V-14B-720P
- Modelscope: https://www.modelscope.cn/models/Wan-AI/Wan2.1-FLF2V-14B-720P

通义万相2.1开源首尾帧生视频模型Wan2.1-FLF2V-14B

YiAI团队

AI大模型技术专家团队

YiAI团队是一支专注于AI大模型应用的技术团队，由来自国内外知名科技公司的AI专家组成。我们致力于为企业和开发者提供高质量、低成本的AI大模型API服务，涵盖文本生成、对话交互、内容理解、知识问答等多个领域。团队拥有丰富的大规模语言模型开发和应用经验，深入理解企业在AI落地过程中的实际需求和技术痛点。