阿里通义万相首推百亿参数首尾帧视频模型,AI创作迎来新变革!

   时间:2025-04-19 22:46 来源:天脉网作者:柳晴雪

阿里通义万相最新宣布,其“首尾帧生视频模型”已正式向公众开源。这款模型拥有惊人的140亿参数,堪称业界首个达到如此规模并对外开放的同类模型。

借助这款模型,用户只需提供起始和结束两帧图像,它便能自动生成一段高清720p视频,无缝衔接首尾画面,极大提升了视频生成的灵活性和个性化程度。这一创新技术,无疑为AI视频创作领域带来了革命性的突破。

相较于传统的文生视频或单图生视频技术,首尾帧生视频模型在可控性方面展现出了显著优势,成为众多AI视频创作者梦寐以求的功能。然而,这类模型的训练难度极大,需要同时满足指令遵循、视频内容与首尾帧高度一致、视频过渡自然流畅等多重严苛要求。

为了攻克这些难题,阿里通义万相团队在现有的Wan2.1文生视频基础模型架构上进行了大胆创新,引入了额外的条件控制机制,实现了流畅且精准的首尾帧变换。在训练阶段,团队精心构建了专属的首尾帧模式训练数据,并采用并行策略优化文本与视频编码模块、扩散变换模型模块,从而大幅提升了模型训练和生成效率,确保了高分辨率视频的生成质量。

在推理阶段,为了在有限内存资源下支持高清视频推理,团队巧妙运用了模型切分策略和序列并行策略。这些策略在确保推理效果不受损的前提下,显著缩短了推理时间,使得高清视频的生成更加高效便捷。

基于这款强大的模型,用户能够完成更加复杂、个性化的视频生成任务。例如,用户只需上传两张相同位置但不同时间段的外景图片,并输入一段提示词,模型便能生成一段展现四季交替或昼夜变化的延时摄影效果视频。用户还可以通过旋转、摇镜、推进等运镜控制,将两张不同画面的场景巧妙衔接起来,既保证了视频与预设图片的一致性,又让视频镜头更加丰富多变。

目前,用户可在通义万相官网上直接免费体验这款模型,也可在Github、Hugging Face、魔搭社区等平台下载模型进行本地部署和二次开发。此次开源举措,无疑将进一步推动AI视频生成技术的发展与应用,为广大创作者提供更加便捷、强大的创作工具。

 
反对 0举报 0 收藏 0
 
更多>同类天脉资讯
全站最新
热门内容
媒体信息
新传播周刊
新传播,传播新经济之声!
网站首页  |  关于我们  |  联系方式  |  版权隐私  |  网站留言  |  RSS订阅  |  违规举报