近日,阿里巴巴宣布其生成基座模型万相2.1(Wan)正式开源,这一举动在业界引起了广泛关注。在多项评测中,万相2.1力压Sora、Luma等模型,荣登榜首,彰显了其强大的实力。
万相2.1的开源,标志着开源领域最强视频大模型的亮相。据了解,万相2.1提供了两个不同规模的参数版本,以满足不同用户的需求。其中,140亿参数版本针对对生成效果有高要求的专业人士,而13亿参数版本则以其快速的生成速度和广泛的兼容性,能够适配所有消费级GPU。目前,这两个版本的全部推理代码和权重均已开源。
在视频生成领域,万相2.1展现了卓越的能力。通过自研的高效VAE和DiT架构,万相2.1增强了时空上下文建模能力,支持无限长1080P视频的高效编解码。万相2.1还首次实现了中文文字视频生成功能,并涵盖了文生视频、图生视频、视频编辑、文生图和视频生音频等多项任务。
万相2.1不仅支持中英文视频生成,还提供了丰富的视频特效选项,如过渡效果、粒子效果和模拟效果等,大大增强了视频的视觉表现力。用户可以通过简单的操作,一键生成艺术字,轻松制作出具有专业水准的视频作品。
随着万相2.1的开源,阿里云实现了全模态、全尺寸的开源,为开发者提供了更多选择和便利。这意味着开发者可以低成本获取并使用该模型的底层代码,进而开发出与自身业务相关的各类视频生成应用。这无疑将推动AI视频技术的商业化落地,并促进算力、云计算和内容创作等全产业链的升级。
近年来,开源趋势在全球范围内愈演愈烈,成为大模型领域的标配。在国内,多家企业纷纷推出自己的开源模型,如字节跳动的豆包和百度的文心一言等,共同推动了开源热潮的发展。而在国际市场上,万相2.1的完全开源也给OpenAI、谷歌等竞品带来了商业化的挑战。谷歌的Veo 2模型近期披露了定价策略,每生成1秒视频需要付费0.5美元,高昂的成本使得AI生成视频的定价面临重新评估。
在AI视频生成领域,微美全息也展现出了显著的布局。该公司专注于多模态AIGC(生成式AI)研发,通过结合大规模预训练与多模态算法优化,提升了生成内容的连贯性和物理合理性。微美全息已逐步实现文本生成视频、图像生成视频等能力,支持剧情创作、短视频生成等场景。未来,微美全息有望通过API或行业解决方案,加速AI快速生成视频能力的技术迭代。