腾讯混元AI平台近日再次推出创新功能,图生视频模型震撼亮相并开放源代码。3月7日,这一全新模型不仅向公众展示了其强大的对口型与动作驱动技术,还支持背景音效自动生成及2K高清视频产出,为用户带来前所未有的创作体验。
借助图生视频技术,用户仅需上传一张静态图片,并简要描述期望的动态效果和镜头变化,混元便能根据指令,将图片转化为生动有趣的5秒短视频,并自动匹配贴合的背景音乐。更令人惊叹的是,用户还能通过上传人物图片并输入特定文字或音频,让图片中的人物“开口说话”或“放声歌唱”。选择预设的动作模板,即可一键生成个性化的舞蹈视频。
此次开放的图生视频模型,是腾讯混元在文生视频模型基础上的又一重要进展。该模型拥有130亿参数,广泛适用于写实视频、动漫角色乃至CGI角色的创作,展现出极高的灵活性和适用性。开源内容包括模型权重、推理代码以及LoRA训练代码,鼓励开发者基于混元平台训练专属的LoRA等衍生模型,进一步拓展创作边界。
目前,广大用户和开发者已可通过混元AI视频官网直接体验这一前沿技术,企业和专业开发者则可在腾讯云平台上申请API接口,将图生视频技术融入自身产品或服务中。这一举措无疑将极大地推动视频创作领域的创新与发展。
在Github、HuggingFace等全球知名的开发者社区,图生视频模型同样受到了广泛关注与好评,开发者们纷纷下载体验,探索这一新技术在各自领域的无限可能。