近日,即梦AI在其官方社交媒体平台上发布了一则激动人心的消息,预告了一项名为OmniHuman的全新多模态视频生成模型的上线。这一创新技术允许用户仅通过一张图片和一段音频,就能轻松创建出栩栩如生的AI视频,预示着AI短片制作效率和质量的显著提升。
据即梦AI发布的视频内容显示,OmniHuman模型是由字节跳动自主研发的闭源技术,它能够接收包括肖像、半身及全身等不同规格的图片输入,并根据提供的音频内容,在生成的视频中让人物做出与音频相匹配的动作,无论是演讲、歌唱、乐器演奏还是行走,都能一一呈现。尤为该技术对于人物视频生成中常见的手势失真问题,相较于现有方法有了显著的改善。
OmniHuman还支持非真人图片输入,如动漫、3D卡通等,生成的视频不仅保持了原有的风格和运动模式,而且效果同样出色。从技术主页展示的演示效果来看,OmniHuman所生成的视频已经具备了相当高的自然度,令人赞叹不已。
然而,为了防止这项技术被滥用,字节跳动技术团队明确表示,OmniHuman将不会对外开放下载。这一决定无疑是为了确保技术的安全性和合规性。
即梦AI的相关负责人透露,尽管OmniHuman模型目前的表现已经相当不错,但在生成接近影视真实级别的视频方面,仍有进一步提升的空间。因此,该模型支持的多模态视频生成功能将在即梦平台上以小范围内测的形式进行调优,并逐步向用户开放。同时,为了确保AI技术的正面应用和积极影响,即梦AI将为此功能设置严格的安全审核机制,并对输出的视频添加水印作为提醒。
这一系列的举措不仅展示了即梦AI在技术创新方面的实力,也体现了其对社会责任的担当。相信随着OmniHuman技术的不断优化和推广,将为视频创作者提供更多可能性,帮助他们更好地实现创意和想象力的表达。