2024 T-EDGE创新大会聚焦全球化与AI,MARZ公司 LipDub 技术引领影视新变革
在北京市大兴区,2024 T-EDGE创新大会暨钛媒体财经年会于12月6日至7日盛大召开。此次大会以“全力投入全球化,全力投入AI”为主题,吸引了全球科技和商业领域的众多领袖,共同探讨企业全球化增长的新趋势以及AI对全球各行业的深远影响。
影视制作领域一直是技术创新的前沿阵地,特别是在视频生成方面,人物面部、嘴型、表情和肢体动作的精准捕捉一直是难以攻克的难题。即便是微小的动作位移或细微差异,也可能导致视频失真。若要达到好莱坞影视的标准,往往需要投入巨大的人力和财力。
然而,在2023年8月,随着生成式AI技术的蓬勃发展,一家名为MARZ的公司脱颖而出。MARZ是一家著名的视觉效果(VFX)工作室和AI技术初创公司,他们推出了新一代AI视效产品——LipDub。这款产品旨在解决影视配音中口型不同步的问题,为好莱坞电影公司和广告商带来了收视率和参与度上的飞跃。
LipDub的研发团队由MARZ首席科学家、特拉维夫大学计算机科学系的知名教授Danny Cohen-Or领导。Cohen-Or教授是ACM研究员和Isaias Nizri视觉计算主席,他与西蒙弗雷泽大学的助理教授Ali Mahdavi-Amiri长期合作,共同领导了MARZ的AI研究团队。他们曾成功开发出Vanity AI,这是MARZ的第一个AI解决方案,能够利用AI美妆技术,针对人物面部皱纹进行年轻化处理。Vanity AI自2023年1月推出以来,已在超过45部好莱坞作品中得到应用。
在12月7日的演讲中,LipDub CEO Jonathan Bronfman详细阐述了LipDub的技术实现原理,并展示了该技术在各行业和场景中的应用解决方案。Bronfman指出,目前生成式AI已经发展到文生图、图生视频的阶段。对于营销人员或内容创作者而言,借助生成式AI技术,他们只需短短10分钟就能将某个想法转化为视频,从而迅速验证视频效果。
Bronfman认为,视频内容生成的两大挑战在于速度慢和成本高。视频作为娱乐、教育和打动观众的最佳途径,其生成效率的提升将使用户能够在几分钟内生成一段视频,并且同一段视频素材可以反复使用。
LipDub的口形同步技术(Lip Sync)采用了三种方案:一是对视频进行直接翻译,如将英文演讲视频翻译成中文,并使口型与中文配音同步;二是通过定制虚拟形象进行对话调整,这在广告场景中尤为适用,因为许多品牌在全球各地有不同的产品名称,但希望使用同一支商业广告;三是通过一段语料为角色量身定制对话,即针对同一事物,为不同受众群体生成不同的个性化表达。
Bronfman强调,好莱坞影视画面的要求不仅仅是口型同步,还需要动态效果和饱满的情绪。在跨语言转换过程中,必须确保能够恰当地用另一种语言传递源语言中所表达的情感。为实现这一目标,LipDub采用了Language Agnostic模型,以实现跨语言无关特征学习。
Bronfman在演讲中还透露,MARZ公司源自Monsters Aliens Robot Zombies的英文缩写,成立于2018年,曾为《蚁人》、《惊奇少女》等好莱坞影片和影视剧提供特效,并与迪士尼、奈飞、Amazon Prime等多家流媒体平台建立了合作关系。在2019年,MARZ明确了AI可以加速公司发展,为公司在成本、时间和规模上提供竞争力。
在开发Vanity AI之后,MARZ团队注意到了奈飞平台上韩剧《鱿鱼游戏》在欧美地区的火爆,但配音口型不匹配的问题影响了观众的观看体验。于是,他们开始研发口型同步技术,并将其应用于好莱坞电影配音中。Bronfman展示了利用LipDub将佛兰芒语电影翻译成英文的示例,并介绍了在好莱坞电影制作过程中需要解决的大量技术难点,如摆姿势、换镜头、换灯光等,以实现4K高分辨率。
Bronfman还展示了LipDub在CG角色制作中的应用。在此之前,他们的模型训练数据集中甚至没有包含CG角色字符。好莱坞影视画面的要求不仅仅是口型同步,还需要动态效果和饱满的情绪。LipDub能够确保对原始人物或角色表演进行1比1的还原。
目前,LipDub已经宣布了beta版,并预计在今年年底取得新的进展。除了好莱坞电影外,LipDub还扩展到了广告、在线教育、企业宣传片等多个领域,并聚焦于关注视频质量的高价值客户群体。在在线教育视频场景中,LipDub能够营造出真实的听众体验,仿佛说话人正在用自己的语言进行讲述。