近日,科技界迎来了一项重大突破,百度携手复旦大学共同发布了Hallo2——一款能够生成长达数小时、分辨率高达4K的人物动画的视觉模型。这款创新技术的问世,迅速引起了全球开发者及科技爱好者的广泛关注。
Hallo2在GitHub平台正式开源,为全球开发者提供了免费使用和研究的机会。这一举措不仅彰显了百度与复旦在科技创新上的开放态度,更为视频生成技术的广泛应用和发展铺设了坚实的基石。项目地址:https://fudan-generative-vision.github.io/hallo2/
自Hallo2发布以来,其在海外科技界引发了强烈反响。许多人对视频生成的长度和分辨率表示惊叹,更有不少从Hallo第一代模型就开始关注的老用户,对Hallo2的升级和进步赞不绝口。开源模型和代码的公开,更是赢得了广泛认可与好评。
Hallo2之所以备受瞩目,关键在于其解决了人像视频生成领域的一大难题:如何在保证视频质量的同时,大幅提升生成时长。过去,制作高质量的人物动画往往需要耗费大量时间和人力成本。而Hallo2的出现,则有望彻底改变这一现状,为数字人、电影制作、虚拟助手、游戏开发等多个领域带来颠覆性的变革。
作为一款音频驱动的人像动画生成模型,Hallo2能够实现长达一小时、4K分辨率的视频生成。通过创新的图像块丢弃、噪声增强和时间对齐等技术,Hallo2成功解决了长时视频生成中常见的外观漂移和视觉不一致问题。同时,它还支持灵活的语音与文本控制,生成的动画质量达到了业内领先水平。
Hallo2在继承前代Hallo模型创新框架的基础上,采用了基于扩散的生成模型和分层音频驱动视觉合成模块。这一改进不仅提高了音频与视觉输出之间的同步精度,还使得各部分的协同作用更加高效,从而增强了生成动画的质量和真实感。Hallo2在图像和视频质量方面取得了显著提升,同时大幅增加了动作的丰富性和多样性。
行业专家指出,Hallo2的问世标志着音频驱动的肖像图像动画技术迈入了新的发展阶段。百度凭借其在视觉技术领域的长期积累,正瞄准行业痛点进行针对性研究和场景落地。这不仅为开发者提供了强大的工具,更为未来各种应用场景下的动画形象创作带来了无限可能。