百度Hallo2视觉生成模型来袭,数字人等领域将迎来新变革?

   时间:2024-10-27 08:32 来源:天脉网作者:唐云泽

近日,科技界迎来了一项重大突破,百度携手复旦大学共同发布了Hallo2——一款能够生成长达数小时、分辨率高达4K的人物动画的视觉模型。这款创新技术的问世,迅速引起了全球开发者及科技爱好者的广泛关注。

Hallo2在GitHub平台正式开源,为全球开发者提供了免费使用和研究的机会。这一举措不仅彰显了百度与复旦在科技创新上的开放态度,更为视频生成技术的广泛应用和发展铺设了坚实的基石。项目地址:https://fudan-generative-vision.github.io/hallo2/

自Hallo2发布以来,其在海外科技界引发了强烈反响。许多人对视频生成的长度和分辨率表示惊叹,更有不少从Hallo第一代模型就开始关注的老用户,对Hallo2的升级和进步赞不绝口。开源模型和代码的公开,更是赢得了广泛认可与好评。

Hallo2之所以备受瞩目,关键在于其解决了人像视频生成领域的一大难题:如何在保证视频质量的同时,大幅提升生成时长。过去,制作高质量的人物动画往往需要耗费大量时间和人力成本。而Hallo2的出现,则有望彻底改变这一现状,为数字人、电影制作、虚拟助手、游戏开发等多个领域带来颠覆性的变革。

作为一款音频驱动的人像动画生成模型,Hallo2能够实现长达一小时、4K分辨率的视频生成。通过创新的图像块丢弃、噪声增强和时间对齐等技术,Hallo2成功解决了长时视频生成中常见的外观漂移和视觉不一致问题。同时,它还支持灵活的语音与文本控制,生成的动画质量达到了业内领先水平。

Hallo2在继承前代Hallo模型创新框架的基础上,采用了基于扩散的生成模型和分层音频驱动视觉合成模块。这一改进不仅提高了音频与视觉输出之间的同步精度,还使得各部分的协同作用更加高效,从而增强了生成动画的质量和真实感。Hallo2在图像和视频质量方面取得了显著提升,同时大幅增加了动作的丰富性和多样性。

行业专家指出,Hallo2的问世标志着音频驱动的肖像图像动画技术迈入了新的发展阶段。百度凭借其在视觉技术领域的长期积累,正瞄准行业痛点进行针对性研究和场景落地。这不仅为开发者提供了强大的工具,更为未来各种应用场景下的动画形象创作带来了无限可能。

 
反对 0举报 0 收藏 0
 
更多>同类天脉资讯
全站最新
热门内容
媒体信息
新传播周刊
新传播,传播新经济之声!
网站首页  |  关于我们  |  联系方式  |  版权隐私  |  网站留言  |  RSS订阅  |  违规举报