在人工智能领域的又一里程碑事件中,中国人工智能学会揭晓了2024年度“吴文俊人工智能科学技术奖”,其中,京东科技人工智能团队凭借其“多模态交互式数字人关键技术及产业应用”项目,一举夺得该奖项的特等奖,成为本年度唯一获此殊荣的项目。
“吴文俊人工智能科学技术奖”,被誉为智能科技界的“奥斯卡”,旨在表彰在智能科学技术领域取得杰出成就的个人及项目。京东此次获奖,是继2021年和2022年连续两年在该奖项上有所斩获后,再次证明了其在AI技术研发与产业化应用上的领先地位。
京东科技人工智能团队的多模态交互式数字人技术,集成了语音、语义、形象等多模态技术,攻克了多项技术难题。他们提出的低成本、高保真人体建模技术,有效降低了人体建模的成本,并提升了视觉效果;语义一致多模态应答技术,解决了多模态语义对齐难、应答能力弱的问题;多模态自然化行为生成技术,则让数字人的行为更加多样且协调,增强了交互的真实感。
京东的多模态交互式数字人技术不仅在国际上处于领先水平,更在2024年率先实现了大规模商业化应用。目前,该技术已服务于超过9000家商家,为商家带来了超过140亿的销售增量。在京东618等大促期间,包括格力总裁董明珠、洁丽雅总经理石展承等在内的21位总裁数字人,空降京东直播间,创造了史上最大规模的数字人直播事件。
京东科技人工智能团队近期再度取得技术突破,打造了数字人通用的基座大模型。通过LiveTTS语音合成大模型和LiveHuman通用数字人大模型,仅需输入自然语言或1秒视频/照片,即可生成4K超高清、口型完全匹配的数字人。这一技术革新,使得数字人的制作不再依赖于线下拍摄、建模和耗时训练。
LiveTTS语音合成基座模型基于20万小时的数据训练,实现了“零样本”声音合成和多语种情感化输出,音色相似度远超其他厂商,字符错误率大幅降低。而LiveHuman数字人基座模型则通过创新性的人体过渡帧生成技术,解决了多片段衔接卡顿的问题,在复杂场景下仍能保持流畅表现。
这些技术突破使得单个数字人的生产成本从数万元降低至两位数,较真人拍摄模式成本降幅超过90%。数字人技术从专业工具转变为普惠生产力,为广告素材生成、新媒体投放、个人IP打造等场景提供了强大的技术支持,推动了数字人技术的工业级应用。
作为兼具实体企业基因和数字技术能力的新型实体企业,京东20多年来深耕供应链,利用人工智能等数智化技术全面优化社会生产、流通、消费、服务等环节。从提升零售效率到构建产业生态,京东始终致力于以实助实。截至2024年底,京东在基础科学和技术研发上已累计投入近1400亿元,推动了包括大语言模型、语音识别及合成、数字人在内的一系列人工智能关键技术的建设与应用,助力各行各业实现高质量发展。