腾讯开源语音数字人模型,一张照片+一段音频,生成高保真视频

江宇
腾讯混元重磅发布并开源了其最新的语音数字人模型——HunyuanVideo-Avatar。该模型由腾讯混元视频大模型(HunyuanVideo)及腾讯音乐天琴实验室MuseV技术联合研发,在AI视频生成领域实现了“一张照片、一段音频即可生成高质量唱歌或说话视频”的突破。

本文来自智东西(zhidx.com),来源 | 智东西AI前瞻,作者 | 江宇。

智东西AI前瞻5月28日消息,今日,腾讯混元重磅发布并开源了其最新的语音数字人模型——HunyuanVideo-Avatar。该模型由腾讯混元视频大模型(HunyuanVideo)及腾讯音乐天琴实验室MuseV技术联合研发,在AI视频生成领域实现了“一张照片、一段音频即可生成高质量唱歌或说话视频”的突破。

据官方介绍,HunyuanVideo-Avatar模型的核心亮点在于其高效的生成能力和出色的口型同步效果。它不仅能根据输入的音频精准驱动人物面部表情和唇形,还能保持视频中人物身份和形象的稳定性。

腾讯开源语音数字人模型,一张照片+一段音频,生成高保真视频

一、音乐情感与唇形同步,实现高保真数字人

HunyuanVideo-Avatar模型支持头肩、半身与全身多种景别,以及多风格、多物种与双人场景,为视频创作者提供了前所未有的创作自由。

用户只需上传人物图像与音频,模型即可自动理解图片与音频内容,例如人物所处的环境、音频所蕴含的情感等,并生成包含自然表情、唇形同步及全身动作的视频,让静态的人物图像“活”起来。

例如,上传一张女孩盘坐在森林的,身前是一团篝火的照片与一段歌曲,模型会理解到“一个女孩在森林空地上唱歌,她身前是一堆熊熊燃烧的篝火,火苗欢快跳跃,橘红色的火光映照在她身上,为画面增添了温暖的氛围”。

腾讯开源语音数字人模型,一张照片+一段音频,生成高保真视频

为了实现这一突破,HunyuanVideo-Avatar模型采用了多项创新技术,使其能够生成更自然、生动的数字人视频:

角色图像注入模块:这一模块解决了在生成视频时,如何既保持人物形象的高度一致性,又能让人物动作流畅自然的问题。它通过一种新颖的方式将人物图像的特征注入到模型中,避免了传统方法中可能出现的“僵硬”或不连贯的动作,从而显著提升了视频的整体质量。

音频情感模块(AEM):该模块能够识别音频中包含的情感信息,并将其精确地体现在数字人物的面部表情上。这意味着,如果音频表达的是“高兴”,数字人就能展现出相应的快乐表情,极大增强了视频的真实感和感染力。

面部感知音频适配器(FAA):针对多人物对话场景,该模块能够“识别”并“锁定”音频所对应的具体人物面部区域。通过这种“面部掩码”技术,模型可以独立驱动不同人物的唇形和表情,确保多人对话时,每个角色都能根据自己的音频进行精准、自然的表达,避免了不同人物之间动作互相影响的问题。

HunyuanVideo-Avatar模型提供了便捷的操作流程,用户无需专业技能即可进行数字人视频的创作。

用户可在腾讯混元官网上体验该模型的单主体功能,当前主要支持对单个数字人进行视频生成,整个操作流程非常简单。

上传一张清晰的人物照片和一段不超过14秒的音频,稍作等待,一段数字人视频就生成了。

值得注意的是,对于本地部署,这类AI视频生成模型通常对显卡有一定要求,推荐使用具备较高显存的GPU。此外,本地部署没有视频时长限制,但生成时长与显卡性能呈线性关系,即更长的视频生成需要更强的显卡支持。

目前,在线网页版支持生成最长14秒的数字人视频。

二、多项指标表现出色,达到行业领先水平

综合研究团队在论文中公布的实验结果,腾讯混元HunyuanVideo-Avatar模型在多项关键指标上展现了卓越性能。

在主体一致性、音画同步方面,HunyuanVideo-Avatar效果超越开闭源方案,处在业内顶尖水平;在画面动态、肢体自然度方面,效果超越开源方案,和其他闭源方案处在同一水平。

腾讯开源语音数字人模型,一张照片+一段音频,生成高保真视频

▲来自技术报告(https://arxiv.org/pdf/2505.20156)

具体来看,在音画同步(Sync-C)和身份保持(IP)方面,HunyuanVideo-Avatar在CelebV-HQ和HDTF数据集上的音画同步指标分别为4.92和5.30,优于Sonic、EchoMimic、EchoMimic-V2和Hallo-3等现有方法。

在全身测试集上,该模型在音画同步方面达到5.56,也超过了Hallo3、Fantasy和字节跳动旗下的OmniHuman-1。

用户研究结果进一步表明,在身份保持(IP)和唇语同步(LS)方面,HunyuanVideo-Avatar均获得最高评分(IP 4.84,LS 4.65),超越了Hallo3、Fantasy和字节跳动旗下的OmniHuman-1。

在画面动态(MD)和肢体自然度(FBN)方面,根据消融研究(Ablation Study)的结果,HunyuanVideo-Avatar在画面动态上达到了4.127,在VQ(视频质量)上达到4.16,优于其他两种注入模块方式。

在用户研究中,HunyuanVideo-Avatar在肢体自然度方面得分3.88,虽然略低于字节跳动OmniHuman-1的4.18,但仍优于Hallo3和Fantasy。

这表明该模型在保持人物动态自然度方面,已达到与领先闭源方案相近的水平,并超越了其他开源方案。

相较于传统工具仅支持头部驱动,HunyuanVideo-Avatar模型还支持半身或全身场景,显著提升了视频的真实感和表现力。

此外,该模型还支持多风格、多物种与多人场景,能够生成包括赛博朋克、2D动漫、中国水墨画,以及机器人、动物等多种风格的视频,拓展了数字人技术的应用范围。

三、赋能垂直应用,丰富内容生态

HunyuanVideo-Avatar模型适用于短视频创作、电商、广告等多种应用场景。

它可以生成人物在不同场景下的说话、对话、表演等片段,快速制作产品介绍视频或多人互动广告,有效降低制作成本,提高生产效率。

目前,HunyuanVideo-Avatar技术已在腾讯音乐的听歌陪伴、长音频播客以及唱歌MV等多个场景中得到应用:

在QQ音乐中,用户在收听“AI力宏”歌曲时,播放器上会实时同步显示生动可爱的AI力宏形象。

在酷狗音乐的长音频绘本功能中,AI生成的虚拟人形象将“开口说话”,为用户讲述童话故事。

在全民K歌中,用户可以通过上传自己的照片,一键生成专属的唱歌MV。

结语:数字人技术浪潮,未来已来

HunyuanVideo-Avatar模型的发布与开源,为数字人技术领域注入了新的活力。它通过简化数字人视频内容的生成流程,展现了拓展数字内容创作边界的潜力。

随着此类技术的不断发展和应用,数字人有望在未来的社会生产和日常生活中扮演日益重要的角色,为多个领域带来新的可能性。

THEEND

最新评论(评论仅代表用户观点)

更多
暂无评论