腾讯开源语音数字人模型，一张照片+一段音频，生成高保真视频

2025-05-29 14:39

智东西

江宇

腾讯混元重磅发布并开源了其最新的语音数字人模型——HunyuanVideo-Avatar。该模型由腾讯混元视频大模型（HunyuanVideo）及腾讯音乐天琴实验室MuseV技术联合研发，在AI视频生成领域实现了“一张照片、一段音频即可生成高质量唱歌或说话视频”的突破。

本文来自智东西（zhidx.com），来源 | 智东西AI前瞻，作者 | 江宇。

智东西AI前瞻5月28日消息，今日，腾讯混元重磅发布并开源了其最新的语音数字人模型——HunyuanVideo-Avatar。该模型由腾讯混元视频大模型（HunyuanVideo）及腾讯音乐天琴实验室MuseV技术联合研发，在AI视频生成领域实现了“一张照片、一段音频即可生成高质量唱歌或说话视频”的突破。

据官方介绍，HunyuanVideo-Avatar模型的核心亮点在于其高效的生成能力和出色的口型同步效果。它不仅能根据输入的音频精准驱动人物面部表情和唇形，还能保持视频中人物身份和形象的稳定性。

腾讯开源语音数字人模型，一张照片+一段音频，生成高保真视频

一、音乐情感与唇形同步，实现高保真数字人

HunyuanVideo-Avatar模型支持头肩、半身与全身多种景别，以及多风格、多物种与双人场景，为视频创作者提供了前所未有的创作自由。

用户只需上传人物图像与音频，模型即可自动理解图片与音频内容，例如人物所处的环境、音频所蕴含的情感等，并生成包含自然表情、唇形同步及全身动作的视频，让静态的人物图像“活”起来。

例如，上传一张女孩盘坐在森林的，身前是一团篝火的照片与一段歌曲，模型会理解到“一个女孩在森林空地上唱歌，她身前是一堆熊熊燃烧的篝火，火苗欢快跳跃，橘红色的火光映照在她身上，为画面增添了温暖的氛围”。

腾讯开源语音数字人模型，一张照片+一段音频，生成高保真视频

为了实现这一突破，HunyuanVideo-Avatar模型采用了多项创新技术，使其能够生成更自然、生动的数字人视频：

角色图像注入模块：这一模块解决了在生成视频时，如何既保持人物形象的高度一致性，又能让人物动作流畅自然的问题。它通过一种新颖的方式将人物图像的特征注入到模型中，避免了传统方法中可能出现的“僵硬”或不连贯的动作，从而显著提升了视频的整体质量。

音频情感模块（AEM）：该模块能够识别音频中包含的情感信息，并将其精确地体现在数字人物的面部表情上。这意味着，如果音频表达的是“高兴”，数字人就能展现出相应的快乐表情，极大增强了视频的真实感和感染力。

面部感知音频适配器（FAA）：针对多人物对话场景，该模块能够“识别”并“锁定”音频所对应的具体人物面部区域。通过这种“面部掩码”技术，模型可以独立驱动不同人物的唇形和表情，确保多人对话时，每个角色都能根据自己的音频进行精准、自然的表达，避免了不同人物之间动作互相影响的问题。

HunyuanVideo-Avatar模型提供了便捷的操作流程，用户无需专业技能即可进行数字人视频的创作。

用户可在腾讯混元官网上体验该模型的单主体功能，当前主要支持对单个数字人进行视频生成，整个操作流程非常简单。

上传一张清晰的人物照片和一段不超过14秒的音频，稍作等待，一段数字人视频就生成了。

值得注意的是，对于本地部署，这类AI视频生成模型通常对显卡有一定要求，推荐使用具备较高显存的GPU。此外，本地部署没有视频时长限制，但生成时长与显卡性能呈线性关系，即更长的视频生成需要更强的显卡支持。

目前，在线网页版支持生成最长14秒的数字人视频。

二、多项指标表现出色，达到行业领先水平

综合研究团队在论文中公布的实验结果，腾讯混元HunyuanVideo-Avatar模型在多项关键指标上展现了卓越性能。

在主体一致性、音画同步方面，HunyuanVideo-Avatar效果超越开闭源方案，处在业内顶尖水平；在画面动态、肢体自然度方面，效果超越开源方案，和其他闭源方案处在同一水平。

腾讯开源语音数字人模型，一张照片+一段音频，生成高保真视频

▲来自技术报告（https://arxiv.org/pdf/2505.20156）

具体来看，在音画同步（Sync-C）和身份保持（IP）方面，HunyuanVideo-Avatar在CelebV-HQ和HDTF数据集上的音画同步指标分别为4.92和5.30，优于Sonic、EchoMimic、EchoMimic-V2和Hallo-3等现有方法。

在全身测试集上，该模型在音画同步方面达到5.56，也超过了Hallo3、Fantasy和字节跳动旗下的OmniHuman-1。

用户研究结果进一步表明，在身份保持（IP）和唇语同步（LS）方面，HunyuanVideo-Avatar均获得最高评分（IP 4.84，LS 4.65），超越了Hallo3、Fantasy和字节跳动旗下的OmniHuman-1。

在画面动态（MD）和肢体自然度（FBN）方面，根据消融研究（Ablation Study）的结果，HunyuanVideo-Avatar在画面动态上达到了4.127，在VQ（视频质量）上达到4.16，优于其他两种注入模块方式。

在用户研究中，HunyuanVideo-Avatar在肢体自然度方面得分3.88，虽然略低于字节跳动OmniHuman-1的4.18，但仍优于Hallo3和Fantasy。

这表明该模型在保持人物动态自然度方面，已达到与领先闭源方案相近的水平，并超越了其他开源方案。

相较于传统工具仅支持头部驱动，HunyuanVideo-Avatar模型还支持半身或全身场景，显著提升了视频的真实感和表现力。

此外，该模型还支持多风格、多物种与多人场景，能够生成包括赛博朋克、2D动漫、中国水墨画，以及机器人、动物等多种风格的视频，拓展了数字人技术的应用范围。

三、赋能垂直应用，丰富内容生态

HunyuanVideo-Avatar模型适用于短视频创作、电商、广告等多种应用场景。

它可以生成人物在不同场景下的说话、对话、表演等片段，快速制作产品介绍视频或多人互动广告，有效降低制作成本，提高生产效率。

目前，HunyuanVideo-Avatar技术已在腾讯音乐的听歌陪伴、长音频播客以及唱歌MV等多个场景中得到应用：

在QQ音乐中，用户在收听“AI力宏”歌曲时，播放器上会实时同步显示生动可爱的AI力宏形象。

在酷狗音乐的长音频绘本功能中，AI生成的虚拟人形象将“开口说话”，为用户讲述童话故事。

在全民K歌中，用户可以通过上传自己的照片，一键生成专属的唱歌MV。

结语：数字人技术浪潮，未来已来

HunyuanVideo-Avatar模型的发布与开源，为数字人技术领域注入了新的活力。它通过简化数字人视频内容的生成流程，展现了拓展数字内容创作边界的潜力。

随着此类技术的不断发展和应用，数字人有望在未来的社会生产和日常生活中扮演日益重要的角色，为多个领域带来新的可能性。

THEEND

免责声明：凡注明为其它来源的信息均转自其它平台，由网友自主投稿和发布、编辑整理上传，对此类作品本站仅提供交流平台，不为其版权负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。若有来源标注错误或侵犯了您的合法权益，请作者持权属证明与本站联系，我们将及时更正、删除，谢谢。联系邮箱：xiali@infoobs.com

本月热门

精选文章

热点资讯

Meta 被曝拓展实体零售网络，挑战苹果零售帝国

腾讯开源语音数字人模型，一张照片+一段音频，生成高保真视频

2025 信息化观察网

长按扫描二维码阅读原文