AI虚拟人“惊艳”亮相，多模态融合技术再起波澜

2021-06-18 10:12

网易新闻

企业服务部

AI虚拟人几乎复刻了一个真实的人，其外形、表情、动作形态逼真，语调、语气、说话风格自然流畅，还能通过多感官实时关注和识别用户的情绪、表情、语气，根据对话内容及时作出反应。

10cc1ff9abd24c50ba6b4889bf9e4457(1).jpg

才艺精湛、情感丰富、又美又飒……这样的AI虚拟人，你喜欢吗？

AI虚拟人几乎复刻了一个真实的人，其外形、表情、动作形态逼真，语调、语气、说话风格自然流畅，还能通过多感官实时关注和识别用户的情绪、表情、语气，根据对话内容及时作出反应。同时，利用人工智能技术实现人体从微观到宏观的结构和机能的数字化，可视化，最终达到将现实生活中的人精确的在数字世界中模拟构建出来。

随着人工智能技术的不断发展，每一次迭代新功能出现的AI虚拟人都会引来诸多关注的目光。甚至有观点预测，未来的AI虚拟人类将成为人类和机器之外的第三类的存在。

如今，AI虚拟人的时代已经到来，这其中的技术取得了哪些突破？在人工智能从感知智能时代向认知智能时代迈进的过程中，有哪些发力的方向又面临哪些挑战？

AI虚拟人时代已到来

“大家好，我是华智冰，从诞生起我就对文学和艺术很感兴趣，不仅能写诗作画，还会根据不用场景创作歌曲……”

近日，清华大学计算机科学系迎来了一位“特殊”的学生，作为中国第一位原创虚拟学生，华智冰以视频形式登台亮相，不仅惊艳了观众，也引发了广泛的关注。

除了华智冰外，今年5月，腾讯AI虚拟人艾灵再秀新技能，首次展示AI作诗、AI书法等国风才艺，还能一展歌喉，与歌手展开跨次元合作。

10cc1ff9abd24c50ba6b4889bf9e4457(1).jpg

中国软件网根据公开信息整理

根据中国软件网不完全统计，仅今年以来，已有近10位AI虚拟人面世。其中，搜狗和科大讯飞推出的AI虚拟人侧重于新闻播报，甚至是可定制化的方言播报，将内容多元化与场景多元化有效结合，让新闻资讯更接地气，呈现千人千面的特点。

值得关注的是，技能得到显著升级也是近期AI虚拟人的一大特点。除了写诗作画、唱歌舞蹈外，在所有的对话式人工智能系统中，华智冰也是目前掌握交互数据最多的AI虚拟人。

AI虚拟人背后的技术革新

在人工智能高速发展的十年时间里，自然语言处理、计算机视觉及机器学习等技术都取得了重大突破。如今它已被多数人认可为最有可能深刻变革人类社会的颠覆性技术。

华智冰的才华背后离不开人工智能技术的支持。根据媒体报道，华智冰“脱胎”于中国“悟道”超大规模人工智能模型，其形象、声音，甚至“才艺”，都是通过该人工智能模型生成。

值得一提的是，目前新发布的“悟道2.0”达到了1.75万亿参数，可以同时处理中英文和图片数据。该模型还引入大规模的知识图谱，构建了数据与知识双轮驱动的人工智能框架，并通过这种框架分析、理解富含前沿技术信息的知识。正是依托这一模型，华智冰不仅可以作诗作曲、生成图画，还具有一定的推理和情感交互能力。

诞生在腾讯AI Lab的艾灵，背后也离不开机器学习、计算机视觉、自然语言处理等多种核心AI能力融合。艾灵具备的唱歌、表情、作词、书法等多项才艺，均来自于对海量数据的深度学习，这帮助她快速掌握更多技能，向全能AI不断接近。其中，美妙的歌声来源于腾讯AI Lab研发的DurIAN声学模型。写藏头诗的能力，来自文本创作模型SongNet。最新掌握的新技能书法，则是依托前沿的图像生成技术，通过训练AI书法学习模型，模仿书法的形体及神韵。

“现在的深度学习和机器学习，是在原有自动化规则上多了学习能力，即自己发现规律。换言之，由于人类很难发现规律中的细节，而AI可通过大量训练让电脑学习去发现内在规律及细节。”华为人工智能算法工程师张侗表示。

如今，AI技术已日趋成熟化和规模化。然而要真正实现通用人工智能，必然要将在视觉、自然语言处理等细分领域各自所针对的信息模态整合利用，即实现多模态融合。多模态融合的目标是建立在图像、文字、语音等的多模态信息识别的基础上，实现不同模态信息的统一表征框架，从而起到1+1>2的作用。

除了图文融合等跨域模态融合，同域内的不同信息维度同样可以融合，随着人工智能认知能力的提升，多模态融合也将会从图文等实质性模态，逐渐拓展到如物理关系，逻辑推断，因果分析等知识性模态，从感知智能迈向认知智能。

腾讯AI Lab的多模态虚拟人合成技术

人工智能从感知智能向认知智能迈进

虽然现有的AI虚拟人已较此前相比在专业技能等方面有了长足进展，新一代人工智能正在逐步从感知智能向认知智能转化。但从目前看，现有的认知智能研究刚刚起步，远远没有达到人类水平。

感知智能是指机器具备了视觉、听觉、触觉等感知能力，能将多元数据结构化，并用人类熟悉的方式去沟通和互动；而认知智能则是指从类脑的研究和认知科学当中来汲取灵感，并且结合跨领域的知识图谱进行因果推理与持续学习等，为机器赋予类似人类的思维逻辑和认识能力，特别是理解、归纳和应用知识的能力。

智源研究院学术副院长、清华大学教授唐杰认为，未来AI虚拟人不仅需要可持续学习能力，创造能力和推理能力也是同样重要的技能。这就需要AI虚拟人写诗、作画，甚至会回答一些数学问题，还会编程。

值得期待的是，对AI虚拟人进行情感能力的培养已在进行。如今人和世界的关系正在发生变化，从过去到现在是人和人的交互，从现在到未来则是每个人通过亿万个虚拟人类与世界发生交互。虚拟人类和人类之间的关系不是替代的关系，而是协同的关系。

在人工智能从感知智能向认知智能演进中，“数据+算力+算法=模型”是其显著特点，模型浓缩了训练数据的内部规律，是实现人工智能应用的载体。通过设计先进的算法整合尽可能多的数据，汇聚大量算力，并集约化地训练大模型供大量企业使用，已成为必然趋势。

与此同时，在新基建政策的导向下，新基建的核心是数字化基建，而数字化的核心除了互联网技术之外便是人工智能技术。在人工智能被摆放在首要位置的背景下，互联网巨头以及相关类型的公司都加大了在人工智能领域的投入。

例如，百度不仅计划在未来5年培养500万的AI人才，更推出包括对话式人工智能操作系统DuerOS等在内的多款人工智能类产品。科大讯飞、商汤科技等人工智能专业企业分别在智能语音技术、智能图像识别技术等领域加大研发，取得了重大突破。

此外，AI虚拟人在当前的发展中也面临着一些现实挑战：

第一是投入成本极高。以科大讯飞为例，科大讯飞2019年度研发投入金额为21.43亿元，较2018年增长了20.91%。换句话说，科大讯飞把超过五分之一的企业营收放在了研发上。这样的高成本、高投入、高研发促使人民日报首位虚拟主播“果果”和全球首个人工智能多语种虚拟主播“小晴”成功上线；

第二是场景单一。从目前的AI虚拟人看，大多数仅限于新闻播报、多语种播报、气象播报等单一场景，没有进一步的下沉推广；

第三是认可度较低。目前的AI虚拟人虽然才艺广泛，但还很难做到结合自身的理解和感受，即兴组织语言。同时，缺少情感互动，无法感知关怀、温暖，难以产生真正的共鸣。

总体来看，以人工智能为核心的新一代信息技术正在改变着各个领域，成为千行万业实现创新发展的新动能。但从AI虚拟人应用现状来看，如何降低研发成本，开发新的应用场景等方面，成为相关科技企业和科研院所亟需解决的难题。

THEEND

免责声明：凡注明为其它来源的信息均转自其它平台，由网友自主投稿和发布、编辑整理上传，对此类作品本站仅提供交流平台，不为其版权负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。若有来源标注错误或侵犯了您的合法权益，请作者持权属证明与本站联系，我们将及时更正、删除，谢谢。联系邮箱：xiali@infoobs.com

本月热门

精选文章

第二届“天翼云杯”上海市大学生云计算应用大赛圆满收官

12月3日
2024（第七届）信息技术应用创新大会在京召开

7月27日
政府某单位大数据安全一体化运营建设

3月8日
深化“智改数转” 锻造新质生产力——2024数字化转型推进大会在京成功召开

6月28日
探馆智博会!带你体验重庆软件园的智能“黑科技”

8月25日
再传捷报，木仓科技荣获“人民交通突出贡献奖”

10月9日

热点资讯

智慧路灯全面普及对智慧城市建设具有重要意义

AI虚拟人“惊艳”亮相，多模态融合技术再起波澜

2025 信息化观察网

长按扫描二维码阅读原文