才艺精湛、情感丰富、又美又飒……这样的AI虚拟人,你喜欢吗?
AI虚拟人几乎复刻了一个真实的人,其外形、表情、动作形态逼真,语调、语气、说话风格自然流畅,还能通过多感官实时关注和识别用户的情绪、表情、语气,根据对话内容及时作出反应。同时,利用人工智能技术实现人体从微观到宏观的结构和机能的数字化,可视化,最终达到将现实生活中的人精确的在数字世界中模拟构建出来。
随着人工智能技术的不断发展,每一次迭代新功能出现的AI虚拟人都会引来诸多关注的目光。甚至有观点预测,未来的AI虚拟人类将成为人类和机器之外的第三类的存在。
如今,AI虚拟人的时代已经到来,这其中的技术取得了哪些突破?在人工智能从感知智能时代向认知智能时代迈进的过程中,有哪些发力的方向又面临哪些挑战?
01
AI虚拟人时代已到来
“大家好,我是华智冰,从诞生起我就对文学和艺术很感兴趣,不仅能写诗作画,还会根据不用场景创作歌曲……”
近日,清华大学计算机科学系迎来了一位“特殊”的学生,作为中国第一位原创虚拟学生,华智冰以视频形式登台亮相,不仅惊艳了观众,也引发了广泛的关注。
除了华智冰外,今年5月,腾讯AI虚拟人艾灵再秀新技能,首次展示AI作诗、AI书法等国风才艺,还能一展歌喉,与歌手展开跨次元合作。
中国软件网根据公开信息整理
根据中国软件网不完全统计,仅今年以来,已有近10位AI虚拟人面世。其中,搜狗和科大讯飞推出的AI虚拟人侧重于新闻播报,甚至是可定制化的方言播报,将内容多元化与场景多元化有效结合,让新闻资讯更接地气,呈现千人千面的特点。
值得关注的是,技能得到显著升级也是近期AI虚拟人的一大特点。除了写诗作画、唱歌舞蹈外,在所有的对话式人工智能系统中,华智冰也是目前掌握交互数据最多的AI虚拟人。
02
AI虚拟人背后的技术革新
在人工智能高速发展的十年时间里,自然语言处理、计算机视觉及机器学习等技术都取得了重大突破。如今它已被多数人认可为最有可能深刻变革人类社会的颠覆性技术。
华智冰的才华背后离不开人工智能技术的支持。根据媒体报道,华智冰“脱胎”于中国“悟道”超大规模人工智能模型,其形象、声音,甚至“才艺”,都是通过该人工智能模型生成。
值得一提的是,目前新发布的“悟道2.0”达到了1.75万亿参数,可以同时处理中英文和图片数据。该模型还引入大规模的知识图谱,构建了数据与知识双轮驱动的人工智能框架,并通过这种框架分析、理解富含前沿技术信息的知识。正是依托这一模型,华智冰不仅可以作诗作曲、生成图画,还具有一定的推理和情感交互能力。
诞生在腾讯AI Lab的艾灵,背后也离不开机器学习、计算机视觉、自然语言处理等多种核心AI能力融合。艾灵具备的唱歌、表情、作词、书法等多项才艺,均来自于对海量数据的深度学习,这帮助她快速掌握更多技能,向全能AI不断接近。其中,美妙的歌声来源于腾讯AI Lab研发的DurIAN声学模型。写藏头诗的能力,来自文本创作模型SongNet。最新掌握的新技能书法,则是依托前沿的图像生成技术,通过训练AI书法学习模型,模仿书法的形体及神韵。
“现在的深度学习和机器学习,是在原有自动化规则上多了学习能力,即自己发现规律。换言之,由于人类很难发现规律中的细节,而AI可通过大量训练让电脑学习去发现内在规律及细节。”华为人工智能算法工程师张侗表示。
如今,AI技术已日趋成熟化和规模化。然而要真正实现通用人工智能,必然要将在视觉、自然语言处理等细分领域各自所针对的信息模态整合利用,即实现多模态融合。多模态融合的目标是建立在图像、文字、语音等的多模态信息识别的基础上,实现不同模态信息的统一表征框架,从而起到1+1>2的作用。
除了图文融合等跨域模态融合,同域内的不同信息维度同样可以融合,随着人工智能认知能力的提升,多模态融合也将会从图文等实质性模态,逐渐拓展到如物理关系,逻辑推断,因果分析等知识性模态,从感知智能迈向认知智能。
腾讯AI Lab的多模态虚拟人合成技术
03
人工智能从感知智能向认知智能迈进
虽然现有的AI虚拟人已较此前相比在专业技能等方面有了长足进展,新一代人工智能正在逐步从感知智能向认知智能转化。但从目前看,现有的认知智能研究刚刚起步,远远没有达到人类水平。
感知智能是指机器具备了视觉、听觉、触觉等感知能力,能将多元数据结构化,并用人类熟悉的方式去沟通和互动;而认知智能则是指从类脑的研究和认知科学当中来汲取灵感,并且结合跨领域的知识图谱进行因果推理与持续学习等,为机器赋予类似人类的思维逻辑和认识能力,特别是理解、归纳和应用知识的能力。
智源研究院学术副院长、清华大学教授唐杰认为,未来AI虚拟人不仅需要可持续学习能力,创造能力和推理能力也是同样重要的技能。这就需要AI虚拟人写诗、作画,甚至会回答一些数学问题,还会编程。
值得期待的是,对AI虚拟人进行情感能力的培养已在进行。如今人和世界的关系正在发生变化,从过去到现在是人和人的交互,从现在到未来则是每个人通过亿万个虚拟人类与世界发生交互。虚拟人类和人类之间的关系不是替代的关系,而是协同的关系。
在人工智能从感知智能向认知智能演进中,“数据+算力+算法=模型”是其显著特点,模型浓缩了训练数据的内部规律,是实现人工智能应用的载体。通过设计先进的算法整合尽可能多的数据,汇聚大量算力,并集约化地训练大模型供大量企业使用,已成为必然趋势。
与此同时,在新基建政策的导向下,新基建的核心是数字化基建,而数字化的核心除了互联网技术之外便是人工智能技术。在人工智能被摆放在首要位置的背景下,互联网巨头以及相关类型的公司都加大了在人工智能领域的投入。
例如,百度不仅计划在未来5年培养500万的AI人才,更推出包括对话式人工智能操作系统DuerOS等在内的多款人工智能类产品。科大讯飞、商汤科技等人工智能专业企业分别在智能语音技术、智能图像识别技术等领域加大研发,取得了重大突破。
此外,AI虚拟人在当前的发展中也面临着一些现实挑战:
第一是投入成本极高。以科大讯飞为例,科大讯飞2019年度研发投入金额为21.43亿元,较2018年增长了20.91%。换句话说,科大讯飞把超过五分之一的企业营收放在了研发上。这样的高成本、高投入、高研发促使人民日报首位虚拟主播“果果”和全球首个人工智能多语种虚拟主播“小晴”成功上线;
第二是场景单一。从目前的AI虚拟人看,大多数仅限于新闻播报、多语种播报、气象播报等单一场景,没有进一步的下沉推广;
第三是认可度较低。目前的AI虚拟人虽然才艺广泛,但还很难做到结合自身的理解和感受,即兴组织语言。同时,缺少情感互动,无法感知关怀、温暖,难以产生真正的共鸣。
总体来看,以人工智能为核心的新一代信息技术正在改变着各个领域,成为千行万业实现创新发展的新动能。但从AI虚拟人应用现状来看,如何降低研发成本,开发新的应用场景等方面,成为相关科技企业和科研院所亟需解决的难题。