人工智能让每个人都能读懂唇语

2018-08-09 09:21

中国科学报

唐一尘

解读唇语是非常复杂的工作，人类在日常说话过程中嘴唇的微小移动是很难被可靠地解读，对于失聪者来说，其平均准确率也仅为52.3%。如今，研究人员已编写了一种新的人工智能程序，其准确率十分高，可帮助每位失聪者读...

解读唇语是非常复杂的工作，人类在日常说话过程中嘴唇的微小移动是很难被可靠地解读，对于失聪者来说，其平均准确率也仅为52.3%。如今，研究人员已编写了一种新的人工智能程序，其准确率十分高，可帮助每位失聪者读懂唇语。

“这是一项了不起的工作。”未参与该研究的英国伦敦玛丽皇后大学计算机科学家Helen Bear说。

编写可以阅读唇语的计算机代码令人抓狂。因此，在新研究中，科学家向机器学习“求助”，让计算机从数据中学习。他们为该系统提供了数千小时的视频和抄写本，并让计算机自己解决这个问题。

该项目始于14万小时的YouTube视频，视频展示了人们在各种情况下进行的交谈。然后，研究人员设计了一个程序，通过每个音素或单词声音的嘴部动作创建几秒钟的剪辑，并带有标注。该程序过滤掉了非英语语音、非讲话者面孔、低质量视频和未直接拍摄的视频。然后，他们裁剪了讲话者嘴巴周围的视频。这样产生了近4000个小时的录像，包括超过12.7万个英文单词。

没有参与该研究的美国哥伦比亚大学计算机科学家Hassan Akbari说，这个过程和由此产生的数据集比同类数据集大7倍，对于任何想要训练类似系统阅读嘴唇的人来说都是“重要且有价值的”。

此外，该过程部分依赖于神经网络。AI算法包含许多连接在一起的简单计算元素，这些元素以类似人脑的方式学习和处理信息。当研究人员为该系统提供未标记的视频时，这些网络会裁剪嘴巴动作片段。系统中的下一个程序也使用了神经网络，为每个视频帧提供了可能的音素列表及其概率。最后一组算法将可能的音素序列进行整理，并生成了英语单词序列。

经过训练，研究人员用它之前没有看过的37分钟的视频测试了该系统。他们在发布于arXiv网站的论文中报告说，单词错误率仅为41%。

这个成绩可能听起来并不怎么样，但之前最好的算法——专注于单个字母而不是音素——的错误率为77%。在同一项研究中，专业唇读者的错误率为93%（尽管在现实生活中他们能参考语境和肢体语言，这有助于读唇）。这项工作由总部位于伦敦的人工智能公司DeepMind完成，但该公司拒绝就这一记录发表评论。

Bear表示，该程序对音素的理解可能看起来不同，具体取决于之前和之后所说的内容。（例如，在说“boot”中的“t”时，嘴的形状与说“beet”中的“t”不同。）系统有单独的阶段预测嘴唇形状代表的音素和通过因素预测单词。这意味着如果想教系统识别新的单词，你需要重新训练最后一个阶段。但她说，这个AI也有弱点：它需要清晰、直白的视频，41%的错误率远非完美。

Akbarni表示，将程序整合到一部手机中可以让听力障碍人士随身携带“翻译”。这样的翻译也可以帮助那些不能说话的人，例如声带受损者。对于其他人来说，它可以简单地帮助解析各种聊天。

这种技术也可应用于其他程序，例如分析安全视频、解释历史镜头，或在音频下降时听到Skype伙伴的语音。新的AI方法甚至可以回答世界上最大的一个谜团：在2002年世界杯决赛中，法国足球运动员齐达内因用头部顶撞对手而被红牌罚下。他显然是被对手的脏话所激怒，但他说了什么？我们也许可以揭开谜底了。（唐一尘编译）

（原标题：读唇用上人工智能）

THEEND

免责声明：凡注明为其它来源的信息均转自其它平台，由网友自主投稿和发布、编辑整理上传，对此类作品本站仅提供交流平台，不为其版权负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。若有来源标注错误或侵犯了您的合法权益，请作者持权属证明与本站联系，我们将及时更正、删除，谢谢。联系邮箱：xiali@infoobs.com

本月热门

精选文章

热点资讯

解决互联网保险投诉的方法

人工智能让每个人都能读懂唇语

2026 信息化观察网

长按扫描二维码阅读原文