“祛魅”深度学习,智能的贪婪和智能的脆弱

陈根
深度学习就像生物神经大脑的工作机理一样,通过合适的矩阵数量,多层组织链接一起,形成神经网络“大脑”进行精准复杂的处理。深度学习的出现,让图像、语音等感知类问题取得了真正意义上的突破。可以说,深度学习被引入机器学习,使其更接近于最初的目标——人工智能。

深度学习作为现今炙手可热的概念而得到学术界和工业界的广泛认可,但伴随这些进展而来的还有越来越多对深度学习的质疑。

机器学习是人工智能的一个重要分支,而深度学习则是机器学习发展到一定阶段的必然产物。

深度学习就像生物神经大脑的工作机理一样,通过合适的矩阵数量,多层组织链接一起,形成神经网络“大脑”进行精准复杂的处理。深度学习的出现,让图像、语音等感知类问题取得了真正意义上的突破。可以说,深度学习被引入机器学习,使其更接近于最初的目标——人工智能。

当前,以深度学习为代表的人工智能技术取得了飞速的发展,正落地应用于各行各业。但深度学习不是万能的,深度学习的局限性导致其在近几年的发展中进入了瓶颈。

纽约大学教授Gary Marcus曾经说,深度学习是贪婪、脆弱、不透明和浅薄的,而如何面对深度学习的贪婪、脆弱、不透明和浅薄,将决定深度学习在未来能否行稳致远。

2345截图20170601094617.png

深度学习走向爆发

20世纪50年代到70年代初,人工智能研究处于“推理期”。彼时,人们认为,只要能赋予机器逻辑推理能力,机器就能具有智能。但随着研究向前发展,研究人员们意识到,要使机器具有智能,就必须使机器拥有知识。在这一阶段,机器学习开始萌芽。

1952年,亚瑟·塞缪尔开发的跳棋程序,创造了“机器学习”这一概念,并将它定义为:“可以提供计算机能力而无需显式编程的研究领域”。机器学习旨在通过给机器一些原始的“学习资料”,让机器自动地学习如何判断和输出相应的结果。

机器学习的发展诞生了人工神经网络,而深度学习正源于对人工神经网络的研究。当前的深度学习系统就主要由神经网络的架构、算法以及结构化数据三大要素构成。其中,神经网络的架构是深度学习最基础也最必要的一环。网络架构的选择让深度学习以一种令给定算法可学习的方式来表示数据中的结构。

神经网络的架构主要包括前馈神经网络,循环网络和对称连接网络。前馈神经网络是实际应用中最常见的神经网络类型。第一层是输入,最后一层是输出,如果有多个隐藏层,即为“深度”神经网络。循环神经网络是一类以序列数据为输入,在序列的演进方向进行递归且所有节点(循环单元)按链式连接的递归神经网络。

对称连接网络与循环网络相似,只是单元之间的连接是对称的(在两个方向上的权重相同)。对称的权重限制了网络模型变化的可能性,从而也限制了网络的能力,但同时也使得其比循环神经网络更容易分析。

基于人工神经网络的深度学习也展现出过去人工智能不可比拟的优势。2013年初,在《麻省理工科技评论》发布的“十大突破性技术”中,“深度学习”就作为上榜技术赫然在列,评论也给出了3-5年内即将爆发的明确时间周期。

比如,在计算机视觉领域,深度学习的优势在于它能够直接从大型图像数据集中自动学习复杂且有用的特征,并且从神经网络模型的提供的图像中学习并自动提取各种层次的特征。

深度神经网络性能的显著提高也是深度学习领域迅速发展的催化剂。2012年,卷积神经网络AlexNet就以15.8%的top-5错误率获得了ILSVRC的冠军,而当年的第二名却以26.2%的错误率远落后于AlexNet。

根据ARK的研究,未来15-20年,深度学习将为全球股票市场增加30万亿美元的市值。此外,在很多方面,深度学习正在创造全新的下一代计算平台。2020年,拥有AI技术的智能音箱在世界范围内回应了1000亿条语音指令,比2019年增长了75%。

在自动驾驶方面,美国Waymo公司的自动驾驶汽车已经在包括旧金山、底特律和凤凰城在内的25个城市收集了超过2000万英里的真实驾驶里程。使用深度学习技术进行视频推荐的中国公司TikTok,也已经超越了Snapchat加Pinterest。

可以说,作为人工智能的一种形式,深度学习技术通过利用数据自动编写程序,正在为各行各业带来革命性的改变。

2345截图20170601094617.png

贪婪、脆弱、不透明和浅薄的深度学习

深度学习作为现今炙手可热的概念,其更好的性能得到了学术界和工业界的广泛认可,但伴随这些进展而来的还有越来越多对深度学习的质疑。深度学习暴露的越来越多的弱点正在引起公众对人工智能的关注,比如在无人驾驶汽车领域,它们使用类似的深度学习技术进行导航,就曾经导致了广为人知的伤亡事故。

Gary Marcus曾经指出,深度学习是贪婪、脆弱、不透明和浅薄的。

这些系统很贪婪,因为它们需要大量的训练数据。对于卷积神经网络的图像分类来说,卷积神经网络对物体的姿势并不敏感。如果要识别同一个物体,在位置、大小、方向、变形、速度、反射率、色调、纹理等方面存在差异,都必须针对这些情况分别添加训练数据。

可以说,尽管深度神经网络在许多任务中表现良好,但这些网络通常需要大量数据才能避免过度拟合。遗憾的是,许多场景无法获得大量数据,例如医学图像分析。

深度学习是脆弱的。当下,深度学习网络在做分类的时候,很难输出一个百分百肯定的结果,这也就意味着网络并没有完全理解这些图片,只能通过各种特征的组合来完成大概的预测。

一根香蕉,人工智能却能将其识别为烤面包机。即使它使用了在自动驾驶、语音理解和多种AI应用中表现出色的强大深度学习技术。也就是说,即便人工智能已经见过了几千张香蕉、蛞蝓、蜗牛和类似外观的图片,能够对新输入的图像预测其中物体的类别,但依然容易被误导。图像中只需要多一张贴纸,就能让系统的预测产生严重偏离。

而显然,不管人们用来训练的图片库有多大都是有限的,从而有些图片是没有在我们的训练库内的(对抗样本),这些图片很可能跟已有的图片具有极其类似的特征,从而出现将对抗样本完全分错类的情况。

深度学习是不透明的。与传统机器学习不同,深度学习并不遵循数据输入、特征提取、特征选择、逻辑推理、预测的过程,而是由计算机直接从事物原始特征出发,自动学习和生成高级的认知结果。虽然深度学习来自于人类的大脑的工作机制,但依然无法真正理解不同模型的各个参数的含义,从而导致整个深度学习网络成为了一个黑盒模型,除了一些超参以外,很难进行内部的调参。

2345截图20170601094617.png

而这个黑盒模型,不只意味着不能观察,还意味着即使计算机试图向我们解释,人们也无法理解——被描述为黑匣子的深层神经网络何时能够提供令人满意的答案,何时不能?应用深度学习系统时,将相应领域知识、约束条件和对称性考虑进来的最佳方式是什么?如何确定和量化训练和测试数据是否来自不同来源等都是深度学习需要回答却至今未答的谜题。

深度学习还是浅薄的。当下的深度学习网络大部分倾向于表征学习,而非真正的智能,很依赖于其训练数据,很难从有限的数据中学习到全局的东西。同时,在一些不断变化的情景下,这些网络也很难有很好的表现。

去年,OpenAI的GPT-3在外网走红。GPT-3作为著名人工智能科研公司OpenAI开发的文字生成人工智能,以天文数字级别的1,750亿参数量引发轰动。GPT-3是迄今为止最强大的语言模型,庞大的参数量也让GPT-3几乎无所不能,包括答题、翻译、写文章,甚至是数学计算和编写代码。

但GPT-3类似人类的输出和惊人的通用性只是优秀技术的结果,而不是真正的聪明。GPT-3的智能是天文数字级别的参数量和运算的叠加。

可以看见,虽然深度学习在各科学学科的研究中已经取得了巨大的成功,但深度学习在持守优势的同时,也有一定的局限性,包括数据的局限和智能的局限。

与此相对应的,就是为了突破局限而生的数据合成、迁移学习、3D对象理解等新生学科。任何领域的根本性进展和爆发必然要经历时间的考验,这些挑战是真实存在的,也正在被解释。

THEEND

最新评论(评论仅代表用户观点)

更多
暂无评论