马少平:聚焦人工智能发展的这60年

2017-11-24 08:59:50
朱柒柒
人工智能发展势头大好,每一步发展都备受全世界的关注,被誉为下一股技术浪潮的人工智能,正迎来快速发展的契机。中国人工智能学会副理事长,清华大学计算机系教授,博士生导师马少平带我们走进人工智能快速发展的这...

人工智能发展势头大好,每一步发展都备受全世界的关注,被誉为下一股技术浪潮的人工智能,正迎来快速发展的契机。中国人工智能学会副理事长,清华大学计算机系教授,博士生导师马少平带我们走进人工智能快速发展的这段历史。

中国人工智能学会副理事长,清华大学计算机系教授,博士生导师马少平

人工智能发展的四个阶段

人工智能发展到现在已经有60年时间,在这60年当中取得了一些成绩,在今天人工智能大火的时候,我们有必要简单回顾一下人工智能的进程。人工智能诞生人工智能起源于1956年达特茅思的讨论会上,在1950年图灵在论文中探讨了机器智能的问题,并提出了图灵测试,为什么1956年提出了人工智能的概念,实际上是跟计算机的出现有关,1946年出现计算机,到了1956年有了很大的发展,人们觉得在这样一个强有力的工具下,我们以前的智能机械这个梦想终于可以实现了,从此就诞生了人工智能这样一个新的方向。

在这60年当中,我们大体上可以把人工智能划分为这样四个阶段,我们下面回忆一下,首先在初期阶段,人民是比较乐观,当时研究的一些问题都是通用问题,其实在1956那次会上演示过一个计算机下棋的问题,人们很希望做出一个真正有智能的产品出来,但是由于人们对困难的估计不足陷入了困境,人们就来反思,为什么我们做的不成功,在这个反思过程中认识了知识的重要性,这样进入了人工智能发展的知识处理阶段。

在这个阶段工作性质就是专家系统,一个专家之所以能够很好解决本领域的问题,是因为他有这方面的知识,如果把专家的知识总结出来,让计算机去使用,根据这个知识进行推理,一个计算机也就可以像专家一样去工作了,所以这就是当时所谓专家系统,知识工程,主要是要人为的总结认识,让计算机使用这些知识处理问题。

很快发现一个问题,知识获取的瓶颈,发现知识获取并不是那么容易,在这样一种情况下,人们开始研究机器学习,希望让计算机通过自己学习来获取这个知识,来解决这种问题。这个主要就是一种以统计学习方法为主的一些技术,当时这个阶段的主要特征就是要人为定义这个特征,让计算机去提取这些特征,通过浅层的特征影射,来实现这样智能的目的。

但是这个特征,一方面要反映物质的本职,另一方面也要能计算机处理,这个特征的提取也并不是那么容易,比如说在语音识别,我现在说话大家都能听的懂,但是到底是哪些特征你决定了我在说什么,其实很难表达什么。

在这个时代,如何定义特征成为了这方面关键的问题,也陷入了一些困境。从2006年提出了深度学习这个概念之后,可以说我们进入了数据时代,直接从原始数据中利用深度学习技术,让这个系统计算机自动的提取特征,而且要提取不同层次的特征,有低层次的,也有比较高层次的,实现从特征深层分类,让计算机自动的提取特征,并且获得知识,最终解决问题,这个就是我们现在所处的以深度学习为基础的数据处理的时代。

由计算机处理知识到处理特征,到直接处理数据,可以认为人工智能是一步步发展,领域专家参与的越来越少,在知识处理时代需要领域专家直接参与,到现在数据时代,我们只需要根据数据不需要那么多的领域专家参与,可以体现了人工智能的进展。

深度学习存在问题

现在应用很多,也取得了一些成功的案例,现在几乎是深度学习的天下,但是深度学习是不是就是人工智能的全部呢?我认为也不是,我们看这些成功的例子都有一个特点,不能叫做单一数据,我们把它叫做单一数据,什么意思?我做语音识别的时候要很多的语音数据,但每一段语音对应的是什么内容,这是一一对应的,我要做一个汉字识别,到底是那个字也是一一对应,这里面没有别的内容。但是很多情况下有一下复杂数据,比如说在社交媒体当中,什么数据都有,就不是单一数据,我本人做有关搜索引擎有关的,里面的点击数量也有大量的东西在里面,所以也不是单一的,变成复杂的数据,深度学习不一定好用,还是要人的参与。

我举一个我自己的做的一个例子,叫做垃圾网页识别,通过做假的手段欺骗搜索引擎,这个会严重影响用户的体验,这就是一个例子,一搜这个迅速在下面一个,这个可能看不清楚,他是一个治疗青光眼的网页,为什么搜这个会出现这个,就是做网页的人采取了欺骗的手段骗了搜索引擎,这样会对用户体验非常不好。

以往对这个问题,各个搜索引擎都非常重视,但是这里面比较难办,就像计算机病毒一样,垃圾网页作弊手段层出不穷,很难找一个有效的手段,过去都是一事一议,像防计算机病毒一样,出一个杀一个。我们在做这件事情的时候就想,能不能找一个通用的办法,我们就从垃圾网页做的目的来着手,任何一个垃圾网页基本上都是通过欺骗搜索引擎欺骗用户,我们就想一个正常的用户对一个正常的网页跟一个垃圾网页行为是不一样的,所以我就想能不能基于群体用户的行为对这个网页,到底是正常网页还是垃圾网页进行识别,在这里面我们主要是要人为总结一些特征,比方说我搜清华大学的时候,如果你点击是清华大学正常网页,我会在上面看,会停留时间比较长,如果是一个作弊网页,跟清华没有关系就马上关掉,这是一个用户行为特征,如果是一个正常的清华大学网页,我可能还会进一步看计算机系的主页,而一个垃圾网页可能就不太会采取这样的行为。

一个垃圾网页主要是通过欺骗搜索引擎来欺骗用户点击,很少有用户直接用他的URL去访问,有多大比例,搜索引擎引导过来这也是一个特征,我们寻找几十个类似的特征,就采取传统的统计学习的办法就可以把这个问题经过建模以后解决,并且得到非常好的效果,最右下角0.915就是一个指标,我通过这个例子说明,我们很多情况下,可能传统的方法上也许会更有效,尤其是复杂性的问题,还是要把人的智慧参加进来。

深度学习本身其实现在也存在着一些问题,比方说大数据跟小样本,深度学习一定要用大数据,小样本很难做到,但是现实当中有些问题没有那么大的样本。另外一个问题是黑箱对可解释,基本上深度学习是一个黑箱的东西,把得出的东西我们很难解释,比如说一个应用,比如说做一个医疗诊断,我给你判断出什么病,你得给我点理由深度学习很难做到这一点。另外深度学习是一次性学习,学完以后就用,增加一个类别就很难,想增加一个类别必须重头推翻,重新训练。

还有所谓的固执己见,很难说让他改,是不是能够做到知错能改,要想改就得找出大量样本重新训练。还有一个问题,深度学习还一个猜测,做不到理解,跟我们人还是不一样,有一些人研究对抗样本找深度学习存在的漏洞,比如说对于一个能识别物体的,有人构造了这样一些图,给他识别错了,这样都完全识别错的,这就有理解的问题。

还有人做过这样的实验,左边两边都是熊猫,我们人看都是熊猫,不会认错,但是把中间故意弄一些噪声之后,这边识别成熊猫,那边就识别成别的,这都是因为猜测存在着一些漏洞,猜测造成的因素。

人工智能发展尚处在初级阶段

经过60年发展,到现在人工智能有了很大的进步,综合应用已有的方法确实可以解决一些复杂的问题,比如说像计算机围棋,在2015年之前基本上认为不可解决的问题,现在已经达到了一个非常高的水平。但是这是一个,第二个我就是说,人工智能也不是说单一方法能够解决的,除了现在大热的深度学习之外,其实还有很多逻辑,跟常识有关的方法,可能很多情况下需要不同的方法来解决,单一的方法可能是不行的,即便是说阿尔法狗,也是搜索加深度学习两种方法的结合,而搜索认为是传统的一种搜索技术,深度学习认为是一个比较新的技术,但是必须得把两个结合在一起用,才能够解决这样围棋的问题。

现在人工智能虽然已经发展的60年,但是可能还不够,我认为人工智能还处于莱特兄弟飞机的阶段,莱特兄弟时代飞机很简单,但是已经可以航行了,就跟人工智能可以解决一些实际问题一样,但是要从一个莱特兄弟的飞机发展到现在的喷气式飞机,中间有个理论上的东西叫空气动力学,在空气动力学的指导下才有喷气式飞机。

我们人工智能要想走到喷气式飞机这一步,我们可能还需要一个动力学,还学习空气动力,当然人工智能的空气动力学在哪里,还正在寻找当中,还需要大家的努力才能做到这一点。

收藏
免责声明:凡注明为其它来源的信息均转自其它平台,由网友自主投稿和发布、编辑整理上传,对此类作品本站仅提供交流平台,不为其版权负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。若有来源标注错误或侵犯了您的合法权益,请作者持权属证明与本站联系,我们将及时更正、删除,谢谢。联系邮箱:xiali@infoobs.com