专访 | AutoX创始人肖健雄:让自动驾驶变的和电脑一样普及

机器之心
佚名
出走学界、仍是商界新人的肖建雄,正用十分之一的成本构建自动驾驶解决方案。 从教授到企业家,肖健雄对新身份适应的很快。 33 岁的肖健雄以企业家身份入选了今年 MIT Tech Review——35 Innovators...

出走学界、仍是商界新人的肖建雄,正用十分之一的成本构建自动驾驶解决方案。

从教授到企业家,肖健雄对新身份适应的很快。

33 岁的肖健雄以企业家身份入选了今年 MIT Tech Review——35 Innovators Under 35,这是由美国科技媒体 MIT Tech Review(麻省理工大学科技评论,创办于 1899 年)自 1998 年创立的一项年度科技人物评选,旨在表彰全球 35 岁以内最杰出的 35 位创新人士。

肖健雄所获得的荣誉归类于榜单中的杰出创业者(Entrepreneurs),相比于同类入选者,例如美国一流生物科技公司 Caribou Biosciences 创始人 Rachel Haurwitz,亦或是市值超过 30 亿美元的柔宇科技创始人刘自鸿,肖健雄还是个商界新人,2016 年 10 月,他正式创办了研究自动驾驶技术的企业 AutoX。

2017 年 2 月,在一场由丹华资本和斯坦福华人创业者协会主办的斯坦佛 AI 活动中,肖健雄介绍了他的自动驾驶公司 AutoX。

在随后的半年时间里,AutoX 获得了加州自动驾驶牌照,其无人车已经能在硅谷的车水马龙间穿梭自如。在今年三月披露的首款测试视频中,AutoX 摒弃了市面上的主流传感设备,仅依靠低成本的摄像头,实现了无人车在不同天气情况下的路面行驶。

这是 MIT Tech Review 看好肖健雄的重要原因,也让 AutoX 成为这项榜单自创立 20 年以来的第一家自动驾驶公司。MIT Tech Review 的科技主编 Will Knight 认识肖健雄已久,他认为:「肖健雄旨在将无人车变的和计算机一样普及」。

在成为企业家之前,肖健雄拥有璀璨的学术生涯―― 2012 年世界顶尖计算机视觉大会 ECCV 最佳学生论文奖获得者;2012 年 Google Research 最佳论文奖获得者;普林斯顿计算机视觉和机器人实验室创始人;两度获得 Google Faculty Awards;美国国家自然基金委员会研究奖……

不过,入选 35 Innovators Under 35 对肖健雄有着不同的意义,「这是我第一次在商业上得到认可。」

拓荒三维深度学习

肖健雄热爱计算机科学,聊到人工智能(AI)时,他整个人都兴奋了起来,「人类能造车、造机械,什么都有,但最缺智能化,AI 是很神奇的。」

同时,他又是一个很直观、喜欢视觉的人。个人喜好引领他在十多年前就读本科期间选择了计算机视觉――一种数学和工程学的结合体。肖健雄在读博士之前就读于香港科技大学,学习三维视觉重建,师从该校计算机科学与工程学的终生教授权龙,他是三维视觉的学术权威。

在港科大分别完成本科和硕士学位后,肖健雄进入麻省理工大学(MIT)。他在 2012 年获得的 ECCV 最佳学生论文奖,是在谷歌实习期间的作品《重建世界上的博物馆》(Reconstruct the world‘s museum )。这是一篇有关室内场景重现的经典论文――用 Google 街景相机,在博物馆内部拍照,继而重现博物馆的内部三维构造。

在 MIT 的 4 年,肖健雄已经开始琢磨如何将深度学习和三维视觉结合在一起。当时,深度学习之父 Geoffrey Hinton 和他的学生 A Krizhevsky 在 NIPS(神经信息处理系统进展大会)递交的那篇经典论文《ImageNet Classification with Deep Convolutional Neural Networks》,让卷积神经网络大放异彩,深度学习也迅速地在计算机视觉领域普及,这对肖健雄的影响很大。

毕业后,肖健雄加入普林斯顿大学视觉研发团队,开始着手研究一个新领域――三维深度学习。深度学习被证明在一维(语音)和二维(图像)上有着显著的效果,但将深度学习模型应用在三维数据(点云、深度图像、网格)的深度特征表示,是在最近几年才开始慢慢流行起来。

近三年,肖健雄发起或参与了几乎所有关于三维深度学习的研究——参与发布目前最大的公共三维数据集(三维数据里的 ImageNet)ModelNet 和 ShapeNet ;创建了研究三维深度学习的基础网络框架 Marvin,为后来者做了铺垫;推出 3D 卷积网络 Deep Sliding Shapes,在 RGD-D 图像中研究三维物体的特征……值得一提的是,Marvin 的所有权如今属于 AutoX。

「这个领域是我们创建的。」提起三维深度学习,肖健雄毫不掩饰内心的骄傲。

由于该领域技术在自动驾驶中有可观的应用前景,原本相对独立的三个领域——计算机视觉、深度学习和机器人找到了应用的结合点。这种趋势在近几年愈发明显,今年,机器人学术圈正在筹办一个全新的顶级大会,取名「机器人学习大会(Conference of Robotics Learning)」,以此推广机器人和机器学习的相关研究。肖健雄受邀成为第一届大会的领域主席(Area Chair)。

不难理解,当肖健雄在 2016 年离开普林斯顿大学后,一条知乎评论写道,「肖教授走了,普林斯顿视觉岂不是又没人扛把子了。」

入局自动驾驶

「我觉得这个(企业家)可能更适合我。」对肖健雄来说,创业和做学术更像是一个数学问题。「做创业,90% 会失败;做学术,90% 会成功。」

初见肖健雄,一如照片上的样子:白衬衫,深蓝色的西装裤,棕色的尖头皮鞋,梳着整齐的飞机头,戴着一副眼镜,文质彬彬。他出生在广东潮州,和马化腾、李嘉诚是老乡。他的家里人,包括爷爷奶奶、父母、姐姐,都是商人。

Credit by MIT Tech Review

早在 2013 年,肖健雄就有了创业的念头,但没有迈出那一步。在他看来,刚刚从 MIT 毕业,花 4 年时间读完计算机科学的博士学位,在技术层面还达到通透的程度。此外,当时也没有多少人真正相信无人车的前景。

学术圈有完整的体系和硬件支持。对计算机科学家而言,创新点往往在算法上,对商业模式和应用场景,甚至工程计算平台和计算,都基本不加考虑。肖健雄之前在学术界从事过 40、50 个项目,对纯发表学术论文渐渐失去激情。每个学术项目的周期都很短,能取得的进展也很有限,如同经历一个又一个小的循环,成就感自然不如自己开公司。

三年后,情况扭转。肖健雄从普林斯顿大学辞职,离开美国东海岸的新泽西州来到硅谷。知乎有人评价肖健雄创业,是典型的「学而优则商」。但真正踏出那一步,说服自己的内心,需要勇气。肖健雄是一个喜欢冒险的人,「这项创业是我一辈子做到现在最大的一件事情,也是最激动的事情。」

事实上,2016 年也是一个入局的好时间。此前,肖健雄一手创办了普林斯顿大学的计算机视觉和机器人实验室,掌握了自动驾驶的核心视觉技术。

另一方面,自动驾驶市场也日趋成熟,成为如今人工智能在应用领域里最炙手可热的一块蛋糕,传统车厂和互联网新贵都在全面押注自动驾驶。就在上周,三星也获得了加州道路上测试自动驾驶汽车的许可,正式进入这片群雄逐鹿的战场。

自动驾驶分 5 个等级区分,这是由 SAE International(美国国际汽车工程师协会)制定的行业标准(美国交通部下属的国家高速路安全管理局也制定了一套划分,从 2016 年 9 月统一使用 SAE International 的分类标准),这 5 个等级从最初级的 L1 辅助驾驶出发,到 L5 已经是完全智能化驾驶的水平。

目前,主流的自动驾驶解决方案将目标钉在 L3(高度自动驾驶,由人类负责激烈的驾驶情况)和 L4(超高度自动驾驶,由系统负责激烈的驾驶情况)。在 2020―2023 年间,自动驾驶车辆能够在特定的路段,比如城市街道、高速公路上行驶。至于 L5 什么时候来临,有业内人士预计是 2030 年,持悲观态度的人甚至认为 L5 可能永远不会到来。

「实现完全无人驾驶没有这么快,有些初创公司完全押宝在完全无人驾驶,我觉得这个商业模式非常危险,我不清楚接下来五年他们怎么生存。」肖健雄说,但他仍然希望尽快普及无人车,让自动和辅助驾驶技术在某些领域尽快造福人类,而不用等到完全无人驾驶乘用车的到来。AutoX 宣传口号也是 Democratizing Autonomy(普及无人车),而他准备从摄像头入手。

挖掘摄像头的潜力

作为重要的自动驾驶传感器,摄像头主要是用于目标识别和对象跟踪任务,如车道检测、交通信号灯检测、行人检测等。

完全基于摄像头的自动驾驶解决方案在市面上并不多见。Mobileye 算是自成一派,这家创立于 1999 年的公司致力于研究基于视觉的辅助驾驶科技,目前主要面向 L1/L2 等辅助驾驶;特斯拉也曾是 Mobileye 的用户,但因为一场事故,两家分道扬镳,现在正独立研发基于摄像头、前向雷达、超声波雷达和 GPS 数据的全自动驾驶方案。

虽然市面上真正在销售的几乎全部辅助驾驶产品都是基于摄像头,市场上常常有质疑摄像头安全的声音。相比之下,一些汽车厂商们更青睐于能够主动探测的激光雷达,后者不会受到视线的限制,通过反射光波测量反射时间来确定和物体之间距离,精度高。

肖健雄并不排斥激光雷达,但他始终认为,在目前这个阶段,摄像头应该扮演传感器中的主角。从今年三月公布的首支无人车测试视频来看,他们使用改造自林肯 MKZ 的原型车,装载 7 个单目摄像头,成功地在晴天、小雨、晚间、晚间多云这四种天气情况下行驶无人车。在肖健雄看来,「摄像头的潜力被大大低估了,理论上,摄像头可以做到比人眼还厉害。」

AutoX 种子轮投资方丹华资本的董事总经理万卉,在年初体验了最早的 Demo。她告诉记者,在创立 2 个多月的时间里,AutoX 成功让仅有两个低端摄像头的无人车在城市街道行驶,「这种强大执行能力给人留下深刻印象。」

万卉看好摄像头为主、传感器融合为辅的自动驾驶解决方案,「基于高端激光雷达与三维高清地图的解决方案始于 13 年前的 DARPA(美国国防部高级研究计划局)挑战赛,该架构有其历史包袱与局限性。人类不会发射激光,也不需要提前记录下道路上每一个细节,我们可能会迷路,但仍能安全驾驶。」

为了提高摄像头的安全性,AutoX 下了很大功夫。硬件上,装在 AutoX 无人车上的 7 个单目摄像头,是从 AutoX 团队购买的 300 多种摄像头中所甄选出来的,但依然没有完全符合要求。肖列举了一长串摄像头标准,包括符合车规硬件标准、自动化、高动态范围成像、夜视以及算法需求等。

但这不会造成太大的麻烦,伴随手机市场过去 10 年的发展,摄像头工艺也跟着突飞猛进,厂商有能力制造出满足需求的摄像头。「我们知道需要什么,我们可以让厂商提供定制。不是他们做不出来,是从来没有人和他们提过。」肖健雄说。

软件上,基于摄像头的解决方案对算法的鲁棒性要求很高。这是 AutoX 的优势,除了肖健雄外,公司 20 多人都来自美国顶级的高等院校或谷歌、微软、Facebook。

除了技术层面,成本也是一个重要的考量因素。到 2019 年,AutoX 将提供基于摄像头的 L2.5/L3 自动驾驶软件解决方案。作为创业者,肖需要盘算自动驾驶在商业上的可行性。动辄上万美元的激光雷达,直逼一辆乘用车的市场价,相比之下,几十美元的摄像头就变得无足轻重了。

「我们现在主要是以摄像头为主,然后把摄像头的软件模块提供给感兴趣的汽车厂商。」肖健雄没有披露更具体的应用场景,但提到了两种适合 AutoX 的切实可行的落地方式:第一种是特殊场景,比如物流运货、机场巴士等在限定路线和区域内的完全无人驾驶;第二种是半自动化驾驶,即在乘用车上实现 L2/L2.5/L3 的水平。

肖健雄从内心觉得,这是一件正在改变社会的事情。正如他人尽皆知的外号 Professor X 所代表的另一个人物——查尔斯教授(Charles Francis Xavier,漫威漫画 X 战警里的重要角色),「不是因为这个角色有什么超能力(才厉害),而是能集结社会中的能人异士去做一件很难但对社会有贡献的事情。」

以下是肖健雄和我们探讨关于无人车技术的内容:

机器之心:AutoX 具体使用的是哪款摄像头?

肖健雄:具体的摄像头我们没有定,我们大概买了 300 种摄像头。单目双目都有用,双目的其实就是两个单目的同步起来。RGB-D 没有看到一个特别好的,因为 RGB-D 用不了就得靠 Lidar。传统的 Kinect 和红外线不能看太远,会受到阳光的影响,白天开车阳光照射,有很大的干扰。所以基本上就没有很多选择,就用单目相机。

机器之心:你认为可以通过摄像头解决一切安全问题吗?

肖健雄:如果说不计成本快速实现无人车,当然什么传感器都上。科学上,你加多一点传感器肯定好过没有,就算它再差,但最起码多一层保险总好过没有,但这是科学上的。实际商业上,不可实现的。因为你加很多传感器,价格非常昂贵,最后没有任何经济价值。无人车比雇几个全职的驾驶员还贵的话,那就没有意义了。

第二个硬件也没有准备好。更多东西,就有更多风险,比如说有了不同的东西,每一个都可能失败,一个失败就不稳定了。做实验的时候,因为工程师在那里检测半天那可能不会有什么问题,但现在如果是真正商用,把车真正交给用户,什么千奇百怪的事情都会发生。如果质量不好,任何一个传感器失效了,那都会出事。

汽车行业这么多年一直在测试稳定性,它们做的东西其实就是刹车油门方向盘,但为了这么简单的机械工艺,它们还进化了上百年才能把将它提升到一个很高的安全系数上。今天的方向盘已经安全多了,今天的像 Abs(防抱死),提升整个系统的安全性能,也是迭代很多年才进化到今天这个地步。软件迭代升级的速度可以很快,但是硬件(传感器)升级的速度是需要一个很多年的过程。系统里如果加入了越多的东西,不完美的可能性就越高。

AutoX 无人车的测试视频截图。

机器之心:怎么克服一些摄像头中的弊端?比如说过度曝光,比如这种弱光环境,咱们只是在算法上做一些调整吗?

肖健雄:对摄像头也有一定的要求,不全是算法。当然算法要非常好,非常鲁棒,这是必须的,这是我们的技术优势。

摄像头方面,一个就是强曝光的 High Dynamic Range(高动态范围成像),HDR 的要求是非常高;其次就是夜视。其实相机理论上可以做到比人眼还厉害,但是因为现在没有大量这种需求,只有少数人用它,自然就没有生产这个。

机器之心:摄像头到处理器的带宽要求很高吗?

肖健雄:这个带宽要求挺高的。一般现在的技术都已经承受了,比方说 USB 是很糟糕,但 USB 已经非常快。比方说在工业界,大家用 GMSL 来,这个是符合车规级的一个连接。现在很多特别新的电动汽车厂,他们一直在推 automotive ethernet(汽车以太网),我觉得这也是非常好,因为自动化,以前就是用 CAN BUS,这是个非常老的、非常糟糕的 protocol bandwidth(协议带宽)。

机器之心:深度学习在 AutoX 整个决策过程中扮演什么角色?

肖健雄:我觉得深度学习非常重要,我们在各个方面、各个角落都用到深度学习。很多公司整天把深度学习当回事,把它当广告词。但我觉得深度学习有点像 C++,非常底层,不是说它不好,而是说它非常好,好到一定程度被普及,就变成了常识,所以没有必要强调了。

机器之心:AutoX 的解决方案会是端到端的吗?就是把摄像头的数据直接输入到一个模型里,然后来做决策?还是会分权?

肖健雄:我们在 ICCV 年发表过一篇文章,里面有详细比较过,说这个端到端的效果不是很好。你可以想象一下这个数据要求是非常高的,就比如同一条路的车都不一样,那么多辆车,排比组合都不一样的话,每一个都得要训练数据。下次再换条路开,我觉得可变性太大,导致端到端需要用作训练的数据量非常大,可能是整个人类开车一两千年的数据量。

机器之心:AutoX 会用哪种处理器?会用 GPU 来大量处理这些数据?

肖健雄:现在还没有定下来,因为没有一款成熟的处理器可以用。我们和各大厂商都有接触,和英特尔、NVIDIA、MTK 和高通有紧密的关系。我觉得问题就是目前这四个厂商都没有任何一个真正能可靠的、能用的处理器。但是我相信很快就会有很好的处理器面世。

机器之心:您觉得芯片定制化会是自动驾驶的一个方向?

肖健雄:不一定是定制。比如说像卷积神经网络,基本操作就是卷积。不管使用 GPU、 FPGA 还是更定制化的芯片,都是为了实现卷积。如果有芯片 ASIC 或者 FPGA 出来就是卷积,会有更好的效果,用通用芯片我认为是一种资源的浪费。关于卷积在自动驾驶中的作用,一开始大家不清楚是不是卷积,逐渐达成共识后,甚至芯片都可以定制化到卷积。

不一定是定制,比方说像卷积神经网络,基本操作就是卷积。它可以把卷积定制化。现在神经网络只有卷积,其实根本不用 GPU,GPU 是通用编程。不如在 ACIS 出来或者 FPGA 出来就是卷积,我觉得这是一种资源的浪费。所以一开始大家不清楚是不是卷积,那现在基本上大家都同意到只有几种类型的车,那这时候甚至以后的芯片都可以定制化到卷积。

机器之心:不同汽车之间,数据可以互相通用吗?比如说卡车上的视觉数据也能用在训练一个小汽车上面。

肖健雄:可以,但那不是完全通用。但是 90% 可以。

机器之心:但是,拍摄的角度包括摄像头的位置都会有很大不同。

肖健雄:所以我就说 90% 可以(通用),为什么?你的算法要够鲁棒,设计时还要多加一些变化,万一摄像头稍微动了一下,怎么办?这些数据可以增强它们的鲁棒性、独创性,但之后在某一款车型上你还是需要大量定制,所以我觉得需要通用和定制的结合。这也是我们的策略。我们未来的产品可能会有各种形式,然后有一个 centralized(集中)的 dataset(数据集),训练好之后,为每个厂商的每个产品进行定制,确保用户体验在那个环境里是最优的。既不是 one fits all,也不是说完全不共享。

机器之心:摄像头怎么和 HD Map(高清地图)一起工作?Lidar(激光雷达)和 HD Map 合作的比较多,摄像头有哪些优势或者缺点?

肖健雄:优势很明显,就是能够在几年内快速落地产品化,因为价格便宜,然后硬件制造也容易实现。我觉得称不上缺点,大家没做过,像 Mobileye 做过,其他很多厂商做得都比较少。事实上,我们内部发明了许多基于摄像头的定位技术。没人做只能说,难度比较大。还有就是盲目崇拜 Lidar。其实,Lidar 在定位方面也有局限性,比如说一个最极端的状况,试想在一个很大的操场,Lidar 只能看一百米,因为操场很大,超过一百米的半径,你的车在中心的时候,周围一圈扫起来都是平面,什么都没有,没有树也没有房子,这时候理论上就是不可能用 Lidar 做到精确定位。很多人没意识到这个极端状况,国内很多地方是大路十条道,还有交叉路,很像广场,除了地面什么形状都没看到,很难定位。我觉得美国这些居民小区、旁边有楼的还可以用 Lidar 定位。

另外,高清地图每两个月扫一下,但像山间、林间小路里,树会长大、会落叶,比如说在 MIT,东部一到秋天叶子两星期内全部落完了,然后高清地图上次扫的是有叶子,这种情况下,如何对齐就不是很清楚。我觉得高清三维地图是个很好的设想,怎么落地还有很多现实挑战。比如说在波士顿,下雪风吹,每个小时雪都是不一样的,怎么定位?我觉得用 Lidar 很难定位,长得太不像了,Lidar 是靠形状,形状都不一样就没办法定位,分辨率非常有限。大家觉得用 Lidar 就一定好,我觉得不一定。如果 Lidar 降价或者真正量产,我们会马上使用 Lidar,我以前发表过很多文章做 Lidar,只是就算用 Lidar 也需要现实一些,看清楚 Lidar 的局限,就算用 Lidar,软件也要做到非常好。

机器之心:传感器是怎么样的配置?AutoX 是以摄像头优先的解决方案,要加上一些其他的传感器吗?

肖健雄:我们现在主要是以摄像头为主软件模块,但是我们不生产摄像头,比如说各大汽车厂感兴趣,我们可以把摄像头软件模块提供给他们。像特斯拉、 Mobileye,现在真正落地的产品都是靠摄像头,奥迪 A8 也是基本靠摄像头,前面的四线 Lidar 基本上是最后一层防线扫障碍物。

THEEND

最新评论(评论仅代表用户观点)

更多
暂无评论