邦盛科技王海漫:等保2.0时代政务信息安全保护与网络自动化攻击防御

信息化观察网
张楠
我们前后研究过10多个网络爬虫危害的领域,虽表现形式各不一样,但是本质都一样,网络爬虫防范思路有共性特点,总结下来需要在两个方面发力。

日前,首届中国电子政务安全大会在北京成功召开。本次大会由中国信息协会主办,信息化观察网、国润互联信息技术研究院、中国信息协会传媒中心承办。邦盛科技合伙人王海漫受邀出席大会,并发表了题为《等保2.0时代政务信息安全保护与网络自动化攻击防御》主题演讲。

邦盛科技合伙人王海漫

以下是根据大会现场演讲内容实录:

20年前已经有爬虫了,不是新的东西,最早是黑客利用爬虫来做拖库、撞库,成功之后把数据窃取在市场上转卖,用来谋取利益。后来慢慢发展,有一些学生,也编制一个爬虫放到网上,爬虫论文相关的文章,完成自己的学业。学生毕业之后人走了,但是爬虫留下了,所以互联网爬虫越来越多。慢慢发展出现了网上的黄牛党,传统黄牛在线下做,因为政务信息的公开,各种政府部门推出便民的举措,像网上售票、网上挂号、网上自动售卖等等,黄牛利用爬虫在网上爬取数据,谋取利益。直到四五年前,发展到数据的爬虫,利用爬虫爬取个人数据。

政府部门是爬虫最大的受害方,这里有很多数字,政府组织每年遭受外部攻击的次数都会达到700多亿次,占整个行业受攻击的比例是1/3,每天受到两亿次的攻击,日高峰可以达到10亿次。今年随着等保2.0,主动防御写入法规,互联网和信息安全到了新的时代,我们必须用新的手段,新的方法来做信息安全的防护。

这是2018年上半年统计的数字,我们看到政府最受爬虫关注的就是人民法院的公告,被执行人的信息,都是大数据公司、信贷公司、征信公司所关注的,判决的案例也是律师事务所所关注的。所以这块是占了整个爬虫占比的50%,接下来是医院专家挂号的号源,然后知识产权,公积金等等,这些都是爬虫关注的重点。

接下来会有三个案例跟大家分享一下,爬虫在三个不同的行业是如何利用技术手段来做的。

第一个社保公积金的数据被爬,传统都是登陆公积金的官网查社保数据,这几年因为线上授信业务发展,这部分数据非常有价值,有很多公司做了一些APP,全国大概有上千种这样的APP,通过广告的手段,诱使社会大众使用这个APP来查。这里的问题在于一次性授权这些公司,他在后台就把你的帐号密码存下来。全国有一家最大的APP,已经积累了2200万公积金的账户,背后是很大的。最大的危害是数据泄露的问题。

第二个黄牛在线哄抢稀缺资源,主要是挂号这块。大家去过医院,大家都知道,过去传统黄牛都是在线下,雇一些人在医院,有了爬虫的工具,有了线上网络挂号服务之后,他们在网上手动挂号,现在利用抢号软件,也就是爬虫,本来大的医院是提供了利用互联网手段,给社会大众提供一个很好的服务的手段,结果这些服务手段被社会上一些人利用来作为他自己谋利的手段,如果政务部门防控手段不能跟上,当初的初心就没有办法实现。这里利用爬虫,影响了社会公平性的问题,包括12306,都很难抢到票。

第三个工商名称登记系统遭到攻击,有过公司注册的人都知道,公司注册有一个环节是公司的名字要做名称核验,我们起公司名字的时候也有很多选择,但是很多名字到工商登记系统一核实,都被人家注册过了,全国有很多公司名字都是相像的。这里有一家公司就想到一个办法,用爬虫把能想到最常用公司的名字,通过各种组合,组合出几十万种,批量的登录工商登记系统去核实,整理出来一些可用的公司的名称的名单,向外提供服务,一千块钱,你到我这来,我直接告诉你可用的名字是哪些。这也是爬虫使用的方式,这种和前者比危害性小一些,但是带来的问题是工商名称登记系统工作量负荷太大,运维非常自立,而且需要不断增加体系。

我们了解了爬虫的衍生之后,我们看一下爬虫对安全带来的威胁以及防范的思路。总结一下有五类危害,第一种就是它会虚耗服务器资源,网络资源,数据库连接数量的资源,后面案例会有分享如何解决。第二个导致系统不稳定,运维的压力大。第三个数据的泄露。第四个破坏公平,无论是购火车票还是医院挂号,因为爬虫的存在,我们的人是没法跟他比,所以是不公平。第四个因为数据的第三方爬虫数据,或者泄露数据,导致老百姓不知道问题在哪里,政府部门的问题还是谁的问题,所以导致政府名誉受损。

怎么做防范?防范的思路跟传统防范黑客攻击的思路是完全不一样的,因为网络爬虫具有这样的特点。第一个访问就是正常的访问,只不过不是人的访问,是一个软件机器访问,基本就像正常人,获取数据。第二个数据包不做任何改造,不具备特征。第三个行为特点,目标很精准,今天认准了某个的网站,社保或者医保网站,会持续的做,你今天识别它,他明天伪装又来了。第四个传统的思路是没法去防范的,必须有新的思路,新的方法来防范。

这里总结了三个案例,政务客户是如何防范网络爬虫的。第一个湖南某三甲医院,首先爬虫的防范,或者是做任何安全,都不能单纯的依赖于技术,必须从业务和技术两块一起做判断。第一个挂号就诊,要用实名制,这样给黄牛党制造困难。第二个刚开始会有积分,不良行为扣几分,最后限制你挂号。第三个有人退号之后,或者自己先占了号,自己退号之后,两小时之内随机释放号,增加爬虫获取号的难度。第五个退号或者是退回票,扣你手续费,增加欺诈成本。这是业务层面上考虑。技术层面上考虑,增加IP运维,加到黑名单里。第二个依赖于今天众多公司提供的深度网络安全的解决方案,大部分过去都是被动的网络安全解决方案。

第二个案例公积金如何防范第三方软件的网络爬虫,也是业务层面到技术层面,过去公积金的查询登陆没有验证,现在慢慢开始出现了,未来公积金也会做实名验证。技术层面上,跟现在倡导的应该差不多,除了密码、验证码最基本的防护之外,采用先进的识别组织系统。

第三个12306的案例,我们在2017年跟铁路总公司的计算处,用爬虫智能系统帮它解决了验证码的问题。业务层面也是跟前面讲到的一样,落实实名购票,实名乘车,每个账户联系人有限制,不能买多少张票,占票多长时间要支付。每天退票次数不能超过3次,每天在8:00-18:00中间的15个时间点逐步放新票。

总结一下网络爬虫的防范思路,一定在业务层面和技术层面,两手都要抓,而且都要做好。业务层面是依据不同的行业,不同的业务制定不同的策略,技术上四个角度越来越高级,第一个借助人工,列入黑名单,一旦列入黑名单可以阻断。第二个安全防御要做好,第三个验证码,这是做基本的防御,第四个利用先进的技术区别正常人和网络机器人。

邦盛的解决方案正是基于这样的技术手段来做的爬虫的实时防范。这样的体系依赖先进的技术做的。

第一个支撑技术是流立方,2017年底获得了教育部的科技进步一等奖,我们能支持低延时,高并发。我们的技术之所以可以这么做到这么好,我们基于三个层面的创新做的,第一个理论创新,技术创新,持续处理技术,数据的录制,快速得到指标,这里有7项相关举措。

第二个设备指纹,我们要第一时间能识别主动抓取设备相关的信息,这个信息是绝对合规的,不涉及到任何个人的隐私,比如说都是设备的CPU的型号,操作系统版本号,浏览器版本号,分辨率等等,结合网络环境信息,基于这些信息生成设备唯一的指纹,目前这个技术在国内应用非常广。

第三个人机识别,可以基于访问,有没有鼠标轨迹,鼠标点击有没有模式,是不是精准的点击某一个点,还是非常有规律的在一个图形的范围之内分布这些点,这些都是网络机器人和爬虫和正常人的点击鼠标的不同,这些都能识别。

第四个关键技术是人工智能机器学习,积累了海量数据之后,通过人工智能技术做模型,我前面也提到对抗,尤其跟爬虫对抗是持续的,基于数据驱动模型,不断提升模型,不断识别新的爬虫,提升反爬虫的能力,提高爬虫跟我们对抗的成本,成本太高的时候他就放弃了。

掌握了IP地址,设备指纹,帐号,就可以有很多规则。比如爬虫公司设备都是有限的,掌握一台设备,访问的次数,这个设备和帐号,无论是公积金帐号还是医保帐号,最多关联几个,可以从这些规则做防范。

我们分云端和本地化部署,在云端设备指纹,防御工作模型都在云端。这是智能防御的仪表盘,针对IP维度做分析,爬虫使用的设备访问量做分析,全国24是爬虫地图等等都有,这是更细化一点的分析,机器人、网络详情、地区等等都是可以做的。

最后一部分分享一下案例,这是我们做的12306购票系统,过去12306是依照验证码,或者模糊的图片的验证码来做防范的,最早初衷也是为了保证不被攻击。我们在2017年跟铁路总公司汽车所一起合作,部署积极防御系统,成功把验证码拿掉了,在支撑春运期间每天最高达到1500亿的访问,最大TPS达到180万,99%的延时控制在1ms以内,挡住了机器黄牛请求。两个春运,数个小长假,黄金周的考验,目前在稳定运行。

另外一个案例,浙江省工商局案例,工商局在2017年有升级的项目,要上政务公有云,最早的时候配置是16台虚拟机,上政务公有云之后访问量从每天70万PV,一下升到1200万,整个服务一度中断,用了事中控制,阻断开关打开之后,每天访问量一下从1200万降到100万,1100万都是简单的爬虫,100万里面还有70万被验证码识别,所以真实的人的访问量是很少的,达到的效果,后来把虚拟机从16台降到8台,足够支撑技术稳定的运行。无论是从公平性上,数据防护上,到运维上,效果还是非常显着的。

下面介绍下邦盛公司,我们是2010年成立的,我们背靠浙江大学给我们很多技术的支持,这也是为什么整个技术在业界都能非常领先,我们也在银行第三方支付、政务类的都有上百家的客户。最后是落地客户的案例,前面讲到的工商到公积金,到生态环境,到杭州市的住房保障管理局,基本上涵盖了各个不同的政务部门。

我今天的演讲就到这里,谢谢大家。

(本文是邦盛科技合伙人王海漫在首届中国电子政务安全大会上的的演讲内容实录,略有删减,未经本人确认。)

THEEND