九年双11 从“人肉”云计算到AI架构

华西都市报
佚名
人肉云计算,所有人全部上阵 胡喜在2007年就加入支付宝,经历了每一年的双11。“以前的双11,技术保障团队差不多三四百人,从年初开始准备,这些人很多事情都不做,就是要支持双11,一个双11做完以后非...

人肉云计算,所有人全部上阵

胡喜在2007年就加入支付宝,经历了每一年的双11。“以前的双11,技术保障团队差不多三四百人,从年初开始准备,这些人很多事情都不做,就是要支持双11,一个双11做完以后非常累。”这9年期间,他和同事们见证了太多紧张的时刻。

2010年是第二个双11,支付就迎来较大的挑战。胡喜把那一年的技术称为“人肉”云计算,“双11那一天,每个人看自己服务器的系统水位,出现问题吼一嗓子,哪里有空闲的资源调过来,后来容量不够,又把一些非关键系统杀掉。”

压力最大时,数据库管理员已经在倒计时了,29秒、28秒……还剩4秒时,幸好工程师迅速“杀掉”了同用一个库的内部会计系统,跳升了50%的容量留给了面对用户的账户系统。“账户系统一垮掉就真的完蛋了。”胡喜说,那样所有买家下单后将无法支付,又不能立即修复。那是非常紧张的一天,所有人全部上阵,24小时盯着。

当时迎战双11的技术是支付宝从2006年开始用3年时间逐步搭建起的第二代架构,交易笔数可支撑50万笔/天,这个百万级代码量的系统是用上了支付宝百人的技术团队。但是,谁也没想到在2010年的双11的火爆程度,当时系统要处理3000多万笔交易,瞬间被撑大到平时的3倍以上。

蚂蚁金服CTO鲁肃清楚的记得“那是第一个高峰飙起来后,所有人开始不断解决各种各样的问题,所有人处于精神高度紧绷的状态。最后大促快结束时,有一个数据库只有30秒的挽救时间,依赖技术人员的决策,挽救了这个数据库和整个系统服务。”

放弃传统架构,开启自主研发之路

2010年以前,支撑双11的是传统金融机构普遍采用的IOE系统(IBM的小型机、Oracle数据库、EMC存储设备)。双11这样的惊险时刻也让蚂蚁金服技术人员意识到了原有技术系统的局限性,蚂蚁金服技术团队提出去IOE项目,着手做云支付平台。

这也和阿里云整个技术的发展相吻合。2008年,阿里巴巴确定“云计算”和“大数据”战略,决定自主研发大规模分布式计算操作系统“飞天”。经过公测,2011年,阿里云技术成熟,阿里云开始大规模对外提供云计算服务。

基础技术的研发为支付宝做云支付平台提供了基础。最终在2013年成功构建起了云支付架构。胡喜说,2013年双11大促,这个架构从最初仅能支撑2010年3000多万笔交易,扩展到支撑1.88亿笔交易,正式宣告了第三代架构的封顶工作已经完成。

不同于从前的集中式架构,云计算是分布式的,扩容的方式很简单,只需要加机器就可以满足数倍涌入的需求量,系统本身不受压迫,它可以全自动、标准化操作。从前双11可能需要上百人处理的问题,现在十几个人就可以解决了。在新的系统中,“加机器”也是每次都以万台为单位的。

在去IOE项目过程中,不得不提阿里巴巴和蚂蚁金服自主研发的面向云时代的关系数据库OceanBase。从2010年6月份立项开始已经发展了七年的时间,OceanBase具备可扩展、高可用、高性能、低成本及多租户等核心技术优势。

目前,OceanBase已经应用于蚂蚁金服的会员、交易、支付、账务、计费等核心系统和网商银行等业务系统。在刚刚过去的2016年双11,用户每一笔支付订单背后的数据和事务处理都由OceanBase完成。

双11是大考,改变的不仅是蚂蚁金服

双11对蚂蚁金服的影响很直接:到了2016年的双11,其全天交易支付笔数为10.5亿笔,支付峰值12万笔/秒。为了应对逐年增长的交易峰值,支付宝技术架构上不断突破和创新。比如在风险控制方面,现在向AI方向转型。胡喜说:“未来的架构是AI架构,今年将会开始进行尝试。这种架构能够实现容量预估、弹性计算、自动化异常处理、实时智能决策等等能力。到明年将会有更大的应用。”

在胡喜的规划中,未来的技术架构是要处理每秒1亿笔交易。“万物互联时代,无处不在的交易终端和无数新的交易场景,会继续带来金融交易量的指数级增长。什么样的架构与技术,可以处理万物互联时代的天量交易,是需要未雨绸缪去攻坚与突破的。”

在双11这场大考中,被“考”到的并不是仅有阿里巴巴、蚂蚁金服。“双11是整个中国商业基础设施的一个大考,也是中国技术的一个大考。”马云曾这样表述双11对中国社会的意义。的确,银行、物流等行业都主动或被动的加入其中,他们的技术能力也在经受一次次的考验和升级。

据了解,2011年双11时,银行支付并不稳定,主要的几家银行轮流挂掉、抢修、再挂掉、再抢修,“当时真的是满头大汗,好在没有同时挂掉,真的是有一点小小的运气。”而目前,各家银行已与蚂蚁金服建立了协同运维机制,双方在交易流量管控、运行调度、协同保障上进行了流程机制和系统层面的约定。确保大促交易高峰期,在保证系统稳定性的前提下,发挥交易链路的最优处理能力,以及提升异地容灾能力。华西都市报-封面新闻记者崔江

THEEND

最新评论(评论仅代表用户观点)

更多
暂无评论