浅谈数据中心运维安全管理体系

王继伟
近年来数据中心伴随着商业上的成熟和广泛应用,进入了蓬勃发展的快车道。基于数据中心自身对于可靠性和稳定性的高标准,如何构建其运维场景的安全体系并执行落地是每一个数据中心管理者优先考虑的问题,本文将从不同纬度探讨数据中心的安全运维体系。

近年来数据中心伴随着商业上的成熟和广泛应用,进入了蓬勃发展的快车道。基于数据中心自身对于可靠性和稳定性的高标准,如何构建其运维场景的安全体系并执行落地是每一个数据中心管理者优先考虑的问题,本文将从不同纬度探讨数据中心的安全运维体系。

一、安全组织

组织的目的在于把运维项目的人、机、环、管四个要素进行整合,从而以最优的形态完成或者实现组织的目标。

1.人,应该包含最高管理者、中层管理人员、基层管理者、技术工程人员、运维值班人员、安保、消防、保洁、承包方等所有在为数据中心正常运维提供服务的人员;

最新《安全生产法》2020版第二十一条规定:非高危行业以外的其他生产经营单位,从业人员超过一百人的,应当设置安全生产管理机构或者配备专职安全生产管理人员;从业人员在一百人以下的,应当配备专职或者兼职的安全生产管理人员。

2.机,代指数据中心的设备设施管理,通常分布在从高压端到低压端的配电系统(变配电站、柴发系统、UPS、精密空调、蓄电池),水冷(风冷)机组,数据储存设备、消防系统、动环监控系统、门禁系统以及其所配套的工具、仪器、仪表等;

3.环,要充分考虑项目所在地地质水文历史条件(如:地震、洪水、泥石流、温湿度、地势海拔等各类要素),构建筑物的类型(框架钢筋混凝土结构、钢结构等)、市电输送类型、当地交通、医疗、生活、政府消防站的设置等各类因素;

4.管,泛指与安全有关的各类管理制度,涉及人员的,如:三级安全培训制度,交接班制度、消防安全管理制度、出入管理制度、安全奖惩制度、劳保用品管理制度、库房的管理制度、特种作业人员管理制度、危险化学品管理制度,安全档案管理制度等。涉及设备的,如:常见的3P文件,既SOP-标准化作业程序,EOP-紧急情况标准化作业程序,MOP-维护维修标准化作业程序。涉及现场随工类的安全管理制度,如动火管理制度、临时用电管理制度、高空作业安全管理制度、密闭空间管理制度、电气安全管理制度等。

通常情况下,安全组织架构要按照“责权对等”、“谁主管谁负责的”精神把工作人员的责权进行细化并严格执行,建立起覆盖全员无死角的安全生产责任制度并签署安全生产责任书。这个安全管理组织所追求的目的应该是零伤害和零事故。

二、安全培训

1.学时管理,参照国家安全生产监督管理总局令第80号令《国家安全监管总局关于废止和修改劳动防护用品和安全培训等领域十部规章的决定》(2015年7月1日起实施)的最新要求,《生产经营单位安全培训规定》第三章第十三条:“生产经营单位新上岗的从业人员,岗前安全培训时间不得少于24学时,……每年再培训的时间不得少于20学时”,因此数据中心的运维和管理人员在入职期间的三级安全培训必须满足24个小时的学时,此后每年再组织20小时的在岗期间安全培训。

2.培训内容,针对数据中心的安全风险内容,建议可以开展的安全培训可以包括但不限于以下内容:《安全意识培养》、《电气安全技术》、《高空作业管理》、《紧急救护和心肺复苏》、《事故案例讲解》、《挂牌上锁管理》、《设备维护安全》、《受限空间安全管理》、《化学品安全管理》、《劳保用品的使用》、《电气火灾防护》、《动火作业管理》、《临时用电作业管理》、《吊装作业安全管理》等。

3.特种作业人员管理,参照国家安全生产监督管理总局令第30号令《特种作业人员安全技术培训考核管理规定》,数据中心的以下工作岗位需要持证上岗:高低压电工作业人员、焊接与切割作业人员、高处作业人员、制冷与空调作业人员,某些省份对于化学品的存储和使用人员也有持证要求上岗的要求。特种证书为6年有效期,3年一复审,连续从事本工种10年以上,严格遵守有关安全生产法律法规的,经原考核发证机关或者从业所在地考核发证机关同意,特种作业操作证的复审时间可以延长至每6年1次.特种作业操作证需要复审的,应当在期满前60日内,由申请人或者申请人的用人单位向原考核发证机关或者从业所在地考核发证机关提出申请,运维项目应建立《特种作业人员管理档案》。

三、危险源识别与风险评估

《安全生产法》规定,生产经营单位对重大危险源应当登记建档,进行定期检测、评估、监控,并制定应急预案,告知从业人员和相关人员在紧急情况下应当采取的应急措施。

危险源识别与风险评估是整个安全管理体系的核心部分,他的目的是评价危险发生的可能性及其后果的严重程度,以寻求最低事故率、最少的损失、环境的最低破坏。安全风险评估主要由以下3个步骤所组成:危险源辨识、定性或定量以及半定量的风险评估、控制风险的措施与管理。

1.危险源,在《职业健康安全管理体系要求GB/T 28001-2011》中的定义为:可能导致人身伤害和(或)健康损害的根源、状态或行为,或其组合。危险源的实质是具有潜在危险的源点或部位,是爆发事故的源头,是能量、危险物质集中的核心,是能量从那里传出来或爆发的地方。危险源辨识的目的是消除其存在的事故隐患或防止其出现事故隐患。

危险源一般由三个要素构成:潜在危险性、存在条件和触发因素。危险源的潜在危险性是指一旦触发事故,可能带来的危害程度或损失大小,或者说危险源可能释放的能量强度或危险物质量的大小。危险源的存在条件是指危险源所处的物理、化学状态和约束条件状态。例如,物质的压力、温度、化学稳定性,盛装压力容器的坚固性,周围环境障碍物等情况。触发因素虽然不属于危险源的固有属性,但它是危险源转化为事故的外因,而且每一类型的危险源都有相应的敏感触发因素。如易燃、易爆物质,热能是其敏感的触发因素,又如压力容器,压力升高是其敏感触发因素。因此,一定的危险源总是与相应的触发因素相关联。在触发因素的作用下,危险源转化为危险状态,继而转化为事故。

数据中心一般需要考虑的危险源包括:a.化学品类,如易燃易爆类的汽柴油、腐蚀品类的杀菌剂和除藻剂;b.特种设备类,如电梯、起重机械、压力容器(含气瓶)、压力管道、场(厂)内专用机动车;c.电气类,如高电压或高电流、高温作业等作业;d.建工类,如吊装、高空作业等作业;e.交通运输类。

数据中心应重点关注的危险源主要分布集中在高空作业、电气作业、动火作业、化学品的储存和使用、密闭空间作业等。

2.风险评估,当任何生产经营活动被鉴定为有安全事故危险性时,便应考虑怎样进行评估工作,以简化及减少风险评估的次数来提高效率。风险控制的目的是使风险降低到企业可以接受的程度,当风险发生时,不至于影响企业的正常业务运作。

风险评估的常见方法有五种,分别为现场观察法、安全检查表法、预先危险性分析法、工作危害分析法、故障类型及影响分析法,五种分析方法均有优缺点和不同的适用范围。

维谛技术采用的方法为工作现场危害分析法JSA(Job Safety Analysis),这是一种半定量的风险评估方法,JSA是通过对工作过程和步骤的逐步分析,找出有危险的工作步骤和工作设备/设施,制定控制和改进措施,以达到控制风险、减少和杜绝事故的目标。JSA的优点是可操作性强,使作业人员更加清楚地认识到作业过程的风险,使预防措施更有针对性、可操作性。

JSA一般选取三个与事故相关的参数,事故发生的后果、作业频度、事故发生的可能性三个纬度对作业的步骤进行风险评估。

3.控制措施,一般以风险评估的结果作为依据,判断与威胁相关的薄弱点,决定什么地方需要保护,采取何种保护手段。从安全从业者的角度考虑,我们常常希望风险降低为零即设备本质安全化,但是日常生产生活中,我们应综合费用与成本的因素综合采取措施。

四、除以上三个纬度外,一个运行良好的数据中心还应考虑到职业健康因素、突发事件的应急准备和响应、事故的调查与处理等管理要素,通过常态化的检查与评估发现不足,逐步完善安全管理体系,从而达到持续螺旋性的上升的改善目的。

THEEND

最新评论(评论仅代表用户观点)

更多
暂无评论