隐私数据的安全护卫 —— 数据脱敏

精容数安
随着大数据时代的到来,大数据商业价值的挖掘,用户的精准定位,大数据中蕴藏的巨大商业价值被逐步挖掘出来,但是同时也带来了巨大的挑战--个人隐私信息 的保护。

数据脱敏(Data Masking),又称数据漂白、数据去隐私化或数据变形。数据脱敏的定义为:指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据 的可靠保护。这样,就可以在开发、测试和其它非生产环境以及外包环境中安全地使用脱敏后的真实数据集。

敏感数据,又称隐私数据,常见的敏感数据有: 姓名、身份证号码、地址、电话号码、银行账号、邮箱地址、所属城市、邮编、密码类 ( 如账户查询密码、取款密码、登录密码等 )、组织机构名称、营业执照号码、银行帐号、交易日期、交易金额等。

随着大数据时代的到来,大数据商业价值的挖掘,用户的精准定位,大数据中蕴藏的巨大商业价值被逐步挖掘出来,但是同时也带来了巨大的挑战--个人隐私信息 的保护。个人信息与个人行为(比如位置信息、消费行为、网络访问行为)等,这些都是人的隐私,也是我们所关注的一类敏感信息,在大数据价值挖掘的基础上如何保护人的隐私信息,也将是数据脱敏必须解决的难题。对于企业而言,数据脱敏也尤为重要。

企业对脱敏的需求:

“数据变现”的需要——数据版权及隐私保护

 “内部限权”的需要——即使企业内部,数据也需要授权的访问,典型场景:财务,业务,支持部门

“数据外测”的需要——工信部下达了《电信和互联网用户个人信息保护规定》,对个人隐私信息保护做了详细要求和规定

脱敏规则,一般的脱敏规则分类为可恢复与不可恢复两类。

可恢复类,指脱敏后的数据可以通过一定的方式,可以恢复成原来的敏感数据,此类脱敏规则主要指各类加解密算法规则。

不可恢复类,指脱敏后的数据被脱敏的部分使用任何方式都不能恢复出。一般可分为替换算法和生成算法两大类。替换算法即将需要脱敏的部分使用定义好的字符或字符串替换,生成类算法则更复杂一些,要求脱敏后的数据符合逻辑规则,即是“看起来很真实的假数据”。

使用环境,主要指脱敏之后的数据在哪些环境中使用。普遍按照生产环境和非生产环境(开发、测试、外包、数据分析等)进行划分。

在最近一期的Gartner关于数据脱敏的报告(Magic Quadrant for Data Masking Technology-2014年12月)中根据数据脱敏产品应用场景的将数据脱敏划分为静态数据脱敏(static data masking[SDM])和动态数据脱敏(dynamic data masking[DDM])。

静态数据脱敏(SDM)与动态数据脱敏(DDM)主要的区别是:是否在使用敏感数据当时进行脱敏。

静态数据脱敏(SDM)一般用在非生产环境,在敏感数据从生产环境脱敏完毕之后再在非生产环境使用,一般用于解决测试、开发库需要生产库的数据量与数据间的关联,以排查问题或进行数据分析等,但又不能将敏感数据存储于非生产环境的问题。

动态数据脱敏(DDM)一般用在生产环境,在访问敏感数据当时进行脱敏,一般用来解决在生产环境需要根据不同情况对同一敏感数据读取时需要进行不同级别脱敏的问题。

静态脱敏应用场景:

1、测试、开发、培训

静态脱敏是将数据抽取进行脱敏处理后,下发至测试库。开发、测试、培训、分析人员可以随意取用测试数据,并进行读写操作,脱敏后的数据与生产环境隔离,满足业务需要的同时保障生产数据库的安全。

2、数据共享

企业需要根据不同的脱敏策略把数据共享给其它企业。

动态脱敏应用场景:

1、业务脱敏

一般情况,应用系统本身会根据用户的权限对数据进行处理,对于遗留系统(旧系统无法再作升级改造)以及开发时未考虑《网络安全法》中要求的个人隐私保护问题,如若重新更改代码过于复杂,只能依赖于外部技术实现数据的隐私保护,这个时候也需要使用动态脱敏技术。

2、运维脱敏

运维人员拥有的是管理员帐号DBA账号,但业务系统的数据是属于业务单位而不是运维部门。从职责分离的原则上,如何实现既允许运维人员访问业务生产数据库又不能让他们看到敏感数据。

3、数据交换脱敏

业务系统与业务系统之间的数据访问(称作数据交换更合适)。在满足隐私保护时需要对交换的数据进行脱敏处理,但又不像传统的静态脱敏一样需导出数据脱敏后再移交,而是通过业务系统之间的接口直接调用。这就属于应用系统之间不落地的数据交换,针对这种交换的数据需要作脱敏处理。

THEEND

最新评论(评论仅代表用户观点)

更多
暂无评论