如何无损保护敏感机器学习训练数据

2022-12-29 07:40

数世咨询

nana

训练数据即使只是ML数据风险中的一小部分，但也是很重要的一小部分。结果就是，我们确实需要花费一些精力来缓解ML带来的操作数据风险问题，同时还需要考虑训练数据暴露问题。

本文来自微信公众号“数世咨询”，作者/nana。

此前有文章讨论过机器学习（ML）数据保护问题，重点强调了操作查询数据所带来的现实挑战。即，ML系统在使用过程中所面临的数据暴露风险很可能会高于前期训练的时候。

粗略估计，贝里维尔机器学习研究所（BIML）确定的已知机器学习安全风险中，数据安全风险至少占据了60%。这块风险（60%）又进一步细分为操作数据暴露风险和训练数据暴露风险，占比大致为九比一。训练数据即使只是ML数据风险中的一小部分，但也是很重要的一小部分。结果就是，我们确实需要花费一些精力来缓解ML带来的操作数据风险问题，同时还需要考虑训练数据暴露问题。

有意思的是，ML数据安全领域里似乎每个人都只谈论训练数据保护问题。为什么会这样呢？别忘了，ML的最终事实在于，完成所有学习的算法，其实不过就是实例化机器可运行形式的数据！

所以，只要你的训练数据集包含敏感数据，那你用ML通过这些数据构造出来的机器也包含敏感信息。而如果你的训练集包含偏差数据或受监管数据，那你用ML通过这些数据元素构建的机器就包含偏差或受监管信息。如果你的训练集包含企业机密数据，那你用ML通过这些数据元素构建的机器就包含企业机密信息。诸如此类。

算法是数据，并通过训练变成数据。

显而易见，ML领域将重点放在保护训练数据上是有一些好处的。不出意外，应对训练数据问题的主流观点之一是修复训练数据，使其不再直接含有敏感、偏差、受监管数据和机密数据。极端一点的话，你甚至可以干脆从训练集中剔除这些数据元素。没那么疯狂，但同样有问题的做法是调整训练数据，屏蔽或模糊掉敏感、偏差、受监管数据和机密数据。

我们不妨花点时间研究下这个问题。

数据所有者和数据科学家

这个机器学习新范式里最难理顺的一个问题是谁来管哪种风险。这个问题不解决，那怎么设置和实施信任边界的问题就有点棘手了。比如说，我们可不仅仅需要区别并了解操作数据和训练数据，还得进一步确定谁拥有（和应该拥有）训练数据访问权。

更糟糕的是，训练数据元素是否存在偏差、是否属于受保护的类成员、是否受法律保护、是否受监管、是否机密数据等问题，甚至更加棘手。

先讨论最重要的事。首先，有人生成了可能会出问题的数据，是这些数据组件的所有者。该数据所有者最终可能会获得一堆需要他们担负起保护责任的数据，比如种族信息、身份证号、人脸照片等等。这是数据所有者。

通常情况下，数据所有者与数据科学家不是同一个实体，数据科学家负责用数据来训练机器做一些有意思的事情。也就是说，安全人员需要确定数据所有者和训练ML系统的数据科学家之间的重要信任边界。

很多时候，数据科学家需要与数据所有者控制的“放射性”训练数据保持距离。于是，该怎么做呢？

差分隐私

我们先从最糟糕的敏感训练数据保护方法讲起：什么都不做。或者更糟糕的情况：在假装要做点什么的同时故意什么都不做。举个例子，Facebook（如今更名为Meta了）多年来大肆宣扬的人脸识别数据声明。Facebook利用其用户的大量人脸照片打造了一套人脸识别系统。很多人认为这是个重大隐私问题。（也有人非常担心人脸识别系统的种族偏见到底有多深，但这是另一码事了。）

在人脸识别系统上遭遇隐私压力后，Facebook构建了一套数据转换系统，用于将原始人脸数据（照片）转换为矢量。这套系统名为Face2Vec，其中每张人脸都有唯一的Face2Vec表示。随后，Facebook声称已删除了所有人脸，但却保有巨大的Face2Vec数据集。注意，从数学上讲，Facebook压根儿就没为保护用户隐私做出任何努力。相反，他们保留了用户人脸数据的唯一表示。

最常见的隐私保护措施是差分隐私。简单讲，差分隐私旨在通过从统计意义上“破坏”数据来保护特定数据点，让个别敏感数据点不再存在于数据集中，但ML系统仍能正常工作。其中诀窍在于保留所得ML系统的功能，即使训练数据已经被聚合和“模糊化”过程破坏了。如果数据组件被这一过程过度处理，那ML系统就无法正常运作了。

但如果ML系统用户可以确定某个人的数据就在原始训练数据中（所谓“成员推理”），那么该数据就破坏得还不够。注意，差分隐私是通过在训练前编辑敏感数据集本身而起作用的。

开发中的商业化系统需要调整训练过程本身，从而屏蔽训练数据集中的敏感点。这一方法的要点是在训练和推理时都采用同一种数学变换，从而防止敏感数据暴露（包括成员推理）。

该方法基于互信息数学思想，仅将高斯噪声添加到非归纳特征，从而在模糊数据集的同时不伤及其推理能力。这一思想的核心在于构建隐藏在敏感特征层的内部表示。

针对性特征混淆最棒的是可以保留数据所有者和数据科学家之间常有的信任边界，帮助数据拥有者免遭数据科学家偷窥数据。

内置安全

以上这些就意味着敏感训练数据问题解决了吗？并不。任何新兴领域都会遇到的问题仍然存在：构建和使用ML系统的人需要内置安全。也就是说，在构建系统时就要意识到训练数据敏感性风险并加以缓解。

而这么做的时机就在当下。如果我们构建了一堆暗藏巨大数据暴露风险的ML系统，那就纯属给自己挖坑了：未来将直面又一场安全灾难。

（原标题：专家观点：如何无损保护敏感机器学习训练数据）

THEEND

免责声明：凡注明为其它来源的信息均转自其它平台，由网友自主投稿和发布、编辑整理上传，对此类作品本站仅提供交流平台，不为其版权负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。若有来源标注错误或侵犯了您的合法权益，请作者持权属证明与本站联系，我们将及时更正、删除，谢谢。联系邮箱：xiali@infoobs.com

本月热门

精选文章

热点资讯

冷思考|为什么数字化转型会失败？

如何无损保护敏感机器学习训练数据

2025 信息化观察网

长按扫描二维码阅读原文