隐私保护计算技术概述和关键技术

互联互通社区
互联互通社区
可信环境模式,是以机密计算技术为核心,在基于硬件的可信执行环境中执行计算,保护数据应用中的隐私安全的集中式计算模式。该模式本质上是一种集中式的数据计算模式,需以各参与方的强信任关系为前提,将各参与方的数据进行集中式汇总,并利用集中汇总的数据进行模型训练。

隐私保护计算(Privacy-PreservingComputation)是一套包含人工智能、密码学、数据科学等众多领域交叉融合的跨学科技术体系。它能够在不泄露原始数据的前提下,对数据进行加工、分析处理、分析验证,其重点提供了数据计算过程和数据计算结果的隐私安全保护能力。

(一)隐私保护计算及其关键技术

隐私保护计算(Privacy-PreservingComputation)是一套包含人工智能、密码学、数据科学等众多领域交叉融合的跨学科技术体系。它能够在不泄露原始数据的前提下,对数据进行加工、分析处理、分析验证,其重点提供了数据计算过程和数据计算结果的隐私安全保护能力。随着数字技术的发展,隐私保护计算的内涵及主流技术不断演进。主流的技术研究焦点从早期的数据扰动和数据匿名化等演进至今,已经能够实现数据计算过程和数据计算结果的保护,形成一套包含众多领域的跨学科安全技术体系。隐私保护计算具体涵盖了安全多方计算、联邦学习、同态加密、差分隐私和机密计算等技术。

安全多方计算(SecureMulti-PartyComputation,SMPC),由中国科学院院士姚期智于1982年通过“百万富翁问题”提出,旨在解决“一组相互独立且互不信任的参与方各自持有秘密数据,协同计算一个既定函数”的问题。安全多方计算保证了各参与方在获得正确计算结果的同时,无法获得计算结果之外的任何信息。

联邦学习(FederatedLearning,FL),可被理解为是由两个或两个以上数据方共同参与,在保证数据方各自原始数据不出其定义的安全控制范围的前提下,协作构建并使用机器学习模型的技术架构。通常情况下,联邦学习需与其它隐私保护计算技术联合使用,才可在计算过程中实现数据保护。

同态加密(HomomorphicEncryption,HE),是一种允许在加密之后的密文上直接进行计算,且计算结果解密后与基于明文的计算结果一致的加密算法,可在不解密以实现数据机密性保护的同时完成计算。根据支持密文运算的程度,同态加密方案可以分为部分同态加密方案和全同态加密方案两类。部分同态加密方案能够支持有限的密文计算深度,常作为其他方案的组成部分之一进行使用。而全同态加密理论虽支持无限次任意给定函数的运算,但由于计算开销较大,目前尚未形成规模化的商用。

差分隐私(DifferentialPrivacy,DP),是Dwork在2006年针对数据库的隐私问题提出的一种严格的、可量化的隐私定义和技术。差分隐私在保留统计学特征的前提下,去除个体特征以保护用户隐私。差分隐私具有两个重要的优点:一是提出与背景知识无关的隐私保护模型,实现攻击者背景知识最大化的假设;二是为隐私保护水平提供严格的定义和量化评估方法。

机密计算(ConfidentialComputing,CC),机密计算是指通过在基于硬件的可信执行环境中执行计算来保护数据应用中的隐私安全的技术之一。其中可信执行环境定义为可在数据机密性、数据完整性和代码完整性三方面提供一定保护水平的环境4。其基本原理是将需要保护的数据和代码存储在可信执行环境中,对这些数据和代码的任何访问都必须经过基于硬件的访问控制,防止他们在使用中未经授权被访问或修改,从而提高机构管理敏感数据的安全水平5。

除上述技术外,隐私保护计算技术还包含了秘密共享、不经意传输、混淆电路、零知识证明等诸多技术方向,在此暂不一一赘述。

(二)基于隐私保护计算技术的数据流通模式

在实际应用中,根据数据流通方式、数据集中程度、模型复杂度等差异化的业务场景,从技术角度来说,基于隐私保护计算技术的数据流通方式可分为可信环境模式、可证模式和可度量模式三类(如图2所示):

2345截图20211028093243.png

1.可信环境模式

可信环境模式,是以机密计算技术为核心,在基于硬件的可信执行环境中执行计算,保护数据应用中的隐私安全的集中式计算模式。该模式本质上是一种集中式的数据计算模式,需以各参与方的强信任关系为前提,将各参与方的数据进行集中式汇总,并利用集中汇总的数据进行模型训练。

因该模式将数据进行了集中汇总,故可进行非常复杂的计算,具有效率高、网络延迟低等优势,但难点在于如何构建各参与方的强信任关系。该模式通过基于硬件的可信执行环境构建参与方的信任关系,其信任的基础是对可信执行环境的信任。目前市场上技术成熟的厂商主要有IntelSGX,ARMTrustZone等,较容易产生供应商锁定等供应链安全问题。该模式的核心技术包括机密计算的可信执行环境等,辅助技术包括差分隐私等。

2.可证模式

可证模式,是以安全多方计算和同态加密等密码技术为核心,支持在无可信第三方的情况下,各参与方协同计算一个既定函数的分布式计算模式。在该计算模式下,中间数据均以密态呈现。所谓“可证”是指数据的运算态或结果态的安全性可由其使用的密码算法的理论安全性来证明提供。

该模式的优势是其采用基于密码学的安全多方计算和同态加密等技术,凭借其坚实的理论基础和可证明的安全性,获得了较强的安全性保障。但是由于该模式包含复杂的密码学操作,实现相关技术需要付出较大的性能代价,对性能提出了严峻的挑战。对于一些计算复杂度较低的场景,该模式已取得良好的应用效果。该模式的核心技术包括安全多方计算、同态加密等,辅助技术包括可信执行环境、差分隐私等。

3.可度量模式

可度量模式,是以差分隐私技术为核心,可对数据计算过程中的隐私泄露风险进行量化评估的数据流通模式,该技术通常与联邦学习等其他技术结合使用。例如,在联邦学习中,中心节点需对各方模型更新的中间结果进行聚合,但此过程中存在数据重构时的攻击风险。差分隐私可在各方数据出域前,通过施加随机噪声的方式保护中间结果,并度量这些噪声带来的隐私保护效果。

该技术的优势是能够实现隐私风险的量化评估,但是会对数据的精度形成不可忽略的影响,因此对精度要求较高的场景需酌情使用。该模式的核心技术包括差分隐私、联邦学习等,辅助技术包括可信执行环境、安全多方计算、同态加密等。

(三)基于隐私保护计算技术的数据流通场景

基于当前隐私保护计算技术的应用场景,其数据的流通场景主要包含单数据方的主动开放、无数据方的申请使用以及多数据方间的联合计算(如表2所示)。

2345截图20211028093243.png

一是单数据拥有方主动开放数据。通常为公共管理和服务机构对符合开放条件的公共数据进行开放。为保障数据安全及个人隐私,在对数据进行脱敏处理或使用差分隐私等技术时往往会给数据加入噪声。如美国人口普查局会在发布人口数据时使用差分隐私技术进行保护处理,在保证数据的统计信息的基础上,避免泄露详细的个人信息,保障了数据和个人隐私的安全。

二是无数据方申请使用数据拥有方的数据。在此场景下,无数据方需向数据拥有方提供查询条件,数据拥有方根据查询条件进行查询并反馈相关结果。借助隐私保护计算技术能够实现数据库数据及查询条件的“双盲”,以此保护数据和个人隐私的安全。相关的支撑技术包括隐私集合求交PSI和隐私信息检索PIR等。

三是多数据拥有方联合计算。两个或多个机构之间基于某种业务需求,将各方数据进行联合计算和分析。该类跨机构进行数据联合计算的场景是当前业界研究和应用最多的场景

THEEND

最新评论(评论仅代表用户观点)

更多
暂无评论