同态算法与差分隐私的关系_数据加密方式有哪些

⑴ 数据加密方式有哪些

对称加密：三重DES、AES、SM4等
非对称加密：RSA、SM2等
其他的保护数据隐私的方法还有同态加密、差分隐私、安全多方计算等
目前我们公司一直和上海安策信息合作的，安策信息研发了好几种数据加密工具，包括加密狗、加密机、动态口令、加密工具等网络也有很多相关资料。

⑵ 隐私保护技术同态加密

安全多方计算
同态加密
差分隐私

同态加密逐渐被认为是在 PPML 中实现安全多方计算的一种可行方法。

设表示使用作为加密密钥的加密函数。设表示明文空间，且表示密文空间。一个安全密码系统若满足以下条件，则可被称为同态的(homomorphic):

对于中的运算符和中的运算符，符号表示左边项等于或可以直接由右边项计算出来，而不需要任何中间解密。在本书中，我们将同态加密运算符设为，并且对密文的加法操作和乘法操作按如下方式重载:
加法：
标量乘法：

同态加密方法分为三类:部分同态加密 (Partially Homomorphic Encryption, PHE)，些许同态加密 (Somewhat Homomorphic Encryption, SHE) 和全同态加密 (Fully Homomorphic Encryption, FHE)。
//待补充

⑶ 隐私计算-密码学-同态加密

近年来，随着大数据与人工智能的盛行，针对个人的个性化的推荐技术的不断发展，人们在享受便利的同时，也深深的感觉到无处不在的监控与监事，比如刚刚浏览了一个网站的商品，当去其他网站访问的时候就会推荐类似的产品；刚刚搜索了某件商品，在很多其他的场景中都会给你推荐。这种体验，谈不上不好，也谈不上多坏，但是如果仔细想想，就感觉自己的网上进行裸奔，个人隐私，一清二楚，毫无隐私可言，细思极恐。

不过随着广大用户对于个人隐私的重视程度不断加强，以及法律法规的不断完善，针对个人隐私的保护提出了更高的要求，什么样的数据可以采集、收集与使用，如何使用都是一个比较敏感的问题。十三届全国人大常委会第三十次会议表决通过了《 中华人民共和国个人信息保护法 》，并与2021年11月1日起施行。确立个人信息保护原则、规范处理活动保障权益、禁止“大数据杀熟”规范自动化决策、严格保护敏感个人信息、赋予个人充分权利等。新规施行后，违法的主体将 最高可处五千万以下或者上一年度营业额百分之五 以下的罚款。

鉴于上述情况，近年来隐私计算技术被不断的提及，源于其有优秀的数据保护作用，使得 “数据不出域、数据可用不可见、数据可算不可见” ，限定了数据的使用场景，防止了数据的泄露，而引起了业界的热捧。

隐私计算技术的演进历程如下图描述，以下是杨强教授在KDD 2021中国区的分享材料：

可以看到，隐私计算技术从1979年就开始了，最开始是安全多方计算、到差分隐私、到TEE， 再到最近火的不能再火的联邦学习 ，一系列的技术应运而生。那为啥现在隐私计算这么火呢。

注：隐私计算技术成熟度曲线

但是这些技术本身的安全加密都是采用共同的方法与策略，下面讲述下隐私计算的加密技术。

本文主要介绍同态加密，

众所周知，优秀的程序员需要 严谨的逻辑思维与具象能力 ，当然在材料的时候，可能需要适当的渲染。但是对于技术的理解，对技术的探索，严谨的逻辑与坚实的推理是非常重要的。所以，对于“数据加密”这个命题，需要进行一番探索。

如此三态合一，即可保障数据的全链路的生命周期安全 。

那么有没有办法解决数据计算的安全问题呢？答案就是 同态加密技术 。保障数据的运行态的安全，那么同态加密技术具体是如何实现，如何应用，并且有哪些限制呢？

什么是同态加密？ ，引用Gentry大佬的原话：

同态加密（Homomorphic Encryption, HE），指满足密文同态运算性质的加密算法，即数据经过同态加密之后，对密文进行某些特定的计算，得到的密文计算结果在进行对应的同态解密后的明文等同于对明文数据直接进行相同的计算， 实现数据的“可算不可见” 。同态加密的实现效果如图所示。

举个例子： 国内某家大型的三甲医院，由于历史悠久，并且医术精湛，历史遗留了大量的用户病例数据 。如今思考基于这些病例数据进行建模分析。但是由于数据量特别巨大，医院本身的IT资源有限，计算能力不足。

这个时候，云厂商找了过来。但是对于医院来说，这些数据本身是用户的隐私信息，并且也是医院的核心价值，所以尽管云厂商再三保证数据安全， 但是医院还是不能够放心的将数据上传到云厂商进行计算 。

正当这个事情推进不下去的时候，云厂商从密码行业花大价钱招来某个大牛，大牛提出一个方案，这样吧，我们现在有这样一门技术，不需要传输明文数据，只需要传输密文就好，而且加密秘钥由医院自己保存，我们基于上传的密文数据做不解密的密态运算（并计算函数医院提供就好），这样数据不会泄露，云厂商对数据无感知，之后传回密文结果，医院自己解密就好。医院一听非常高兴，那就这么办吧。

下面将核心流程描述下。

这里，大家可能有个问题，这个f应该是什么样的函数，有什么样的限制条件？HE方案是支持任意的数据处理方法f，还是说只支持满足一定条件的f呢？根据f的限制条件不同，HE方案实际上分为了两类：

Paillier加密算法是Pascal paillier[1]在1999年发明的概率公钥加密算法，该算法 基于复合剩余类的困难问题，是一种满足加法的同态加密算法 ，已经广泛应用在加密信号处理或第三方数据处理领域。

前面我们分析过 同态加密的核心流程 ，大家可以一起回忆一下。核心的函数包括：秘钥生成、明文加密、密文解密，下面我们来一步一步的分析，并且描述下，

秘钥的生成主要有如下的步骤，

下面介绍一个完整的同态运算，m由组成，介绍下同态加密的是如何使用密文计算的。

⑷ 差分隐私 - Differential Privacy [1. 定义]

机器学习的主要目的是为了从数据中抓取有效信息，而隐私的目的是想要隐藏掉信息（防止个人信息泄露等）。两者看起来有冲突，但是当我们挖掘敏感信息的时候，我们需要平衡这两者之间的关系（保护个人隐私不被泄露的同时抓取到有效信息，从而训练得到一个performance比较好的算法）。所以一个比较常见的方法就是当我们从数据中抓取信息的时候，尽可能的去抓取整个population中比较general的特征，同时保证不透露任何indivial的隐私信息。但是往往匿名化数据仍然无法保护个人隐私被泄露。比如说，如果当攻击者掌握了一些其他的泄露信息时，他可以通过合并重叠数据得到他想要的信息。或者通过query多次结果的差异，找到他想要的信息。因此，有人提出，可以把具有相同特征的sample合并成一个group，当整个group中sample数量达到一定程度，可以公开这个group的信息来防止敏感信息被泄露。但是即使这样，攻击者还是可以得到他想要的信息。

比如说，

所以Dwork提出了差分隐私(Differential Privacy)的概念，简单来说就是通过使用随机噪声来确保query公开可见信息的结果并不会因为个体的变化而变化。（有一点类似model stability的感觉，比如我拿走任意一条数据或者增加新的数据并不会对整个model的performance带来很大变化）

比较常见的有三种关于差分隐私的数学定义

这个定义的意思就是对结果加一个随机噪声（Gaussian noise或者Laplacian noise都可以）

这个定义了用来表示从数据集变成数据集的最小的数据变化量。举一个简单的例子，如果两个数据集和最多只相差一条数据，那么 . 我们又把这样的pair (D, D') 叫做邻近数据集（dataset neighbours，不知道是不是这么翻译的）。

定义3就是由Dwork提出的差分隐私的default定义了，通过加入随机噪声，输出一个结果的概率分布(that's the reason we use probability on both sides)。定义中的表示，当对于数据集和它的任意邻近数据集（表示每一条数据都需要满足），这个机制的结果变化超过因数的概率（其实就是把不等式右边第二项移到左边）。所以代表了这个机制的confidence（值越小越confident），则表示了隐私保护的标准（值越小，标准越严格，所以又叫做privacy budget）。简而言之，就是当和越小的时候，两个probability就越相近，因此隐私保护的就越好。

当我们选择的时候，我们要注意，当数据集中有n个samples时，必须要小于1/n。因为显而易见，这个机制可以满足 -differential privacy，但是如果当的值偏大时，这个机制有很高的概率会导致隐私泄漏。对于这个数据集中的每一条数据，都有概率会被release出来，因为release每一条不同的数据都是独立的，所以相当于这个机制可以release了个sample。所以为了防止这样的泄露，必须要小于1/n.

通常，当的时候，我们又把这个叫做 -differential privacy. 当的时候， -differential privacy仍然有的几率会导致信息泄露，但是当的时候，就表示，泄露的概率为0，也就是说这个隐私保护不是概率性的，所以 -differential privacy的定义要远强于 -differential privacy。

Reference:
[1]. Ji, Zhanglong, Lipton, Zachary C., Elkan, Charles, Differential Privacy and Machine Learning: a Survey and Review .
[2]. Cynthia Dwork, Differential Privacy: A Survey of Results

⑸ Paillier同态加密算法

Paillier加密是一种公钥加密算法，基于复合剩余类的困难问题。其满足于加法同态，即密文相乘等于明文相加，即：

密钥生成

快速生成私钥

在密钥相同的情况下，可以快速生成密钥：

, 为欧拉函数，即

加密

解密

加法同态

Paillier加密的两个密文消息相乘的结果解密后得到两个消息相加的结果。

对于两个密文和

其中和都是中的元素，因此也属于 , 并具有相同的性质，所以可以看作是加密的密文，的解密结果为。

总结

常见的同态加密算法中，Paillier算法和Benaloh算法仅满足加法同态，RSA算法和ElGamal算法只满足乘法同态，而Gentry算法则是全同态的。

https://en.wikipedia.org/wiki/Paillier_cryptosystem

https://blog.csdn.net/sinianluoye/article/details/82855059

http://www.cs.tau.ac.il/~fiat/crypt07/papers/Pai99pai.pdf

导航:首页 > 源码编译 > 同态算法与差分隐私的关系

同态算法与差分隐私的关系

与同态算法与差分隐私的关系相关的资料