安全多方计算与差分隐私技术解析

计算私有数据

在数据驱动创新的时代,许多最具创新性的计算产品和解决方案都依赖于数据。当这些数据属于隐私数据时,保护数据安全、防止数据主体、所有者或用户的信息泄露给错误的一方至关重要。如何在保护隐私的同时,对敏感数据进行有用的计算?

本文将重新审视解决这一挑战的两种已被深入研究的方案:安全多方计算和差分隐私。MPC和DP是为了解决不同的现实世界问题和实现不同的技术目标而发明的。然而,由于它们都旨在使用私有信息而不完全揭示它,因此常常被混淆。为了帮助区分这两种方法,我们将讨论两者的能力和局限性,并提供它们各自可以发挥高效作用的典型场景。

我们关注的是这样一种场景:多个个体(有时是整个社会)可以从一项基于私有数据的计算中获得巨大效用,但为了保护隐私,他们不能简单地彼此共享所有数据或与外部方共享所有数据。

安全多方计算

MPC方法允许一组参与方在仅揭示计算结果的前提下,共同执行一项涉及所有方私有数据的计算。更正式地说,一个MPC协议使n个参与方,每个参与方都拥有一个私有数据集,能够以这样一种方式计算他们数据集并集的某个函数:计算所揭示的唯一信息是该函数的输出。

MPC可用于保护私人利益的常见情况包括:

  • 拍卖:应公开中标金额,但不应透露任何关于未中标出价的信息。
  • 投票:应公布每个选项的得票数,但不公布任何个人的投票内容。
  • 机器学习推理:安全的两方计算使客户端能够向持有专有模型的服务器提交查询并接收响应,同时保持服务器对查询的私密性以及客户端对模型的私密性。

注意,参与方数量n可能非常小(例如,机器学习推理中的两个)、中等规模或非常大;后两种规模范围在拍卖和投票中都很常见。同样,参与方可能彼此认识(例如,部门教职员工投票中),也可能不认识(例如,在线拍卖中)。MPC协议在数学上保证了输入值的保密性,但不会试图隐藏参与方的身份;如果需要匿名参与,可以通过将MPC与匿名通信协议结合来实现。

尽管MPC看起来像魔术,但利用密码学和分布式计算技术,它是可以实现的,甚至是实用的。

差分隐私

差分隐私是一套统计学和算法技术,用于在不揭示数据贡献者与数据项之间映射关系的情况下,发布数据集的聚合函数。与MPC类似,我们有n个参与方,每方拥有一个数据项。参与方自身,或者更常见的是一个外部代理,希望计算参与方输入数据的聚合函数。

如果这项计算是以差分隐私的方式进行的,那么从输出中推断出的关于第i个输入xi的任何信息都不能与个体参与方Pi关联起来。通常,参与方数量n非常大,参与方彼此不认识,目标是计算集合{x1, …, xn}的统计属性,同时保护个体数据贡献者{P1, …, Pn}的隐私。

更详细一点,如果满足两个属性,我们说一个随机化算法M在关于聚合函数f方面保持差分隐私。首先,对于每一组输入值,M的输出都密切逼近f的值。其次,对于第i个个体输入可能值的每一对不同的(xi, xi’),分布M(x1, …, xi, …, xn)大约等同于分布M(x1, …, xi′, …, xn)。两个分布之间的最大“距离”由一个称为隐私参数的参数ε来表征,M被称为ε-差分隐私算法。

请注意,差分隐私算法的输出是一个从函数f值域上的分布中抽取的随机变量。这是因为DP计算需要随机化;特别是,它通过“添加噪声”来工作。所有已知的DP技术在隐私参数和计算输出的效用之间引入了一个显著的权衡。较小的ε值提供更好的隐私保证,但需要更多的噪声,从而产生准确性较低的输出;较大的ε值导致较差的隐私界限,但需要较少的噪声,从而提供更好的准确性。

MPC与DP的能力与局限性

现在我们来回顾一下这两种方法的一些优缺点,并强调它们之间的一些关键区别。

安全多方计算

MPC已经被广泛研究了40多年,并且有强大的通用结果表明,可以使用各种密码学和编码理论技术、系统模型和对手模型为所有函数f完成计算。

尽管存在完全通用的安全协议,但MPC在现实世界中的部署有限。一个障碍是协议的复杂性——特别是功能最强大的通用解决方案的通信复杂性。目前关于MPC的许多工作都在解决这个问题。

在MPC应用于特定场景之前,必须回答的更基本的问题包括所计算的函数f的性质以及计算所在的信息环境。为了解释这一点,我们首先注意,MPC计算中的参与者集合不一定与接收计算结果的参与方集合相同。这两个集合可能完全相同,一个可能是另一个的真子集,它们可能有一些(但不是全部)共同元素,或者它们可能完全不相交。

尽管安全的MPC协议(可证明地!)除了可以从结果推断出的信息外,不会向接收者透露任何关于私有输入的信息,但即使这样也可能透露得太多。例如,如果结果是全民公投中支持和反对某个提案的票数,并且该提案获得一致通过,那么接收者就会知道每个参与者是如何投票的。公民投票机构可以通过使用不同的f来避免泄露私人信息,例如,如果赞成票数至少是参与者人数的一半,则结果为“是”,否则为“否”。

这个简单的例子展示了隐私保护计算中一个普遍存在的权衡:如果参与者愿意在极端情况下向接收者透露私人信息,他们就可以计算信息量更大的函数;如果他们愿意计算信息量较少的函数,则可以在极端情况下实现更高的隐私。

除了仔细指定函数f之外,MPC的用户还必须评估部署MPC的信息环境,特别是必须避免接收者将计算结果与辅助信息结合时可能发生的灾难性隐私泄露。

请注意,这些潜在的敏感信息并非由MPC协议泄露,该协议除了揭示总损失金额(即函数f的值)外不透露任何信息。相反,它是通过将计算结果与计算完成前参与者已有的信息相结合而推断出来的。任何揭示函数f精确值的计算方法都会带来当结果与辅助信息结合时输入隐私将被破坏的相同风险。

差分隐私

DP框架提供了一些优雅、简单的机制,可以应用于输出是实数向量的任何函数f。本质上,可以用适当定义的随机值独立地扰动或“加噪”f(x)的每个分量。为隐藏任何单个数据主体的贡献(或参与)而必须添加的噪声量由隐私参数以及单个输入能改变f输出的最大量决定。

DP技术也受益于强大的组合定理,该定理允许在一个应用中将单独的差分隐私算法组合起来。特别是,独立使用一个ε1-差分隐私算法和一个ε2-差分隐私算法,当合在一起时,是(ε1 + ε2)-差分隐私的。

DP适用性的一个限制是需要添加噪声——这在某些应用场景中可能是不可接受的。更根本的是,函数f的ℓ1灵敏度给出了为达到给定隐私参数ε而必须添加到输出中的噪声量的上界,同时也给出了下界。如果f的输出受输入中单个异常值的强烈影响,那么就不可能同时实现强大的隐私和高精度。

DP最初设计用于计算统计聚合,同时保护个体数据主体的隐私;特别是,它是针对实值函数设计的。此后,研究人员为非数值计算开发了DP技术。

结论

总之,安全多方计算和差分隐私都可用于在保护数据隐私的同时对敏感数据进行计算。两套技术之间的重要区别包括:

  • 隐私保证的性质:使用MPC计算函数y = f(x1, x2, …, xn)保证结果的接收者仅获知输出y,别无其他。例如,如果恰好有两个输入向量被f映射到y,那么无论这两个输入向量在多少分量上不同或差异有多大,输出y的接收者都无法获得关于这两个输入向量中哪一个是MPC计算的实际输入的信息。另一方面,对于任何不映射到y的第三个输入向量,接收者确定地知道MPC计算的实际输入不是这第三个向量,即使它仅在一个分量上与前面两个中的一个不同,并且差异非常小。相比之下,使用DP算法计算f保证,对于任何仅在一个分量上不同的两个输入向量,计算(随机化的!)结果大致无法区分,无论这两个输入向量上f的精确值是相等、接近相等还是极其不同。直接使用组合可以为在c个分量上不同的输入提供隐私保证,代价是将隐私参数增加c倍。
  • 典型用例:DP技术最常用于计算非常大的数据集的聚合属性,通常,数据贡献者的身份是未知的。这些条件都不是MPC用例的典型特征。
  • 精确答案与带噪答案:MPC可用于计算所有函数f的精确答案。DP要求添加噪声。这在许多统计计算中不是问题,但在某些应用场景中,即使是少量的噪声也可能是不可接受的。此外,如果f对输入数据中的异常值极其敏感,那么为实现有意义的隐私而需要的噪声量可能会影响有意义的准确性。
  • 辅助信息:将DP计算的结果与辅助信息相结合不会导致隐私损失。相比之下,任何返回函数f精确值y的计算方法(包括MPC)都有这样的风险:如果y与辅助信息结合,接收者可能能够推断出一些关于输入数据的信息,而这些信息并非仅由y本身所暗示。

最后,我们想指出,在某些应用中,可以同时获得MPC和DP的好处。如果目标是计算f,而g是f的一个在同时实现良好隐私和准确性方面的差分隐私近似,那么一个自然的方法是使用MPC来计算g。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1159586.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【毕业设计】基于AI深度学习训练识别草莓是否腐烂基于python-AI深度学习训练识别草莓是否腐烂

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

全网最全8个一键生成论文工具,MBA论文写作必备!

全网最全8个一键生成论文工具,MBA论文写作必备! AI 工具助力学术写作,高效降重不再是难题 随着人工智能技术的不断进步,AI 工具在学术写作领域的应用越来越广泛。对于 MBA 学生而言,论文写作不仅是学术能力的体现&…

基于 YOLOv8 的水下垃圾智能识别系统实战 [目标检测完整源码]

基于 YOLOv8 的水下垃圾智能识别系统实战 [目标检测完整源码] 1. 背景与问题定义 随着海洋活动强度的不断提升,水下垃圾已成为影响海洋生态系统的重要因素。塑料制品、废弃渔具、金属残骸等长期滞留于水体中,不仅破坏生态环境,还会对海洋生…

深度学习计算机毕设之基于python-AI深度学习训练识别草莓是否腐烂基于机器学习python-AI深度学习训练识别草莓是否腐烂

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

2026年想转行网络安全:从运维转安全的学习路径

转行网络安全:从运维转安全的学习路径 一、引言 运维工程师(如 Linux 运维、云运维)转型网络安全工程师(如安全运维、安全运营、渗透测试)具有天然优势 —— 运维工作中积累的操作系统、网络配置、云平台管理经验&…

2026年想转行网络安全:从运维转安全的学习路径

转行网络安全:从运维转安全的学习路径 一、引言 运维工程师(如 Linux 运维、云运维)转型网络安全工程师(如安全运维、安全运营、渗透测试)具有天然优势 —— 运维工作中积累的操作系统、网络配置、云平台管理经验&…

计算机深度学习毕设实战-基于python深度学习训练识别草莓是否腐烂基于python-AI深度学习训练识别草莓是否腐烂

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

深度测评9个AI论文软件,专科生毕业论文写作必备!

深度测评9个AI论文软件,专科生毕业论文写作必备! AI 工具如何助力论文写作?这些功能你不可不知 在当前的学术环境中,越来越多的专科生开始借助 AI 工具来提升论文写作效率。尤其是在面对高重复率、语言表达不流畅等问题时&#xf…

2026年如何成为一名黑客?小白必学的12个基本步骤

如何成为一名黑客?小白必学的12个基本步骤 如何成为一名黑客?小白必学的12个基本步骤 黑客攻防是一个极具魅力的技术领域,但成为一名黑客毫无疑问也并不容易。你必须拥有对新技术的好奇心和积极的学习态度,具备很深的计算机系统…

网络安全转行薪资揭秘:不同阶段能拿多少?如何快速涨薪?

网络安全转行薪资揭秘:不同阶段能拿多少?如何快速涨薪? 引言 “转行网络安全能赚多少?”“工作 1 年能涨薪多少?” 是很多转行同学的核心疑问。本文结合 2025 年行业数据(来自 BOSS 直聘、智联招聘&#x…

赋能者成长记:一位HR如何通过打造明星雇主品牌,让自己也成为公司“名片”

“HR的工作发岗位、筛简历、发offer?”不少HR都有过这样的自我怀疑。在他人眼中是“招聘工具人”,实则在海量简历中“大海捞针”、在候选人和业务部门间斡旋,却难获行业认可。殊不知,HR的价值远不止“招到人”——打造明星雇主品牌…

秋招数据复盘指南:除了招聘人数,HR还应向管理层汇报这3个关键指标

各位刚打完秋招硬仗的HR伙伴们,述职报告准备好了吗?如果您的复盘还停留在“收到简历10万份,录用200人”这类基础数据,那么恭喜——您已经成功把自己定位成了“简历搬运工”。真正专业的HR,懂得用数据讲好招聘故事&…

新能源车企争夺战:如何助力企业抢占年轻科技人才?

“新能源车企抢年轻科技人才,比抢充电桩还卷!”不少车企HR吐槽:薪资、股权齐上阵仍抢不过同行,优质应届生手握多个offer挑花眼。数据显示,2025年新能源汽车行业人才缺口超52万,电池研发、智能驾驶等核心技术…

keil编译报错

1. keil安装不安装v5编译器,但又有一些项目需要2. 在官网下载legacy compiler需要注册账号3.下载windows上面的是一个安装包,它喜欢安装到program files(x86)里面,会导致编译的时候即使项目设置里面设置好了编译器的位置,编译器也…

低绩效员工复盘:招聘时如何识别“可能”的低绩效风险?

“季度复盘又头疼,3个低绩效员工2个是新招的”“面试时看着优秀,入职后频频掉链,培训沟通全白费”——绩效季的自我怀疑,是不少HR的常态。低绩效员工不仅拉低团队效率,更会叠加招聘、培训、离职重置等隐性成本。其实很…

MySQL连表查询讲解:从基础到实战

引言 在数据库操作中,连表查询(JOIN)是最核心且强大的功能之一。它允许我们从多个表中关联数据,构建出复杂而有意义的查询结果。无论是开发Web应用、数据分析还是系统设计,掌握连表查询都是MySQL开发者必备的技能。本文…

螺蛳壳里做道场:电鱼智能 RK3576 在紧凑机身中解决 6TOPS 算力全开的散热挑战

为什么紧凑机身散热这么难?1. 热流密度过高RK3576 封装尺寸小,但集成了 4个 A72、4个 A53 和 NPU。当 AI 算法全开时,热量集中在指甲盖大小的 SoC 表面,形成局部热点(Hot Spot)。2. 空气对流受限紧凑设备&a…

【计算机毕业设计案例】基于python-CNN深度学习卷神经网络对苹果是否腐烂识别基于python-CNN深度学习对苹果是否腐烂识别

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

【量化】w8a8及per-channel等概念辨析

在看FlashAttention的一个issue时,问了大模型推荐了这篇文章,解决了我长期以来对量化方面存在的几个疑问的点。 w8a8,w4a8这么多的量化手段到底是什么意思? W指权重,A指激活值。权重就是模型训练好后固定下来的&#…

维护类型可分为设备维护、软件维护和数据维护三大类,每类具有不同的目标与执行方式

维护类型可分为设备维护、软件维护和数据维护三大类,每类具有不同的目标与执行方式: 设备维护 定期保养:包括例行检查、清洁、润滑及耗材更换(如滤网、皮带等),旨在预防故障发生,延长设备寿命。…