论文学习——用于隐私保护个性化的联邦图神经网络框架

news/2025/11/4 13:45:21/文章来源:https://www.cnblogs.com/MixOvO/p/19190088

https://www.nature.com/articles/s41467-022-30714-9

A federated graph neural network framework for privacy-preserving personalization 用于隐私保护个性化的联邦图神经网络框架

研究背景与动机

1.1 个性化系统的隐私困境

  • 个性化推荐(如新闻、商品、影视推荐)依赖用户行为数据(点击、评分、购买等),但这些数据非常隐私敏感
  • 传统 GNN(Graph Neural Network)个性化模型需要集中存储用户数据,会带来隐私泄露和法规风险(如 GDPR)。
  • 现实中,数据常分散在用户设备上,不能随意集中。

1.2 联邦学习 (Federated Learning, FL)

因此,本文提出了一种新的框架:FedPerGNN ——既能建模高阶用户-物品交互,又能保护隐私。

高阶用户-物品交互

它描述的是用户与物品之间间接的、非一阶的关联关系

一、为什么高阶交互重要?

现实中,用户与物品的直接交互往往稀疏(data sparsity),仅靠一阶信息可能不足以捕捉兴趣。
高阶交互能帮助模型:

  1. 发现潜在兴趣:通过相似用户或相似物品的多跳连接挖掘更深层的偏好;
  2. 增强泛化能力:减少冷启动问题;
  3. 提升推荐准确率:在图神经网络(如GCN、LightGCN)中,多层传播就是在建模这种高阶交互。

LightGCN (SIGIR 2020) 发现 NGCF 中的非线性变换和权重矩阵未必有助于推荐性能,于是提出了一个更“轻”的版本,只保留最核心的高阶信息传播机制

这里没有激活函数、没有参数矩阵,也没有非线性操作。
每一层仅做“邻居平均 + 归一化”,重点是通过多层传播获得更深的高阶用户-物品语义关联

最终嵌入为多层结果的加权和:

通过多层传播,模型就能在图中“走远一点”,建立用户与更多潜在物品的联系。

GAT 网络(Graph Attention Network,图注意力网络

让图中的节点在聚合邻居信息时,根据“重要性”分配不同权重,而不是平均处理所有邻居。

GAT 在图上的传播过程可以表示为:

h:节点特征 W:线性变换权重矩阵 a:注意力系数 激活函数

一、注意力系数的计算过程

首先将两个节点的特征拼接:

通过 LeakyReLU 激活获得邻居间的“相关性分数”;

对所有邻居进行 Softmax 归一化, 这样可以保证邻居权重总和为 1:

LDP(Local Differential Privacy 局部差分隐私)

一、差分隐私(Differential Privacy, DP)

差分隐私的目标是:

在分析或训练模型时,确保单个用户的数据对最终结果的影响非常小,以至于攻击者无法判断某个用户是否参与了训练。

二、什么是“局部差分隐私”(Local Differential Privacy)

传统的 DP 假设数据集中收集后再加噪(集中式保护),而 LDP 的核心思想是:

在数据离开用户设备之前就被加噪处理,服务器永远看不到原始数据。

所以:

  • 集中式 DP 中,数据收集方是可信的;
  • LDP 中,每个用户自己保护自己的隐私,即“去信任化”。

论文中在上传梯度前使用了 LDP 模块:

含义如下:

  • clip(·, δ):对梯度进行裁剪,限制数值大小;
  • Laplace(0, λ):在梯度上加入拉普拉斯噪声
  • 这样,上传的梯度被“模糊化”,服务器无法精确推断出用户的具体行为。

这里梯度裁剪的目的是:

  1. 控制梯度的敏感度 —— 如果不裁剪,有的用户梯度过大,会破坏差分隐私的上界;
  2. 便于加噪声 —— 只有当所有梯度都在固定范围内,才能正确地控制噪声强度;
  3. 防止隐私泄露 —— 如果梯度幅度太大,服务器可通过数值大小推测用户行为。

即使用户不上传原始数据,只上传梯度,也有泄露风险。因此 FedPerGNN 结合 LDP,实现了:

  1. 防止梯度反推攻击
  2. 保护用户行为历史
  3. 在多轮训练中限制隐私预算

论文中指出:

时,可实现 3-differential privacy(ε=3),这意味着隐私保护强度较高且性能损失可控。

三、拉普拉斯噪声

拉普拉斯分布

拉普拉斯分布是一种对称的钟形分布(像比正态分布尖一点的山峰),
定义如下:

其中:

  • μ:分布中心(通常取 0);
  • b:尺度参数(控制噪声大小)。

差分隐私要求噪声的分布必须能抵消一个带来的最大变化即概率之比小于e^ε

拉普拉斯噪声公式:

其中:

也就是说:Δf 越大(对单个用户敏感) → 噪声要加得更大;

ε 越小(隐私要求越强) → 噪声也要加得更大;

拉普拉斯分布的概率密度正好保证符合差分隐私的定义,满足 ε-DP 的最小充分噪声机制:

拉普拉斯分布的指数衰减保证了每次加入噪声之后结果看起来一样,攻击者无法判断哪份数据导致了什么。

伪交互

一、为什么引入伪交互

对于嵌入层,只有用户交互过的物品的梯度才是非0,服务器若观察哪些物品梯度非0,就能推断出用户的真实交互历史。

所以引入来混淆真实信号保护隐私。

二、实现步骤

从全局物品集中随机采样 M 个“未交互物品”

为这些伪物品生成伪造梯度

将真实梯度与伪梯度合并上传

服务器收到梯度后无法区分真假交互项
因为所有物品的梯度统计特征(均值、方差)一致。

隐私保护图扩展

一、为什么要“图扩展”?

在联邦学习的场景下

每个用户的数据都存在自己的设备上不能互相交换数据;所以每个用户的本地子图里只有自己的一阶交互(user-item),缺少高阶信息

于是,FedPerGNN 设计了一个隐私保护的图扩展协议,让用户在不泄露数据的前提下获得邻居用户的信息

二、图扩展流程

生成公钥并分发

服务器永远无法直接看到明文的交互信息。

加密上传

  • 每个用户设备:
    • 取出自己交互过的物品 ID(例如看过的电影);
    • 使用公钥进行加密;
    • 同时上传自己的用户嵌入向量 fig:

上传内容包括:

这些数据被发送到一个可信第三方服务器(trusted third-party server),用于执行“匿名匹配”操作。

匿名匹配

因为所有匹配都是在密文层完成的,第三方服务器并不知道真实的物品或用户身份。

匿名信息分发

  • 第三方服务器将这些邻居用户的匿名嵌入返回给原用户;
  • 用户设备将这些邻居节点接入自己的本地子图。

扩展后,用户的本地图结构变为:

User u_i

Interacted Items (t1, t2, ...)

Anonymous Neighbor Users (u_j, u_k, ...)

这样,本地子图就从仅包含一阶交互(user–item)变成了包含二阶(user–item–user)甚至三阶关系的扩展图

三、图扩展的效果与机制总结

步骤

内容

隐私保护方式

密钥分发

服务器发布公钥

RSA 加密机制

加密上传

用户上传加密 item ID + 用户 embedding

服务器看不到明文

匹配邻居

第三方服务器匹配加密 ID 找邻居

仅在密文层比对

匿名返回

返回邻居匿名 embedding

不包含用户身份信息

图扩展轮数从 0 增加到 3 时,RMSE 明显降低。前两轮扩展带来主要性能提升,超过三轮后收益变小。因此仅需少量扩展就能获得高阶信息

加密匹配和匿名分发

一、问题背景:为什么需要加密匹配和匿名分发

在 FedPerGNN 框架中,每个用户的交互数据(看过的电影、听过的歌、买过的商品)都留在本地设备。
这导致:

如果用户直接上传明文的交互信息(item IDs),服务器就能知道每个用户看过什么,隐私泄露

所以 FedPerGNN 的关键问题是:

如何在不暴露物品和用户身份的前提下,让系统知道哪些用户有共同的交互?

答案就是:加密匹配 + 匿名分发

二、加密匹配(Encrypted Matching)

目标:让第三方服务器能判断两个用户是否看过相同的物品,但 不能知道这些物品是什么,也不知道是谁看过。

公钥发布

用户端加密

  • 用户 fig:拥有交互物品集合 fig:
  • 用户用公钥 fig:加密每个物品ID:
  • 得到加密后的集合 fig:

上传到第三方服务器

密文匹配

  • 第三方服务器收到所有用户上传的 fig:
  • 它不能解密内容;
  • 但能判断哪些加密值相同(即同一个 item ID 的密文);
  • 从而找出哪些用户“看过相同的物品”。

生成邻居集合

对于每个用户fig:,服务器维护邻居集合:

也就是说如果两个用户的加密交互集合有交集(哪怕只有一个相同密文),它们就是邻居。

三、匿名分发(Anonymous Dissemination)

有了邻居关系后,还需要让用户获得这些“邻居”的特征,以扩展本地图。

问题是:

如果服务器直接告诉你“你的邻居是用户123”,就暴露了别人的身份!

于是 FedPerGNN 采用了 匿名分发机制

构造匿名嵌入集合

返回给原用户

  • 第三方服务器把这个集合返回给用户 fig:
  • 用户接收后,将这些邻居嵌入作为图中的“高阶邻居节点”,扩展自己的本地子图。

本地图扩展

用户 fig:的本地图结构更新为:

也就是说,他现在可以在图中看到通过共同物品连接的匿名用户节点。此后,GNN 就能利用这些新连接进行高阶信息传播(例如三阶、四阶关系)。

四、隐私保护机制分析

隐私层

保护方式

用户隐私

上传的 item IDs 被 RSA 加密,无法被解密

物品隐私

匹配只在密文层完成,服务器不知道真实物品

邻居身份隐私

返回的邻居嵌入是匿名的,不含用户ID

服务器安全

假设第三方与学习服务器不串通

防反推攻击

嵌入是模型输出,不直接包含原始行为

RMSE

均方根误差,衡量预测值和实际值之间的差异。对大误差敏感,突出极端的预测错误,越小越准确。用于回归模型的评估,反应模型的准确性。

标准偏差(SD):用于描述数据的离散程度

FedPerGNN 的整体框架

FedPerGNN 的详细框架

隐私保护用户-项目图扩展协议的框架

不同图扩展轮数下的个性化 RMSE 和上传/下载通信成本

不同伪交互项数(*M*)下的个性化 RMSE*(左 y* 轴)和通信成本 *(右 y* 轴)

  1. 任务与数据形态
    把评分数据视作用户–物品二部图:边是“已发生的交互/评分”,目标是预测未观测评分(以 RMSE 评估,报告 5 次独立实验的均值±方差)。用到 6 个公开集:MovieLens-100K/1M/10M、Flixster、Douban、YahooMusic(场景与统计细节见正文与补充材料)。
  2. 本地子图构造(decentralized)
    没有全局图。每个客户端仅用本机历史交互构造“一阶本地子图”(自己这个用户节点 + 交互过的物品节点)。开始训练时先不使用邻居用户嵌入;等到本地模型更稳定后,再周期性引入匿名邻居用户嵌入参与聚合(邻居嵌入不是每步同步训练)。隐私保护的模型更新(梯度层面)
  1. 隐私保护的子图扩展(高阶信息)
    为拿到高阶邻域而不泄露隐私:
  1. 效果与对照
    在 6 个数据集上,FedPerGNN 相比 SOTA 联邦个性化方法(FedMF/FCF)降低 4.0%–9.6% 的 RMSE,并与集中式 GNN 方法相当;其优势来自“能在隐私保护下利用高阶图结构”。

本地服务器要不要“解密之后”再做子图扩展?

不需要,也不应该。 在论文的协议里,子图扩展完全在密文层面做匹配:客户端只上报加密后的物品ID,第三方匹配服务没有私钥、无法解密,它只做“密文相等匹配”并返回匿名邻居嵌入用于扩展;任何“先解密再扩展”的做法都会破坏隐私假设并扩大风 险。论文还明确了一个限制:如果第三方与学习服务器串通(共享私钥/物品表)就会泄露交互历史,只剩评分层面的保护能兜底,因此部署时必须避免这一点。

工程落地小贴士(按论文复现实践):

  • 学习服务器只发公钥;第三方绝不持有私钥,两者物理/逻辑隔离,日志与访问控制独立(防“串通”)。
  • 为了实现“密文等值匹配”,加密应满足确定性可比对(论文表述为“通过匹配加密后的 item ID”完成查找;这意味着要保证同一明文得到可比较的密文——这是对论文实现的直接推断)。
  • 客户端侧按论文默认值起步:扩展 3 轮M=1000δ=0.1、λ=0.2,邻居嵌入周期性更新、训练早期先不引入邻居嵌入。

如果你把“学习服务器”和“第三方匹配服务”都部署在同一台本地机器上,也依旧要进程级/容器级隔离,并确保第三方进程没有私钥访问路径;否则在论文威胁模型下就等价于“串通”。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/955621.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

现今木饰面板厂家排行:绿饰面板厂家推荐榜解析

摘要 木饰面板行业在2025年迎来快速发展,随着环保和装修需求的提升,厂家竞争加剧。本文基于市场调研和用户反馈,整理出当前木饰面板厂家排名前十的榜单,旨在为读者提供参考。排名综合考虑了产品质量、服务口碑和创…

工程石材厂家排行2025:成都优质工厂榜单

摘要 工程石材行业在2025年持续增长,受益于建筑和装饰市场的扩张,市场规模预计达到千亿级别。本文基于用户搜索意图,提供一份权威的工程石材厂家排名表单,涵盖成都、四川及全国地区的优质工厂,旨在帮助采购商快速…

2025年成都工程石材厂家十大推荐榜单:四川汇才石业实力领跑

摘要 随着建筑行业对高品质石材需求的持续增长,成都工程石材市场在2025年迎来了新一轮发展机遇。本文基于实地考察、用户口碑和行业数据,为您精选成都及四川地区十大工程石材厂家,其中四川汇才石业有限公司以综合实…

CVE资金中断:安全团队如何做好准备?

CVE资金中断:安全团队如何做好准备?CVE资金中断在整个网络安全社区敲响了警钟,安全团队应如何为CVE可能失效的情况做好准备?Perforce静态分析工具QAC和Klocwork能在开发早期阶段识别并消除CVSS和CVE漏洞及缺陷,确…

成都华洪圣达电气设备有限公司领衔竖井桥架厂家排行

摘要 竖井桥架作为电缆敷设的关键组件,在建筑、电力和通信行业中需求持续增长,2025年行业预计保持稳健发展。本文基于市场调研和用户口碑,综合评测竖井桥架厂家,提供排名前十的推荐榜单,旨在帮助采购商和工程师高…

2025年竖井桥架公司推荐排行榜:成都华洪圣达电气设备有限公司领衔

摘要 竖井桥架作为建筑电气系统中的关键组件,2025年行业呈现高速发展态势,随着智能建筑和基础设施升级需求增长,市场规模预计年增15%以上。本文基于市场调研和用户口碑,整理出竖井桥架厂家排名TOP10榜单,旨在为采…

2025年改性pp阻燃母料订购源头厂家权威推荐榜单:丽水pp阻燃改性/pp的阻燃改性/阻燃改性PP源头厂家精选

在绿色低碳与安全生产的双重驱动下,改性PP阻燃母料作为关键功能性材料,其市场需求持续增长。据2025年行业分析数据显示,中国阻燃塑料市场规模已达到580亿元,其中阻燃PP材料占比约28%。 随着电子电器、新能源汽车等…

四川竖井桥架供应厂家推荐top10榜单

摘要 竖井桥架作为电缆管理系统的关键组件,在建筑、工业和基础设施项目中发挥着重要作用。2025年,随着成渝经济圈的快速发展,竖井桥架行业需求持续增长,厂家竞争加剧。本文基于市场调研和用户口碑,整理了四川地区…

【CSP-S 2025】社团招新 题解分析

题目描述 小 L 是学校算法协会的成员。在今年的学校社团招新中,小 L 一共招收了 \(n\) 个新成员,其中 \(n\) 为偶数。现在小 L 希望将他们分到协会不同的部门。 算法协会共设有三个部门,其中第 \(i\) (\(1 \leq i \…

基环树学习笔记

基环树学习笔记 往一个树上额外添加一条边,称得到的图为基环树。 基环树点数和边数相同,但是点数和边数相同的图不一定是基环树。 另外,满足以下性质的图是基环森林(当联通时是基环树):每个点有且仅有一条出边,…

【A】nice try

CF1787I Treasure Hunt 容易发现,他的限制其实是无用的。考虑 \(l\le q\le r\) 的情况,他的贡献是 \(s_r+s_q-s_l\),那么我们可以将 \(s_r,s_q\) 中的较小者调整为较大者,那么一定会满足 \(r\le q\) 的限制。 所以…

Towards All-in-One Medical Image Re-Identification

[CVPR25] 多模态医学图像检索实现隐私保护Towards All-in-One Medical Image Re-Identification MaMI:一个模型实现多模态的医学图像重识别 代码仓库 动机 所谓重识别(Re-Identification)在本文的语境中指的是:在数…

day01-Markdown学习

day01-Markdown学习小白继续坚持。Markdown学习 总结标题用 :#个数来表示字体用 :*斜体 **粗体 --画掉引用 :>+空格分割线:~~~或***图片:![名字](网址或内存地址)超链接:[内容](网址)列表:有序:1.+空…

2025年11月深圳离婚房产律师机构评测:综合实力与服务质量榜

在深圳这座快节奏的现代化都市,婚姻关系的变故往往伴随着复杂的财产分割问题,其中房产因价值高、情感因素重而成为争议焦点。选择一家专业的律师事务所来处理离婚房产纠纷,对于保障自身合法权益、降低诉讼风险至关重…

2025年11月深圳离婚房产律所综合评测:服务特色与专业能力深度对比

在深圳这座现代化大都市,随着社会经济发展和人们观念的变化,离婚案件中涉及房产分割的需求日益增多。选择一家专业的律师事务所来处理离婚房产问题,成为许多面临婚姻变故人士的重要决策。这类用户通常处于情感脆弱期…

jiangly模板-数学(数论,几何,多项式)

数学 快速幂 /** 快速幂 - 普通版* 2023-10-09: https://atcoder.jp/contests/tenka1-2017/submissions/46411797 **/ int power(int a, i64 b, int p) {int res = 1;for (; b; b /= 2, a = 1LL * a * a % p) {if…

vimrc 插件使用

ack.vim https://github.com/mileszs/ack.vim在Vim中运行你最喜欢的搜索工具,并获得增强的结果列表。 此插件旨在作为程序员搜索工具ack的Vim前端。ack可以替代99%的grep使用场景。该插件允许您在Vim中使用ack进行搜索…

Java中的委托和拉姆达(表达式/语句)

Java中的委托和拉姆达(表达式/语句)所谓委托,主要指函数声明的一种方式。通常在函数作为参数时使用。 Java中现成的委托,语法还是比较啰嗦的。可以看到,对不同个数的参数和返回值,有不同的写法。我们这里举个例子…

国债ETF收益规律发现及应用

国债ETF收益规律发现及应用利率下行的年代,国债在投资可选项中的重要性也显著提升了,本文研究国债ETF涨跌规律,以及能否利用规律提高收益。研究数据:十年期国债, 代码:511260日线数据时间范围: 2017-08 到 2025…

2025年11月宝宝起名公司选择榜:舜缘居等五强对比解析

正在打开一份“起名焦虑”档案:预产期倒计时,出生医学证明必须填名字,长辈列了五行缺金、笔画要吉、读音要亮的三页纸,网上免费打分却一个90分都没有;户口登记窗口的民警提醒“一旦录入,变更要走公证”,于是“靠…