联邦学习的收敛性分析(全设备参与,不同本地训练轮次)

联邦学习的收敛性分析

在这里插入图片描述

在联邦学习中,我们的目标是分析全局模型的收敛性,考虑设备异构性(不同用户的本地训练轮次不同)和数据异质性(用户数据分布不均匀)。以下推导从全局模型更新开始,逐步引入假设并推导期望损失的递减关系,最终给出收敛性结论。

1. 全局模型更新与泰勒展开

全局模型更新

在联邦学习中,设全局模型在第 t t t 轮为 g t g_t gt,共有 U U U 个用户参与训练。每个用户 k k k 从全局模型 g t g_t gt 开始(即 w t k , 0 = g t w_t^{k, 0} = g_t wtk,0=gt),进行 l k t l_k^t lkt 轮本地梯度下降更新:

w t k , i + 1 = w t k , i − η ∇ G t k , i , w_t^{k, i+1} = w_t^{k, i} - \eta \nabla \mathcal{G}_t^{k, i}, wtk,i+1=wtk,iηGtk,i,

其中 η \eta η 是学习率, ∇ G t k , i \nabla \mathcal{G}_t^{k, i} Gtk,i 是用户 k k k 在第 i i i 轮本地训练时的梯度。经过 l k t l_k^t lkt 轮训练后,用户 k k k 的本地模型为:

w t k , l k t = w t k , 0 − η ∑ i = 0 l k t − 1 ∇ G t k , i = g t − η ∑ i = 0 l k t − 1 ∇ G t k , i . w_t^{k, l_k^t} = w_t^{k, 0} - \eta \sum_{i=0}^{l_k^t - 1} \nabla \mathcal{G}_t^{k, i} = g_t - \eta \sum_{i=0}^{l_k^t - 1} \nabla \mathcal{G}_t^{k, i}. wtk,lkt=wtk,0ηi=0lkt1Gtk,i=gtηi=0lkt1Gtk,i.

全局模型通过聚合所有用户的本地模型得到:

g t + 1 = 1 U ∑ k = 1 U w t k , l k t = g t − η U ∑ k = 1 U ∑ i = 0 l k t − 1 ∇ G t k , i . g_{t+1} = \frac{1}{U} \sum_{k=1}^U w_t^{k, l_k^t} = g_t - \frac{\eta}{U} \sum_{k=1}^U \sum_{i=0}^{l_k^t - 1} \nabla \mathcal{G}_t^{k, i}. gt+1=U1k=1Uwtk,lkt=gtUηk=1Ui=0lkt1Gtk,i.

泰勒展开

为了分析全局损失 F ( g t + 1 ) F(g_{t+1}) F(gt+1) 的变化,我们对 F ( g t + 1 ) F(g_{t+1}) F(gt+1) g t g_t gt 处进行二阶泰勒展开:

F ( g t + 1 ) ≈ F ( g t ) + ∇ F ( g t ) T ( g t + 1 − g t ) + 1 2 ( g t + 1 − g t ) T ∇ 2 F ( g t ) ( g t + 1 − g t ) . F(g_{t+1}) \approx F(g_t) + \nabla F(g_t)^T (g_{t+1} - g_t) + \frac{1}{2} (g_{t+1} - g_t)^T \nabla^2 F(g_t) (g_{t+1} - g_t). F(gt+1)F(gt)+F(gt)T(gt+1gt)+21(gt+1gt)T2F(gt)(gt+1gt).

代入 g t + 1 − g t = − η U ∑ k = 1 U ∑ i = 0 l k t − 1 ∇ G t k , i g_{t+1} - g_t = -\frac{\eta}{U} \sum_{k=1}^U \sum_{i=0}^{l_k^t - 1} \nabla \mathcal{G}_t^{k, i} gt+1gt=Uηk=1Ui=0lkt1Gtk,i

F ( g t + 1 ) ≈ F ( g t ) − η U ∇ F ( g t ) T ( ∑ k = 1 U ∑ i = 0 l k t − 1 ∇ G t k , i ) + η 2 2 ( 1 U ∑ k = 1 U ∑ i = 0 l k t − 1 ∇ G t k , i ) T ∇ 2 F ( g t ) ( 1 U ∑ k = 1 U ∑ i = 0 l k t − 1 ∇ G t k , i ) . F(g_{t+1}) \approx F(g_t) - \frac{\eta}{U} \nabla F(g_t)^T \left( \sum_{k=1}^U \sum_{i=0}^{l_k^t - 1} \nabla \mathcal{G}_t^{k, i} \right) + \frac{\eta^2}{2} \left( \frac{1}{U} \sum_{k=1}^U \sum_{i=0}^{l_k^t - 1} \nabla \mathcal{G}_t^{k, i} \right)^T \nabla^2 F(g_t) \left( \frac{1}{U} \sum_{k=1}^U \sum_{i=0}^{l_k^t - 1} \nabla \mathcal{G}_t^{k, i} \right). F(gt+1)F(gt)UηF(gt)T

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/78855.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

多线程爬虫中实现线程安全的MySQL连接池

多线程爬虫中实现线程安全的MySQL连接池 在日常开发中,数据库操作频繁建立/关闭连接会带来性能损耗,尤其在多线程场景中更容易出现连接复用、阻塞等问题。因此,本文介绍如何使用 Python 封装一个 线程安全的 MySQL 连接池,并通过…

HTML:常用标签(元素)汇总

文章目录 一、标签分类1、块标签与行标签 二、排版标签三、文本标签1、常用2、不常用 四、图片标签五、超链接1、跳转页面2、跳转文件或下载文件3、跳转到锚点4、唤起本地应用 六、列表七、表格八、表单九、框架十、HTML实体十一、全局属性十二、meta元信息 一、标签分类 1、块…

20250430在ubuntu14.04.6系统上完成编译NanoPi NEO开发板的FriendlyCore系统【严重不推荐,属于没苦硬吃】

【开始编译SDK之前需要更新源】 rootrootubuntu:~/friendlywrt-h3$ sudo apt update 【这两个目录你在ubuntu14.04.6系统上貌似git clone异常了】 Y:\friendlywrt-h3\out\wireguard Y:\friendlywrt-h3\kernel\exfat-nofuse 【需要单线程编译文件系统,原因不明】 Y:…

【AI论文】CipherBank:通过密码学挑战探索LLM推理能力的边界

摘要:大型语言模型(LLMs)已经展现出非凡的能力,尤其是最近在推理方面的进步,如o1和o3,推动了人工智能的发展。尽管在数学和编码方面取得了令人印象深刻的成就,但在需要密码学专业知识的领域&…

艺术与科技的双向奔赴——高一鑫荣获加州联合表彰

2025年4月20日,在由M.A.D公司协办的“智艺相融,共赴价值巅峰”(Academic and Artistic Fusion Tribute to the Summit of Value)主题发布会上,音乐教育与科技融合领域的代表人物高一鑫,因其在数字音乐教育与中美文化交流方面的杰出贡献,荣获了圣盖博市议员Jorge Herrera和尔湾市…

【深度学习的灵魂】图片布局生成模型LayoutPrompt(1)

🌈 个人主页:十二月的猫-CSDN博客 🔥 系列专栏: 🏀《深度学习理论直觉三十讲》_十二月的猫的博客-CSDN博客 💪🏻 十二月的寒冬阻挡不了春天的脚步,十二点的黑夜遮蔽不住黎明的曙光 目…

Compose笔记(二十)--TextField

这一节主要了解一下Compose的TextField,TextField 是一个用于接收用户文本输入的 UI 组件,允许用户通过键盘输入、编辑或删除文本。简单用法总结如下: API value:当前输入的文本内容。 onValueChange 含义:当用户输入文本时触发的回调函数,参…

在Linux虚拟机下使用vscode,#include无法跳转问题

总结:需要通过Linux指令来添加编译器和压缩文件,解压,这样获得的编译器会具有可执行权限类似于 -rwxr-xr-x 1 user user 12345 Apr 26 14:22 myscript.sh 如果你直接从window中拖入文件到Linux文件下,你需要自己来再度开启可编译…

ArcGIS+GPT:多领域地理分析与决策新方案

技术点目录 AI大模型应用ArcGIS工作流程及功能prompt的使用技巧AI助力工作流程AI助力数据读取AI助力数据编辑与处理AI助力空间分析AI助力遥感分析AI助力二次开发AI助力科研绘图ArcGISAI综合应用了解更多 ——————————————————————————————————…

基础术语说明

车间:工厂内集中进行加工或装配的独立空间,配备设备、工具及人员,是生产活动的核心载体。 比如装配车间、总装车间、油漆车间等 生产线:以流水作业形式将原材料转化为成品的设备与人员的组合系统,强调连续性和效率。…

Splunk 使用Role 实现数据隔离

很多人知道 Splunk 有很多自带的Role, 今天我就要说说定制化的Role: 1: 在创建新role 的界面: 2: 在如下的界面,可以定制allow index name: 3: 创建好新Role 后,在SAML 添加新的group 的时候,就可以看到Role 给某个group: 4: 这样一个特定组的人来申请Splunk 权限,就可…

利用李雅普诺夫稳定性理论设计模型参考自适应系统(2.0)

上一篇介绍了利用李雅普诺夫稳定性理论设计模型参考自适应系统,通过在被控对象前面添加一个可调增益,然后利用李雅普诺夫稳定性理论设计增益的自适应率,使得被控对象输出与参考模型输出一致。本文将介绍在系统结构中引入前馈和反馈的结构&…

前端封装WebSocket工具n

Web API 提供的 WebSocket 类,封装一个 Socket 类 // socket.js import modal from /plugins/modal const baseURL import.meta.env.VITE_APP_BASE_WS; const EventTypes [open, close, message, error, reconnect]; const DEFAULT_CHECK_TIME 55 * 1000; // 心…

TCP和UDP传输层协议

TCP(Transmission Control Protocol)和 UDP(User Datagram Protocol)是两种常见的传输层协议,它们在网络通信中发挥着不同的作用。二者在连接建立、可靠性、传输效率等方面存在显著差异,适用于不同的应用场…

空域伦理与AI自主边界的系统建构

在AI无人系统逐步参与城市空域治理的过程中,系统的“自主性”已不再仅是技术指标,而是直接影响合规性、安全性与社会接受度的伦理边界议题。AI决策系统是否拥有“强干预能力”?行为触发责任应归属何方?算法可否调优至“自我纠偏”…

在原生代码(非webpack)里使用iview的注意事项

最近公司在做一个项目,使用的框架是iview,使用过程中同事遇到一些问题,这些问题对于有些同学来说根本就不是问题,但总会有同学需要,为了帮助不太会用的同学快速找到问题,做了如下整理: 下载vue,iview.min.j…

java代码混淆

生成jar的时候混淆 目前最常用的Proguard,网上有很多介绍的文章,这种安全性较低 对已经生成的jar进行加密 加密库:https://github.com/li571312729/classfinal 测试对jar进行加密 加密后如果正常调用的话会失败 加密后jar反编译查看不到代码 使用密码才能调用机…

【Linux】第十三章 访问Linux文件系统

目录 1. 存储设备是什么?怎么理解分区和格式化? 2. 文件系统是什么? 3. 挂载是什么?挂载点是什么? 4. 怎么理解块设备? 5. 在SATA附加存储中,第一磁盘上的第一个分区和第二磁盘的第二个分区…

MCP 服务器搭建【stdio 类型】实现上市公司年报查询总结,配合 Cherry Studio使用简单

代码解释 这段 Python 代码的主要功能是搭建一个基于 FastAPI 的 MCP 服务器,用于处理通过股票代码查询上市公司年报的请求,实现服务器向客户端的实时消息推送。以下是对代码各部分的详细解释: 完整代码+使用 Cherry Studio 调用 MCP 服务器的方法,放在文章最后了 1. 导…

第六节:软件安装

理论知识 软件安装的方式:在 Linux 系统中,常见的软件安装方式有源码安装、在线安装、deb 包安装、RPM 包安装、使用 Snap 管理软件包等。不同的安装方式适用于不同的软件和场景。源码安装:源码安装是指从软件的源代码开始,进行编…