华东师范大学毛炜获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉华东师范大学申请的专利联邦学习中基于DRL联合优化客户端选择和带宽分配的方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116389270B 。
龙图腾网通过国家知识产权局官网在2025-10-10发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310325579.8,技术领域涉及:H04L41/0896;该发明授权联邦学习中基于DRL联合优化客户端选择和带宽分配的方法是由毛炜;卢兴见设计研发完成,并于2023-03-29向国家知识产权局提交的专利申请。
本联邦学习中基于DRL联合优化客户端选择和带宽分配的方法在说明书摘要公布了:本发明公开了一种联邦学习中基于DRL联合优化客户端选择和带宽分配的方法,称作CSBWA,本发明制定了一个优化问题,旨在最小化系统总成本,定义为训练时间和能量消耗的加权和。通过联合优化客户端选择和带宽分配,可以利用更少的时间成本和能耗来确保FL的长期性能。该方法依赖基于DRL的REINFORCE算法,将观察到的客户端状态、历史带宽信息输入到策略网络中,并根据反馈奖励自动执行有效的客户端调度及带宽分配策略。将CSBWA应用到数据集MNIST、Fashion‑MNIST、CIFAR10上训练时,与另四种先进的方法相比,CSBWA在保证无线联邦学习模型性能的同时,有效地降低了时间成本和能耗。
本发明授权联邦学习中基于DRL联合优化客户端选择和带宽分配的方法在权利要求书中公布了:1.一种联邦学习中基于DRL联合优化客户端选择和带宽分配的方法,其特征在于,该方法包括如下步骤: S1、联邦学习即FL进行的第一轮,服务器初始化一个全局模型w0;在接下来的轮次中,服务器对客户端上传的本地模型基于公式进行加权平均,得到更新的全局模型wj,其中Di表示客户端i的本地数据集大小,表示客户端i在第j-1轮的本地模型,K表示被选择的客户端数量; S2、服务器将全局模型wjj=0,1,…下发给所有的客户端,客户端总数为N; S3、智能体Agent获取所有客户端的状态信息Agent基于REINFORCE算法作出决策,选择出K个客户端并给选择出的客户端分配对应的上传带宽;具体包括:获取所有客户端的状态信息其中 Di:客户端i的本地数据集大小,在FL模型训练之前可直接获得; 在第j轮训练中客户端i的数据分布质量;所有客户端首先用本地数据集的一个子集训练从服务器下载的全局模型;然后,每个本地模型利用服务器上的一小部分测试数据进行训练,得到相应的损失值;一个更偏态的数据分布反映为一个较大的损失值,采用损失值lossi来表示数据分布质量 在第j轮训练中客户端i所持有的CPU频率;每个客户端训练局部模型的计算时间与用于计算的CPU频率密切相关,客户端所拥有的CPU频率表示客户端的计算能力; 在第j-1轮训练中分配给客户端i的上传带宽;未来的网络带宽与历史上的带宽信息有关;同时,带宽信息是影响系统成本的主要因素,因此考虑将前一个时间窗的带宽信息添加到状态集中;当j=1,在最大带宽B限制下,给每个客户端分配BN的带宽;对于后续的轮次,Agent在第j-1轮作出了决策给所选的客户端i分配了带宽,则 S4、将状态集S输入到策略网络即一个由三层全连接层组成的神经网络中,Agent基于REINFORCE算法作出决策aj=i,bi,i∈K,其中bi=piB,其中pi表示策略网络输出客户端i的概率值,即得到被选择出的客户端集合K及给每个被选择的客户端分配的带宽b; S5、每个客户端i,i∈K,用自己的本地数据集训练从服务器下载的全局模型,得到更新的本地模型再通过上传其本地模型到服务器,服务器在接收到所有被选择出客户端的本地模型后,服务器通过加权聚合获得新的全局模型wj及模型精度accj; S6、Agent计算奖励值rj+1; S7、重复步骤S1-S6,直到accj达到设定的目标精度Γ,一个回合即episode结束,策略网络更新其网络参数θ,具体包括: 其中γ为折扣因子,γ∈[0,1],J为最大训练轮次,强化学习每轮的奖励值表示为r: 其中Tj表示第j轮总的训练时间,Ej表示第j轮总的能量消耗,Γ表示给指定任务设定的目标精度值;α,β分别表示权重因子,用于调整目标函数的偏好,α,β∈[0,1],且α+β=1;其中Tj,Ej计算如下: 其中,λi表示客户端i的计算芯片组的有效电容系数,ci表示客户端训练每个数据样本需要的CPU周期,表示客户端i在第j轮的传输功率,Mi是客户端的信道状态,N0表示复高斯信道噪声方差,κ表示每个本地模型本地迭代训练次数,Moi表示传输的模型大小;Vij表示客户端i上传模型的传输速率;表示客户端i在第j轮的本地训练时间成本,表示客户端i在第j轮的通信时间;表示客户端i在第j轮的本地训练能量消耗,表示客户端i在第j轮的通信能耗;在同步FL中,每轮总的时间开销取决于该轮中参与客户端花费时间最长的客户端,总的能量开销为所有被选择客户端的能量开销的累加;对策略网络的参数进行损失计算: 其中B为最大通信带宽;其中Rτ表示训练第τ个episode的总奖励值,表示所有episodes总奖励值的平均期望;设置最大回合数max_episode为200。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人华东师范大学,其通讯地址为:200241 上海市闵行区东川路500号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励