北京工业大学李颖阁获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京工业大学申请的专利一种基于Cutmix数据增强的联邦学习隐私保护方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116628445B 。
龙图腾网通过国家知识产权局官网在2025-11-04发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310586380.0,技术领域涉及:G06F18/20;该发明授权一种基于Cutmix数据增强的联邦学习隐私保护方法是由李颖阁;陈渝文;杨震设计研发完成,并于2023-05-24向国家知识产权局提交的专利申请。
本一种基于Cutmix数据增强的联邦学习隐私保护方法在说明书摘要公布了:本发明公开了基于Cutmix数据增强的联邦学习隐私保护方法,应用于对医院影像数据中心进行隐私保护的场景。医院数据中心的中央服务器在联邦训练开始前,确定一个深度学习模型作为各客户端训练的模型;联邦训练开始后,中央服务器会将此模型下发给各客户端;为了在训练过程中图像不存在无信息像素,本发明在对原始数据进行保护时,采用基于Cutmix数据增强方法,利用数据增强策略在图片生成方面的优势,使训练模型学习到更多的鲁棒性特征,有效提高模型的泛化能力。本发明针对联邦学习中的梯度反演攻击进行防御,增强对梯度反演攻击过程的约束,提出对联邦学习更安全的防御场景。本方法可以在少量数据效用损失的情况下防御最先进的攻击。
本发明授权一种基于Cutmix数据增强的联邦学习隐私保护方法在权利要求书中公布了:1.基于Cutmix数据增强的联邦学习隐私保护方法,在对医院影像数据中心进行隐私保护时,其特征在于,包括以下步骤: 步骤1:在梯度反演攻击场景中,首先给定一个参数为θ的神经网络,通过私有数据批处理为实数集;b、d为批量大小和图像大小,计算出梯度该梯度是由具有图像x*和标签y*的真实批次中计算得出,攻击者试图恢复输入图像并朝着真值x*进行优化: 其中:强制合成数据的梯度,使恢复的批处理x的梯度与所提供的梯度进行匹配,基于图像先验对恢复图像进行正则化,参数α用来防止曲线过拟合;通过使用余弦距离作为总变差作为得到: 其中:·,·是向量之间的内积,梯度是由具有图像x和标签y的真实批次计算得出,是图像的总变差,总变差参数αTV即为上式中的α,对模型参数起到限制作用,在{0,0.001,0.005,0.01,0.05,0.1,0.5}中搜索αTV的取值,选择使得曲线过拟合程度降低,模型训练精度分数最高的那个αTV; 步骤2:模型有L个批次归一化层;给定一批输入图像x,用xl表示第l个BatchNorm层的输入特征,其中l∈[L];在训练过程中,第l个BatchNorm层根据批的均值meanxl和方差varxl对xl进行归一化并保持所有训练数据点的均值和方差的运行估计,用μl和表示,推理过程中用和对测试图像进行归一化;为简单起见省略即用μ,σ2表示meanx,varx表示在每个训练环节攻击者会在更新x时,根据每个批次的μ,σ2尝试推断均值与方差meanx*,varx*;攻击者对私有批处理进行猜测,并使用meanx,varx来规范化批处理;在这种情况下,μ,σ2作为BatchNorm统计量的先验以正则化恢复,并添加正则项参数αBN防止BN层曲线过拟合,是图像的批处理归一化正则,正如 其中 αBN在{0,0.0005,0.001,0.01,0.05,0.01}中搜索后,选择使得曲线过拟合程度降低,模型训练精度分数更高的αBN; 步骤3:单个私有图像的标签信息从输出层之前的层的梯度分析计算出来; 步骤4:由于梯度反演攻击的目标是恢复医院数据中心的训练数据,所以在训练前直接保护原始数据是一种理想的防御策略;客户端隐藏来自数据源的私有图像,使得私有输入很难重构;具体如下: 步骤4-1:医院数据中心的中央服务器在联邦训练开始前,确定一个深度学习模型作为各客户端训练的模型,并将其放在中央服务器中,联邦训练开始后,中央服务器会将此模型下发给各客户端;针对防御方法的功能需求,假设一个客户端拥有N个私有图像的CIFAR-10数据集,第i个数据样本格式为xi,yi,其中xi表示图像样本的像素点矩阵,yi表示该样本的标签,即图像所属的类别;在参与联邦学习过程中,训练一个ResNet-18模型,其结构是一种深度卷积神经网络DCNN结构,具有18层深度,完全使用卷积层和全连接层构成; 步骤4-2:在对原始数据进行保护时采用基于Cutmix数据增强的方法,不简单地删除像素,而是用数据集中另一张图像的补丁替换被删除的区域; 设和y分别表示训练图像及其标签,为实数集;W、H、C分别为图像宽度、高度、颜色通道数;Cutmix的目标是通过组合两个训练样本xA,yA和xB,yB来生成新的训练样本所生成的训练样本用于训练具有其原始损失函数的模型;将组合运算定义为 其中M∈{0,1}W×H表示一个二进制掩码,W、H分别为图像宽度、高度,表示从两个图像中删除和填充的位置,1是一个填充了1的二进制掩码,⊙是元素乘法;两个数据点之间的组合比λ从贝塔分布Betaα,α中取样;将α设为1,即λ从均匀分布0,1中采样; 为了对二进制掩码M进行采样,首先对边界框坐标B=rx,ry,rw,rh进行采样,代表xA和xB上的裁剪区域;其中,rx,ry表示了框的中心点坐标,rw,rh表示了宽度和高度;将xA中的区域B移除,用xB中B裁剪的patch补丁填充;在实验中,对矩形掩码M进行采样,其纵横比与原始图像成正比;对边界框坐标按照以下条件进行统一采样: 其中,Unif函数限制坐标区域不超过样本大小,并根据上述公式求出B的rw,rh,令裁剪面积比为 对于裁剪区域,二进制掩码M∈{0,1}W×H通过在边界框B内填充0来决定,否则为1;在每次训练迭代中,将随机选择的两个训练样本组合成一个小批量,生成一个Cutmix-ed样本 步骤5:在CIFAR-10数据集上使用基于Cutmix数据增强方法来训练ResNet-18架构,训练生成的全局模型作为整个联邦任务的最终模型;在训练网络架构时进行200个epoch,批量大小为128,使用动量为0.9的SGD作为优化器,初始学习率默认设置为0.02,每50个epoch将学习率衰减0.1倍。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京工业大学,其通讯地址为:100124 北京市朝阳区平乐园100号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励