重庆邮电大学刘歆获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉重庆邮电大学申请的专利一种面向纵向联邦学习的多方多类数据生成方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114648099B 。
龙图腾网通过国家知识产权局官网在2025-11-14发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210348440.0,技术领域涉及:G06N3/098;该发明授权一种面向纵向联邦学习的多方多类数据生成方法及系统是由刘歆;陈泓宇;钱鹰;韦庆杰;金霜;郑钧宇;刘苏;梁晋周设计研发完成,并于2022-04-01向国家知识产权局提交的专利申请。
本一种面向纵向联邦学习的多方多类数据生成方法及系统在说明书摘要公布了:本发明涉及一种面向纵向联邦学习的多方多类数据生成方法及系统,属于计算机中数据感知与重构领域。本发明包括:S1:建立以生成多方多类数据模型训练为目的纵向联邦学习训练数据集;S2:构建面向纵向联邦学习的双重条件生成对抗网络;S3:设计面向纵向联邦的双重条件生成对抗网络的多方损失函数;S4:建立面向纵向联邦学习的双重条件生成对抗网络的训练过程;S5:设计和实现基于双重条件生成对抗网络的多方多类数据生成方案。本发明提供了一种联合多方进行表格类数据集中样本特征维度和样本数量扩充的方法,联合多方构建高质量表格类训练数据集,满足大数据应用场景中机器学习模型训练的需求。
本发明授权一种面向纵向联邦学习的多方多类数据生成方法及系统在权利要求书中公布了:1.一种面向纵向联邦学习的多方多类数据生成方法,应用于贷款风险评估系统,其特征在于:该方法包括以下步骤: S1:建立以生成多方多类数据模型训练为目的纵向联邦学习表格类训练数据集;其中,客户方A方数据集包含个人贷款、还款、违约、风险评估等级,客户方B方数据集包含年龄、年收入、家庭负债和风险评估等级; S2:构建面向纵向联邦学习的双重条件生成对抗网络DCTGAN;双重条件生成对抗网络DCTGAN的具体结构:生成模型由两个ResNet残差网络和一个全连接层构成,判别模型由三个全连接网络构成; S3:设计面向纵向联邦的双重条件生成对抗网络的多方损失函数; S4:建立面向纵向联邦学习的双重条件生成对抗网络的训练过程; S5:针对表格类数据集,设计和实现基于双重条件生成对抗网络的多方多类数据生成方案,实现联合多方进行表格类数据集中样本特征维度和样本数量扩充的方法,联合多方构建高质量表格类训练数据集,满足大数据应用场景中机器学习模型训练的需求; 所述S1具体为: 客户方A方和客户方B方用户群体所属不同系统,双方使用基于RSA加密和散列函数来实现样本对齐,并对数据完全缺失方的样本ID进行表示; 所述S2具体为: 客户方A方和客户方B方构建双重条件生成对抗网络,双方各有生成对抗子网络,其中分别包括:生成模型和判别模型; S2-1:双方生成模型模型由两个ResNet残差网络和一个全连接层组成,其输入包括输入数据和条件向量,且双方对输入数据做如下处理: 1客户方A方掩码向量客户方B方客户方A方和客户方B方Md=0时,代表该位置的数据缺失;当Md=1时,代表数据完整;各方M中元素值1的维度为||M||1,而元素值0的维度为||1-M||1;两方M中所有元素都为0时表示只以样本类别作为条件; 真实样本在客户方A方的特征数据的编码向量XA,客户方A方模拟不同情况的缺失样本数据向量 即 客户方B方的特征数据的编码向量XB,客户方B方模拟不同情况的缺失样本数据向量 即 其中,“⊙”表示向量间的元素级乘法; 2客户方A和客户方B分别对噪声样本ZA和噪声样本ZB进行编码,并用编码后的结果对缺失样本数据进行填充,得到ZA'和ZB',客户方A方过程表示为客户方B方过程表示为 3客户方A方将条件向量condA与ZA'进行拼接得到ZA'⊕condA,客户方B方将条件向量condB与ZB'进行拼接得到ZB'⊕condB,作为双方生成模型的输入,“⊕”表示向量拼接操作; S2-2:客户方A方和客户方B方判别模型模型由三个全连接网络构成,对生成模型的生成数据进行处理以满足判别模型的输入; S2-3:客户方A方将生成数据缺失数据与掩码向量MA做元素级乘法得到判别模型的输入数据,用进行表示,即且客户方B方将生成数据缺失数据与掩码向量MB做元素级乘法得到判别模型的输入数据,用进行表示,即且 所述S5具体为: 客户方A方和客户方B方数据缺失情况不同分为三种情况: 1样本在客户方A方和客户方B方中的特征数据都存在部分值缺失,参照S2中步骤对缺失部分数据使用随机噪声进行填充,参照S4中步骤进行纵向联邦学习DCTGAN的训练,双方训练结束后,输入随机噪声和已知数据以及对应的条件向量输入生成模型生成样本,将生成样本对应缺失部分的数据填充到真实数据中; 2样本在客户方A方或客户方B方某一方中的数据特征存在全部数据缺失,创建由“0”完全填充的掩码向量,参照S2中步骤对缺失部分数据使用随机噪声进行填充,参照S4中步骤进行纵向联邦学习DCTGAN的训练,双方训练结束后,输入随机噪声对应的条件向量输入生成模型生成样本,将生成样本对应缺失部分的数据填充到真实数据中; 3联合多方对齐的样本存在样本类别不平衡的情况:将真实数据的掩码向量随机的用0填充,参照S2中步骤对缺失部分数据使用随机噪声进行填充,参照S4中步骤进行纵向联邦学习DCTGAN的训练,双方训练结束后,将随机噪声与少数类类别标签进行拼接输入到生成模型,生成少数类样本填充数据;或在各方本地用采用现有数据生成模型,生成部分已存在数据作为双重条件之一,然后再采用如前述方案,生成缺失部分数据,以此达到生成满足某个类别条件的少数类样本。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人重庆邮电大学,其通讯地址为:400065 重庆市南岸区黄桷垭崇文路2号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励