苏州空天信息研究院万晓晖获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉苏州空天信息研究院申请的专利一种基于自步过采样集成学习的静态软件缺陷预测方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119645803B 。
龙图腾网通过国家知识产权局官网在2025-11-21发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411618826.4,技术领域涉及:G06F11/3604;该发明授权一种基于自步过采样集成学习的静态软件缺陷预测方法是由万晓晖;岳才杰;刘亮;刘辉;付元昊;姜丽;叶思远设计研发完成,并于2024-11-13向国家知识产权局提交的专利申请。
本一种基于自步过采样集成学习的静态软件缺陷预测方法在说明书摘要公布了:本发明公开了一种基于自步过采样集成学习的静态软件缺陷预测方法,根据标签信息,将训练集划分为多数类和少数类集合;利用集成分类器的预测结果估计样本分类难度;根据估值对两类样本集合进行分箱处理,确定分箱的平均难度贡献;基于难度贡献更新自步学习因子和分箱的采样权重;基于分箱的采样权重,通过加权Bootstrap采样得到训练子集;对训练子集进行SMOTE过采样,随后训练基分类器;利用基分类器的预测性能确定权重,并更新集成分类器;重复直到指定规模的集成分类器,即软件缺陷预测模型。本发明克服了静态软件缺陷预测任务所面临的训练数据不足、类别不平衡等因素而导致模型训练过程缺乏针对性,以及模型训练后期因为过度关注噪声样本和异常样本而出现过拟合、影响缺陷预测性能的问题。
本发明授权一种基于自步过采样集成学习的静态软件缺陷预测方法在权利要求书中公布了:1.一种基于自步过采样集成学习的静态软件缺陷预测方法,其特征在于,包括以下步骤: 步骤1、收集当前项目的软件仓库数据,对软件仓库中的程序模块提取软件度量元,包括Halstead度量、McCabe度量、CK度量、MOOD度量、代码变更度量,从而将每一个程序模块都表示为一个特征向量,随后根据该程序模块是否存在缺陷,将其标记为有缺陷和无缺陷,从而构建出一个缺陷预测数据集; 步骤2、对缺陷预测数据集进行标准化预处理,根据数据集的标签信息将训练样本划分为多数类集合和少数类集合; 步骤3、采用随机森林作为集成学习框架中的基分类器,基于多数类集合和少数类集合训练基分类器,并计算基分类器在训练集上的MCC值,更新基分类器权重; 步骤4、对多数类集合和少数类集合进行分箱处化理,计算集成分类器的预测结果对对应分箱训练集样本的分类难度,进而确定自步因子α,通过动态地调整每个分箱的抽样权重,对多数类集合和少数类集合分别进行等概率Bootstrap采样,以针对性地降低样本数量过多的分箱的采样概率; 步骤5、对采样的少数类数据进行SMOTE过采样,得到平衡化训练子集; 步骤6、重复以上步骤3~5,直到基分类器数量达到预设值,将所有基分类器根据分类器权重进行加权结合,得到集成分类器作为软件缺陷预测模型; 步骤7、对待预测的程序模块提取软件度量元,表示为与训练样本相同维度的特征向量,利用训练得到的集成分类器对待预测的程序模块的缺陷倾向性进行预测,预测概率低于0.5则表明模型预测该程序模块不存在缺陷,否则即预测为有缺陷; 其中, 步骤4、对多数类集合和少数类集合进行分箱处化理,计算集成分类器的预测结果对对应分箱训练集样本的分类难度,进而确定自步因子α,通过动态地调整每个分箱的抽样权重,对多数类集合和少数类集合分别进行等概率Bootstrap采样,以针对性地降低样本数量过多的分箱的采样概率,具体方法为: 针对多数类集合和少数类集合根据样本分类难度估值划分k个分箱,第l个分箱Bl表示为: 多数类集合和少数类集合的分箱分别记为Bl,-和Bl,+; 计算分箱的样本分类难度的平均贡献度: 其中,xs表示分箱Bl中的任意样本,ys是样本xs的类别标签,F表示分类器对xs的预测概率,是样本对xs,ys的分类难度估计,|Bl|是分箱Bl的样本总数,多数类和少数类分箱Bl,-和Bl,+的平均贡献度分别记为hl,-和hl,+; 将自步因子定义为: 其中,m表示集成学习模型中的基分类器总数,i表示当前正在训练的基分类器的序号1≤i≤m,多数类和少数类集合的第l分箱的抽样权重分别如下: 基于以上权重,多数类集合中每个分箱的采样数量定义如下: 类似地,少数类集合中每个分箱的采样数量定义如下: 其中,表示训练集中少数类样本总数,是多数类样本总数。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人苏州空天信息研究院,其通讯地址为:215000 江苏省苏州市苏州工业园区独墅湖大道158;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励