浙江工业大学王万良获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉浙江工业大学申请的专利一种基于高斯混合模型的数据过采样方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114219004B 。
龙图腾网通过国家知识产权局官网在2025-08-01发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202111348524.6,技术领域涉及:G06F18/2415;该发明授权一种基于高斯混合模型的数据过采样方法是由王万良;方飞;李国庆;赵燕伟;尤文波设计研发完成,并于2021-11-15向国家知识产权局提交的专利申请。
本一种基于高斯混合模型的数据过采样方法在说明书摘要公布了:一种基于高斯混合模型的数据过采样方法,包括下述步骤:首先,针对不平衡数据集,利用高斯混合模型对少数类样本进行去噪以及聚类处理;接着,根据代价敏感学习的思想,对簇间交叉验证下分类器预测错误率更高的簇分配更多的过采样数量;最后,使用标准SMOTE算法在每个少数类样本簇的内部合成相应数量的新样本;本发明在保证数据信息完整性的前提下,利用数据本身的分布信息与代价敏感学习思想对过采样的原样本与数量进行精确控制,增加了过采样样本的泛化信息,降低了分类器分类难度。
本发明授权一种基于高斯混合模型的数据过采样方法在权利要求书中公布了:1.一种应用基于高斯混合模型的数据过采样方法的雷达信号识别方法,包括信号特征降维、过采样和建立SVM识别模型过程,具体步骤如下: 步骤1:使用电子侦察系统数据库中已经识别的信号特征和类型作为原始数据集,信号特征为通过电讯技术对过去收集信号进行测定得来,包括射频及其变化特性、功率电平、脉冲重复间隔及其调制特性、脉冲宽度及其调制特性、脉内频率或相位调制特性、天线扫描类型、扫描周期、方向图和极化特性,信号类型是人工分析得出的,设定一个数量阈值,将所有信号划分为两类,将数量大于阈值的每个类型的信号划分进多数类,反之划分进少数类;划分好类别后,利用局部线性嵌入算法对信号特征进行降维处理,使得特征降维至三维空间; 步骤2:用高斯混合模型对降维后的少数类信号样本的生成概率进行建模,假设该混合模型由M个单高斯模型组成,M的取值依据“肘部”法则确定:可依次为K取值2至8去拟合样本并绘制模型对数似然损失值的变化曲线,选择曲线“肘部”位置点对应的取值为M的最终取值,模型形式如下: 其中px|θi为第i个高斯分模型,αi表示第i个分模型的权重,θi=ui,Σi表示第i个分模型的均值和协方差参数,θ=α1,α2,...,αM;θ1,θ2,...,θM,用EM算法对参数θ进行求解; 参数θ确定后,计算每个少数类信号样本在该参数下的生成概率,过滤一定数量的低概率样本,提高整体信号样本的泛化性;接着按如下方式对剩余信号进行聚类划分:假设需聚类处理的总样本数为N,引入变量γjm,表示第j个样本由第m个分模型生成的后验概率: 其中j∈{1,2,...,N},i∈{1,2,...,M};高斯混合聚类把少数类样本集划分为M个簇C={C1,C2,...,CM},每个样本xj的簇标记λj按如下方式确定: 步骤3:在完成聚类处理后,通过预训练分类器进行簇间交叉验证计算出每个信号样本簇的分类错误率,并根据每个簇错误率的相对大小决定其过采样的数量,具体过程如下: 步骤3-1:用K-1个簇的少数类信号与所有多数类信号样本一起训练SVM分类模型,用剩下一个少数类簇的样本去评估SVM分类器预测效果,计算分类错误率,如此循环M次,记录各簇的分类错误率,记为ε1,ε2,...,εM; 步骤3-2:按照下式计算类比率CR: 其中Nj是少数类簇Cj中的样本数量,N是总体少数类样本数量;然后对上式乘以混合权重,得到簇Cj对于总体少数类样本的描述度dj,计算公式如下: dj=αj·CRj5 其中αj是步骤2中计算出的簇Cj的权重; 步骤3-3:根据代价敏感学习思想,按下式计算出簇Cj的过采样权重: 其中εj是簇Cj的分类错误率; 最后按上述采样权重对过采样数量进行分配,计算公式如下: δj=Smaj-Smin×wj7 其中δj为簇Cj的最终过采样数量,Smaj为数据集中多数类样本总数,Smin为少数类样本总数; 步骤4:按照上一步确定的过采样数量,利用SMOTE算法依次为每个簇合成新的信号样本,具体过程如下:首先在簇Cj中随机选择δj个样本;然后对于其中每一个样本,找出其在簇Cj中的K近邻样本,K值依据采样效果确定,任选其一作为合成样本的来源;最后在两个少数类样本点间进行线性插值合成新样本,新样本位置按如下公式计算: xsyn=x+rand0,1×xt-x8 其中x为簇Cj中的任一信号样本,xsyn为x对应合成的新信号样本,xt,t∈{1,2,...,K}为x的K近邻样本之一,rand0,1表示0与1之间的随机数; 步骤5:利用SVM模型为信号识别建模,选用RBF作为SVM核函数,用平衡处理后的数据集训练该模型,并对SVM惩罚因子C和核参数σ这两个模型超参数进行网格搜索,选择效果最优者;最终将训练好的模型用于新侦收信号的识别。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人浙江工业大学,其通讯地址为:310014 浙江省杭州市拱墅区潮王路18号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。