恭喜南京理工大学肖明霏获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜南京理工大学申请的专利一种基于MPI的分布式ADMM垃圾邮件分类方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114154581B 。
龙图腾网通过国家知识产权局官网在2025-06-24发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202111477718.6,技术领域涉及:G06F18/24;该发明授权一种基于MPI的分布式ADMM垃圾邮件分类方法是由肖明霏;刘龙恩;王慧慧;周沧琦设计研发完成,并于2021-12-06向国家知识产权局提交的专利申请。
本一种基于MPI的分布式ADMM垃圾邮件分类方法在说明书摘要公布了:本发明公开了一种基于MPI的分布式ADMM垃圾邮件分类方法,包含以下步骤:将文本数据向量化为数字格式的数据集;将数据集分割为训练集和测试集,对训练集进行过采样处理,再分割为若干份分别保存在若干个从节点上;MPI并行执行所有节点上的代码,从节点并行更新局部模型;主节点通过MPI规约功能汇总从节点的局部模型;主节点更新全局模型,并利用MPI广播功能将全局模型分发到各个从节点;循环交替更新从节点和主节点的模型,直到满足终止条件;保存主节点的全局模型作为分类器模型;利用训练得到的分类器模型对测试集进行分类,输出分类结果。本发明适合大数据场景下垃圾邮件分类任务,有效提升了分类的效率和精度。
本发明授权一种基于MPI的分布式ADMM垃圾邮件分类方法在权利要求书中公布了:1.一种基于MPI的分布式ADMM垃圾邮件分类方法,其特征在于,包括如下步骤: 步骤1、将文本数据向量化为数字格式的数据集; 步骤2、将数据集分割为训练集和测试集,对训练集进行过采样处理,再分割为若干份分别保存在若干个从节点上; 步骤3、MPI并行执行所有节点上的代码,从节点并行更新局部模型; 步骤4、主节点通过MPI规约功能汇总从节点的局部模型; 步骤5、主节点更新全局模型,并利用MPI广播功能将全局模型分发到各个从节点; 步骤6、循环交替更新从节点和主节点的模型,直到满足终止条件; 步骤7、保存主节点的全局模型作为分类器模型; 步骤8、利用训练得到的分类器模型对测试集进行分类,输出分类结果; 步骤1利用NLP技术,将文本数据向量化为数字格式的数据集;处理后的数据集表示为xi∈Rd,yi∈{-1,+1},其中n为样本数量,xi为第i个d维的样本数据向量,yi为第i个样本标签,Rd表示d维的实数集,i取值1~n;使用L2正则化的L2损失支持向量机SVM作为线性分类模型,目标函数表示为: 其中C0是一个超参数,用来控制正则项和损失项比重关系,w是分类模型变量,且w∈Rd; 使用SMOTE算法对训练集过采样处理使得训练集中正样本和负样本数量相当,接着再分割为若干份分别保存在若干个从节点上; 步骤2将数据集按照4:1的比例分割为训练集和测试集,并分割为若干份分别保存在若干台从节点上,同时复制代码文件到若干个从节点,假设数据被存在了m个节点D1,D2,…,Dm上,式1改写为: 其中ρ是一个超参数,wj是第j个从节点的局部模型变量,z是在主节点上更新的全局模型变量,且z∈Rd; 将式2改写成增广拉格朗日形式得到式3,即: 其中θj是第j个从节点的模型对偶变量; 步骤3中MPI并行执行所有节点上的代码,通过mpiexec命令完成; 主节点上随机初始化全局模型变量z,各从节点上随机初始化局部模型变量wj及其对偶变量θj,初始化为全零;从节点并行更新局部模型变量,由ADMM算法更新规则得到,w,z,θ按如下公式迭代更新: 其中k是迭代次数,拉格朗日函数Lw,z,θ对于wj可分解;在各个从节点上并行地解决公式4来更新局部模型变量wj:
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京理工大学,其通讯地址为:210000 江苏省南京市玄武区孝陵卫街道孝陵卫街200号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。