Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 中科软科技股份有限公司赵全军获国家专利权

中科软科技股份有限公司赵全军获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉中科软科技股份有限公司申请的专利一种基于深度学习的多语言有害信息特征智能挖掘方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN111626318B

龙图腾网通过国家知识产权局官网在2025-08-26发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:201911063979.6,技术领域涉及:G06F18/214;该发明授权一种基于深度学习的多语言有害信息特征智能挖掘方法是由赵全军;吴敬征;段旭;陈宏江;伊克拉木·伊力哈木;刘立力设计研发完成,并于2019-11-04向国家知识产权局提交的专利申请。

一种基于深度学习的多语言有害信息特征智能挖掘方法在说明书摘要公布了:本发明公开了一种基于深度学习的多语言有害信息特征智能挖掘方法,标注各语种各类别有害和无害信息文本;将每个语种的每个类别的词使用RNSW方法选出候选词并建立独热码编码;将样品数据输入CNN神经网络模型中进行训练,得到每个词属于该语种该有害类别的得分,作为权重;使用遗传算法对机器学习选出的有害信息特征进行筛选,形成最终的有害信息特征和权重。本发明一是提出了一种语种无关的文本降维表示的RNSW方法,有效降低了模型训练的参数数量,加快了训练速度,提高了模型识别的准确率;二是采用深度学习的方法实现了有害信息特征的智能挖掘,并通过遗传算法对有害信息特征筛选,使得有害信息识别的可解释性更好。

本发明授权一种基于深度学习的多语言有害信息特征智能挖掘方法在权利要求书中公布了:1.一种基于深度学习的多语言有害信息特征智能挖掘方法,包括如下步骤: 1收集各语种有害信息文本和无害信息文本,建立数据标注集S,标注各语种各类别的有害信息文本数据的正负样本数据,其中正样本是该类别该语种的有害信息文本,样本数量为N正样本,负样本是该类别该语种的无害信息文本,样本数量为N负样本; 2将步骤1的数据标注集S中各语种有害信息文本和无害信息文本词例化,然后去掉停用词和标点符号; 3将步骤2的每个语种的每个类别的词使用RNSWRemoveNegativeSampleWords方法选出n个候选词,建立该类别的词-ID的词对集合{W1,ID1,W2,ID2,……,Wn,IDn},其中n为该类别的词对集合中词对的数量,Wx代表各语种的单词或分词后的词,IDx代表该词的ID,用集合中的唯一的一个整数值的独热码One-HotEncoding编码来表示; 4将步骤3每个语种的每个类别的每个样品数据,根据该语种该类别的词对集合{W1,ID1,W2,ID2,……,Wn,IDn},转化为相应的ID的数据向量X: {Vec1,Vec2,……Vecm}; 5将步骤4的每个语种的每个类别中的最大的样本的词的数量Mmax作为该类别的词的数量,将数据向量X:{Vec1,Vec2,……Vecm}中词向量维数不到Mmax的在前端填充0;根据每个样本是正样本还是负样本,设置相应数据的类别向量:y:{y1, y2,……,ym},对于该类别的正样本yx为[1,0],负样本则yx为[0,1]; 6将步骤5的每个语种的每个类别的数据向量X和y按照某个比例分成训练集train_x,train_y和测试集dev_x,dev_y; 7按照某个批大小,分批将步骤6的train_x,train_y输入到CNN神经网络模型中训练学习,使用Adam优化器和交叉熵损失函数进行训练,最后用softmax归一化分类,得到最终的分类结果; 8将词对集合{W1,ID1,W2,ID2,……,Wn,IDn}的每个词Wx输入到步骤7训练优化的最终模型中,得到每个词Wx属于该语种该有害类别的得分Mx,将Mx作为该词的权重,按照权重从大到小排序,得到p个词集合{W1,W2,……, Wp},则该词集合为机器学习选出的该语种该类别的有害信息特征; 9使用遗传算法对步骤8机器学习选出的有害信息特征{W1,W2,……Wp}进行特征选择,选择出最优数量的有害信息特征词,形成最终的有害信息特征{W1, W2,……Wq}和权重{M1,M2,……,Mq}; 10使用步骤9的有害信息特征{W1,W2,……,Wq}和相应的权重{M1,M2,……,Mq},判断文本是否为有害信息。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中科软科技股份有限公司,其通讯地址为:100190 北京市海淀区中关村新科祥园甲6号楼;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。