浪潮卓数大数据产业发展有限公司吴呈良获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉浪潮卓数大数据产业发展有限公司申请的专利一种文本去重方法及装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115828885B 。
龙图腾网通过国家知识产权局官网在2025-08-12发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211530626.4,技术领域涉及:G06F40/194;该发明授权一种文本去重方法及装置是由吴呈良;单震;谢传家设计研发完成,并于2022-12-01向国家知识产权局提交的专利申请。
本一种文本去重方法及装置在说明书摘要公布了:本发明涉及机器学习技术领域,具体提供了一种文本去重方法,其特征在于,具有如下步骤:S1、文本标准化处理,对获取到的原始文本进行相关标准化处理;S2、文本分词处理,对标准化后的文本数据,通过Python语言,开发对应的脚本程序进行分词处理;S3、文本分句处理;S4、设置阈值;S5、计算文本特征值;S6、输出结果。与现有技术相比,本发明通过高效算法设计,为文本数据之间打上相似度比率标签,进而根据设定的相似度阈值,筛选出相似度过高的文本数据供用户进一步去重或是进行文本相关性分析,这将降低网络内容同质化,减轻数据库存储负担,提升文本内容的质量和信息传播的效率,节约人力物力成本等。
本发明授权一种文本去重方法及装置在权利要求书中公布了:1.一种文本去重方法,其特征在于,具有如下步骤: S1、文本标准化处理,对获取到的原始文本进行相关标准化处理; 包括以下步骤: S101、去除文本中数字、字母和标点符号所有非中文的可见字符; S102、去除文本中空格、制表符和换行符所有不可见字符; S103、对文本进行半角转换,保证待比较文本数据处于统一模式下; S2、文本分词处理,对标准化后的文本数据,通过Python语言,开发对应的脚本程序进行分词处理; 对标准化后的文本数据,通过Python语言,开发对应的脚本程序进行分词处理,并统计各个文本分词前长度L、分词后各个词语的长度L1和在当前文本中出现的次数N; S3、文本分句处理; 对标准化后的文本数据,通过Python语言,开发对应的脚本程序进行分句处理,句子之间的分隔符为句号,并统计各个句子的长度L2; S4、设置阈值; 包括如下: 1文本分词词语提取个数n1; 2文本分句句子提取个数n2; 3相似度下限ε; S5、计算文本特征值; 针对任意两个文本,分别依次进行以下几步: 1计算各个分词占所在文本比率:R1=L1*NL; 2计算各个分句占所在文本比率:R2=L2L; 3将分词按照R1降序排列,根据设定文本分词词语提取个数n1,提取n1个词语; 4将分句按照R2降序排列,根据设定文本分句句子提取个数n2,提取n2个句子; 5对比两组词语,提取词语中相同的个数m1,占比为Z1=m11; 6对比两组句子,提取句子中相同的个数m2,占比为Z2=m22; 7计算两个文本的相似度:X=Z1+Z22; S6、输出结果。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人浪潮卓数大数据产业发展有限公司,其通讯地址为:214125 江苏省无锡市无锡经济开发区金融一街15号1101、1102、1103、1104、1105、1106、1107、1108;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。