中国科学院信息工程研究所卢毓海获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中国科学院信息工程研究所申请的专利面向相似文本的正则表达式自动生成方法、系统及介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115587223B 。
龙图腾网通过国家知识产权局官网在2025-08-05发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211065691.4,技术领域涉及:G06F16/903;该发明授权面向相似文本的正则表达式自动生成方法、系统及介质是由卢毓海;王晓琳;曹聪;袁方方;张春燕;刘燕兵设计研发完成,并于2022-09-01向国家知识产权局提交的专利申请。
本面向相似文本的正则表达式自动生成方法、系统及介质在说明书摘要公布了:本发明提出一种面向相似文本的正则表达式自动生成方法、系统及介质,涉及自然语言处理领域和信息安全领域,对于输入的相似文本,采用文本嵌入表示方法获得相似文本的嵌入表示;再将同类的相似文本聚为同一类别;对于每类相似文本,抽取出其中的公共部分和差异部分;将抽取的公共部分和差异部分进行组合,生成每类相似文本对应的正则表达式。本发明可高效快速地批量处理大量相似文本,不需人工参与,生成每类相似文本的正则表达式。
本发明授权面向相似文本的正则表达式自动生成方法、系统及介质在权利要求书中公布了:1.一种面向相似文本的正则表达式自动生成方法,其特征在于,包括以下步骤: 对于输入的相似文本,采用文本嵌入表示方法获得所述相似文本的嵌入表示;再利用聚类方法根据所述嵌入表示,将同类的相似文本聚为同一类别; 对于每类相似文本,抽取出其中的公共部分和差异部分,其中抽取公共部分的方法为通过求解每类所有相似文本字符串的最长公共子序列,得到该类相似文本的最长公共部分;抽取差异部分的方法为通过信息熵计算差异部分的差异性,如果信息熵小于某设定阈值,则统计该部分文本的内容和长度并作为抽取的差异部分; 求解最长公共子序列的方法选用随机化MLCS方法,包括以下步骤: 首先对每类中的所有相似文本的字符串随机排列,字符串数量为m个; 其次将字符串按顺序两两分为一组; 再次利用动态规划算法计算每组中两个字符串的最长公共子序列; 最后对上一步得到的结果再次按顺序两两分为一组,再利用动态规划算法计算每组中两个字符串的最长公共子序列,重复进行该步骤q次,取q次中最长的序列作为最终m个字符串的最长公共子序列; 在抽取差异部分的方法中,差异部分用符号.*代替,该符号.*能够匹配任何内容,利用信息熵来描述.*匹配部分长度的不确定性,若信息熵小于某设定阈值,则统计.*匹配部分的匹配对象的文本内容和长度;信息熵的计算公式为其中,X代表.*匹配部分的对象,统计该对象包含的所有文本的长度,t为所有不同长度的个数,pi1≤i≤t为每个长度出现的概率; 将抽取的公共部分和差异部分进行组合,生成每类相似文本对应的正则表达式。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国科学院信息工程研究所,其通讯地址为:100093 北京市海淀区闵庄路甲89号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。