哈尔滨工程大学;哈尔滨工程大学三亚南海创新发展基地;价值链技术(深圳)有限公司王巍获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉哈尔滨工程大学;哈尔滨工程大学三亚南海创新发展基地;价值链技术(深圳)有限公司申请的专利一种基于HMM和降噪自编码器的中文对抗样本恢复方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117033941B 。
龙图腾网通过国家知识产权局官网在2026-03-24发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202311056107.3,技术领域涉及:G06F18/20;该发明授权一种基于HMM和降噪自编码器的中文对抗样本恢复方法是由王巍;韩子屹;蔡成涛;陆蓓婷;蒋文创;杨玉东;曲晓威;杨东梅;张海涛;王小芳;张万松;张越;庄园;苘大鹏;李伟;玄世昌;郭方方设计研发完成,并于2023-08-22向国家知识产权局提交的专利申请。
本一种基于HMM和降噪自编码器的中文对抗样本恢复方法在说明书摘要公布了:本发明公开一种基于HMM和降噪自编码器的中文对抗样本恢复方法,涉及对抗文本处理技术领域,包括,获取对抗文本,对对抗文本进行符号清洗;基于隐马尔可夫模型将所述对抗文本中的拼音串转换为汉字序列,并将汉字序列拼接为汉字串;通过降噪自编码器对所述对抗文本中的汉字字符及汉字串进行噪声去除,得到候选词序列;通过置信度‑相似度解码器对所述候选词序列进行解码,得到修正文本;通过双向机器翻译对所述修正文本进行处理,生成恢复汉字文本。本发明能够实现中文对抗样本的高效恢复。
本发明授权一种基于HMM和降噪自编码器的中文对抗样本恢复方法在权利要求书中公布了:1.一种基于HMM和降噪自编码器的中文对抗样本恢复方法,其特征在于,包括: 获取对抗文本,对对抗文本进行符号清洗,保留对抗文本中的汉字字符及英文字母字符; 基于隐马尔可夫模型将所述对抗文本中的拼音串转换为汉字序列,并将汉字序列拼接为汉字串; 将所述拼音序列转换为汉字序列的过程包括: 将拼音串按照声母和韵母的组合进行拆分,以将拼音串转换为拼音序列; 根据拼音序列构建有向概率图,并通过训练预料对所述有向概率图进行参数设置,其中设置的参数包括状态转移矩阵、观测概率矩阵及初始状态分布; 通过动态规划算法对有向概率图进行最优路径求解,得到汉字序列; 其中所述动态算法采用维特比算法; 通过降噪自编码器对所述对抗文本中的汉字字符及汉字串进行噪声去除,得到候选词序列,其中降噪自编码器基于BERT模型进行构建,所述候选词序列根据对应置信度进行排序; 所述降噪自编码器的构建过程包括: 获取无噪声语料,随机选取无噪声语料中不超过15%的单词进行处理,其中对80%被选取的单词通过“[MASK]”进行替换,10%被选取的单词随机使用其它的token进行替换,10%被选取的单词保持原有的token; 获取有噪声语料,随机选取有噪声语料中不超过15%的词进行处理,其中对存在拼写错误的单词通过“[MASK]”进行替换,并将存在拼写错误的单词对应的词向量指向正确的词向量,对不存在拼写错误的单词通过“[MASK]”进行替换,并将不存在拼写错误的单词对应的词向量指向原本的词向量; 构建BERT模型,通过处理后的无噪声语料及处理后的有噪声语料对BERT模型进行预训练,生成降噪自编码器; 通过置信度-相似度解码器对所述候选词序列进行解码,得到修正文本; 对所述候选词序列进行解码的过程包括: 对候选词序列中的候选词进行相似度评价,得到文本相似度分值; 根据候选词对应的置信度及文本相似度分值,拟合过滤曲线,其中所述过滤曲线通过多项式展开方法进行拟合; 通过过滤曲线对候选词进行过滤,生成修正文本; 通过双向机器翻译对所述修正文本进行处理,生成恢复汉字文本。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人哈尔滨工程大学;哈尔滨工程大学三亚南海创新发展基地;价值链技术(深圳)有限公司,其通讯地址为:150001 黑龙江省哈尔滨市南岗区南通大街145号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励