Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 浙江工业大学曹斌获国家专利权

浙江工业大学曹斌获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉浙江工业大学申请的专利一种基于在线搜索辅助的中文文本纠错方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115033773B

龙图腾网通过国家知识产权局官网在2025-07-25发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210742412.7,技术领域涉及:G06F16/953;该发明授权一种基于在线搜索辅助的中文文本纠错方法是由曹斌;包晨磊;范菁设计研发完成,并于2022-06-27向国家知识产权局提交的专利申请。

一种基于在线搜索辅助的中文文本纠错方法在说明书摘要公布了:本发明公开了一种基于在线搜索辅助的中文文本纠错方法,首先将要纠正的语句进行分句,通过搜索引擎进行在线查询,爬取并统计词频构建词频表;然后对原始语句进行分词,根据分词结果在词频表中的词频和困惑度进行检错获得可疑词;将可疑词根据原始语句上下文和在搜索引擎中查询到的结果上下文信息进行搜索,根据词频、拼音编辑距离和结构相似度使用topsis算法进行打分,形成候选词,并增加部分近音近型词也作为候选词;将候选词对原始语句的可疑词进行替换,使用原始GPT‑2模型计算困惑度,选择困惑度最小的语句作为最终纠正后的结果。该方法能够在不需要额外训练纠错模型、不需要大规模数据集的情况下,即时即用,将可能含有错误的中文语句进行自动纠正。

本发明授权一种基于在线搜索辅助的中文文本纠错方法在权利要求书中公布了:1.一种基于在线搜索辅助的中文文本纠错方法,其特征在于,包括以下步骤: S1:将待纠正的原始语句进行分句,分句的依据为原始语句所包含的词语数量; S2:将步骤S1分句后的语句通过搜索引擎进行查询,将前三十条查询结果的标题和摘要部分进行爬取并保存到本地; S3:基于步骤S2获得的三十条查询结果,进行分词和统计词频,然后构建词频表; S4:基于步骤S2获得的三十条查询结果,对其进行新词发现,将新词发现的结果加入jieba词表,再根据变化后的jieba词表对原始语句进行分词,获得原始语句分词后的结果; S5:基于步骤S3获得的通过搜索引擎查询构建得到的词频表和步骤S4得到的原始语句分词结果,进行检错,使用原始语句分词结果在词频表中进行查询,如果某个词在词频表中的词频值小于阈值,则认为该词可能有误,作为可疑词; S6:基于步骤S4获得的原始语句分词结果,进行未登录词检错补充,将未在jieba词库中的未登录词加入可疑词中; S7:进行概率检错补充,将原始语句通过原始GPT-2模型,获得每个字的概率值,如果某字的概率值明显小于其他字的概率值,将该字加入可疑词中; S8:基于步骤S7获得的可疑词,依次获得可疑词在原始语句中的上下文信息text_ori,以一个可疑词和对应的上下文信息text_ori为一对的方式存储;获得上下文信息的方式为根据距离,获取在原始语句中离可疑词距离为x以内的词作为上下文信息text_ori; S9:基于步骤S8获得的可疑词在原始语句中的上下文信息text_ori和步骤S2通过搜索引擎查询到的结果,依次获得text_ori在搜索引擎查询到的结果中的上下文信息text_search,此时的上下文信息text_search作为候选词,以一个可疑词和对应的候选词为一对的方式存储,仍然使用根据距离的方式,分别获取搜索引擎查询到的结果中距离text_ori为2,4,6的词作为上下文信息text_search; S10:基于步骤S9获得的候选词,分别计算候选词与对应的可疑词的拼音编辑距离和结构相似度;其中,结构相似度使用预先构建好的孪生网络进行计算; S11:基于步骤S10获得的候选词与对应的可疑词的拼音编辑距离和结构相似度和步骤S3得到的词频表,使用topsis算法,基于词频、拼音编辑距离和结构相似度计算得分,选取得分最高的前8个候选词作为可疑词的候选词; S12:基于步骤S7获得的可疑词,筛选出在jieba词表内与可疑词拼音编辑距离小的词和结构相似度高的词,也作为可疑词的候选词加入到步骤S10获得的可疑词的候选词中; S13:基于步骤S2获得的搜索引擎查询结果,构建3-gram词表,使用n-gram算法,选择出出现在可疑词位置的词,也作为可疑词的候选词加入到步骤S10获得的可疑词的候选词中; S14:基于步骤S13获得的可疑词的候选词和步骤S6获得的可疑词,将原始语句中的可疑词用可疑词对应的候选词做排列组合式替换,获得候选句集,因为原始语句无误,因此候选句集中再加入原始语句; S15:基于步骤S14获得的候选句集,使用原始GPT-2模型计算整个候选句的困惑度,选择困惑度最低的句子作为最终结果。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人浙江工业大学,其通讯地址为:310014 浙江省杭州市下城区潮王路18号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。