Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 昆明理工大学李英获国家专利权

昆明理工大学李英获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉昆明理工大学申请的专利一种基于错误分布指导大模型的老挝语语法纠错语料构建方法、系统、电子设备获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119783661B

龙图腾网通过国家知识产权局官网在2025-10-10发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411848270.8,技术领域涉及:G06F40/253;该发明授权一种基于错误分布指导大模型的老挝语语法纠错语料构建方法、系统、电子设备是由李英;于子豪;余正涛设计研发完成,并于2024-12-16向国家知识产权局提交的专利申请。

一种基于错误分布指导大模型的老挝语语法纠错语料构建方法、系统、电子设备在说明书摘要公布了:本发明涉及一种基于错误分布指导大模型的老挝语语法纠错语料构建方法、系统、电子设备。本发明通过利用已有的语音识别模型来模拟实际出现的常见语法错误;接着,利用一种大型语言模型根据规则和约束自动生成覆盖多种错误分布的数据;然后,对这些数据进行清洗和预处理;接着,利用一种小型语言模型作为纠错模型,用来对融合语料进行纠错;最后通过模型评估,筛选出词错率更低的老挝语语法纠错语料,从而有效解决了老挝语语法纠错语料匮乏的问题。本发明通过有效利用老挝语语法的错误分布对大模型进行指导来生成老挝语语法纠错语料,在老挝语语法纠错任务上取得了较好的实验结果。

本发明授权一种基于错误分布指导大模型的老挝语语法纠错语料构建方法、系统、电子设备在权利要求书中公布了:1.一种基于错误分布指导大模型的老挝语语法纠错语料构建方法,其特征在于:所述方法包括: 步骤1:获取包含不同错误分布的老挝语无标注数据; 步骤2:获取语法纠错伪数据; 步骤3:将老挝语无标注数据和语法纠错伪数据进行融合; 步骤4:使用融合后的语料对语言模型进行训练,构建老挝语语法纠错模型,用于进行老挝语语法纠错;在对纠错预测结果进行评估,得到最终的老挝语语法纠错语料; 所述步骤1包括如下: 步骤1.1、利用现有的老挝语语音识别模型生成含有多种错误分布的无标注数据; 步骤1.2、将无标注数据划分成每一行一个的独立句子; 步骤1.3、对句子进行筛选,去除过短和过长的句子; 步骤1.4、对筛选后的句子进行预处理,清洗掉包含无法识别的特殊符号的句子;处理后的句子作为含有不同错误分布的老挝语无标注数据; 所述步骤2包括如下: 步骤2.1、从老挝语无标注数据基础语料中挑选句子作为原始正确的句子; 步骤2.2、利用Meta-Llama大模型基于一定的规则和约束依据正确的句子生成对应含有不同错误分布的错误句子; 步骤2.3、对形成的错误句子进行清洗和预处理,去除含有杂质的句子,形成初始的语法纠错伪数据; 所述步骤3包括如下: 步骤3.1、分析老挝语无标注数据和语法纠错伪数据的错误分布,识别常见的错误类型,常见的错误类型包括缺少主语、语序不当、词语重复; 步骤3.2、把含有不同错误类型的老挝语无标注数据和语法纠错伪数据进行融合,形成包含多种错误分布的融合语料; 所述步骤4包括如下: 步骤4.1、用包含多种错误分布的融合语料训练mbart语言模型,构建老挝语语法纠错模型; 步骤4.2、用词错率对老挝语语法纠错模型的预测效果进行评估,得到高质量的老挝语语法纠错语料。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人昆明理工大学,其通讯地址为:650500 云南省昆明市呈贡区景明南路727号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由AI智能生成
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。