Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 电子科技大学于永斌获国家专利权

电子科技大学于永斌获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉电子科技大学申请的专利一种端到端的藏语字符音节级数据清洗方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120723886B

龙图腾网通过国家知识产权局官网在2025-11-14发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511197824.7,技术领域涉及:G06F16/3332;该发明授权一种端到端的藏语字符音节级数据清洗方法是由于永斌;刘羽童;王向向;冯箫;张子玥;沈嘉润;丁佳恒;王颢梁;班玛宝;头旦才让;范满平;尼玛扎西设计研发完成,并于2025-08-26向国家知识产权局提交的专利申请。

一种端到端的藏语字符音节级数据清洗方法在说明书摘要公布了:一种端到端的藏语字符音节级数据清洗方法,涉及藏语自然语言处理领域。通过分析藏语拼写错误特征,设计了一种基于预训练语言模型的双头编码器‑解码器架构,结合半掩码技术实现了字符级和音节级错误的分级检测与校正。该模型具有三大创新点:专门针对藏语多层级语言特性设计的神经网络架构;引入半掩码技术精准定位音节级错误区域;采用分级处理机制平衡模型性能与计算效率。实验结果表明,本方法在保持高准确率的同时,计算效率较传统两阶段模型提升30%以上。本方法不仅解决了藏语数据清洗中人工校验效率低、质量不稳定的问题,也为其他资源稀缺的少数民族语言文本处理提供了可借鉴的技术方案,对推动民族语言信息处理技术的发展具有重要意义。

本发明授权一种端到端的藏语字符音节级数据清洗方法在权利要求书中公布了:1.一种端到端的藏语字符音节级数据清洗方法,其特征在于,包括以下步骤: S1:获取藏文文本数据,使用伪造拼写错误的文本数据增强方法合成具有字符级和音节级错误的文本数据; S2:利用藏语音节构造原则和藏语紧缩字规则对藏语紧缩字进行音节拆分,得到处理后的文本数据; S3:构建基于预训练语言模型的藏语拼写矫正模型,所述藏语拼写矫正模型包括预训练语言模型、字符级矫正头、音节级矫正头;首先将S2处理后的文本数据输入预训练语言模型,得到的隐藏变量分别输入至字符级矫正头、音节级矫正头;将字符级矫正头、音节级矫正头的输出结果相加得到最终矫正结果;对藏语拼写矫正模型模型进行训练和测试,得到训练好的矫正模型; S4:使用训练好的矫正模型对藏语文本数据进行文本数据清洗; 所述S2具体包括以下步骤: S201:输入经过数据增强后的藏文文本,针对非藏文字符进行清理; S202:输入清理后的藏文文本,以藏文音节切分符为分割标志进行分词得到单个藏文音节,计算每个藏文音节的长度; S203:若长度,进入S205;否则,进入S204; S204:若长度,判断音节的各构件是否符合构造规则,是则进入S205;否则进入S206; S205:将音节各构件与字母表进行匹配,输出识别结果; S206:判断音节各构件间是否符合依赖规则,是则进入S211;否则进入S207; S207:若音节的倒数两个字符构成的字符串在集合{"འི","འང","འམ","འོ"}之中,则进入S208;反则进入S209; S208:将音节在其倒数两个字符前进行切分,前一部分是音节去掉倒数两个字符后的结果,后一部分是音节的倒数两个字符,进入S211; S209:若音节的最后一个字符在集合{"ས","ར","ད"}之中,则进入S210;反则进入S211; S210:将音节在其最后一个字符前进行切分,前一部分是音节去掉最后一个字符后的结果,后一部分是音节的最后一个字符,进入S211; S211:输出拆分音节,结束; 所述S4具体包括以下步骤: S401:将原始文本数据进行分句得到藏文字符串列表,计算符串列表长度; S402:初始化变量,若,则进入S403;否则,进入S407; S403:将列表中字符串经过音节拆分后,依次输入预训练语言模型中,得到隐藏变量; S404:使用字符级矫正头生成带掩码的矫正文本,并预测音节随机删除位置,用掩码进行替代; S405:使用音节级矫正头用于处理音节级错误,将标签进行补全; S406:将两个矫正头的输出相加得到最终矫正结果; S407:将藏文字符串列表进行拼接,然后进行输出拼接后字符串; S408:结束。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人电子科技大学,其通讯地址为:611731 四川省成都市高新区(西区)西源大道2006号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。