浪潮软件科技有限公司朱家兵获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉浪潮软件科技有限公司申请的专利一种基于掩码语言模型的文献新词发现方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN113901811B 。
龙图腾网通过国家知识产权局官网在2025-08-22发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202111141051.2,技术领域涉及:G06F40/289;该发明授权一种基于掩码语言模型的文献新词发现方法及系统是由朱家兵;杨玺;谷钢;尹京刚设计研发完成,并于2021-09-28向国家知识产权局提交的专利申请。
本一种基于掩码语言模型的文献新词发现方法及系统在说明书摘要公布了:本发明公开了一种基于掩码语言模型的文献新词发现方法及系统,属于人工智能自然语言处理技术领域,该方法包括掩码语言训练组件、模型依赖关系运算组件和最大概率运算组件,掩码语言训练组件对文献数据进行数据清洗、句段切分,通过训练集的训练组成向量标识WordEmbedding,组建Attention机制和前馈神经网络,合为一组Encoder,并搭建Encoder训练模型;将编码后的训练集采用随机屏蔽,部分输入token做训练集输入,被屏蔽的token做输出,以该方式做数据生成器,训练深度双向表示网络。本发明能够达到速度与精确度的平衡,对于特定场景的文献有更好的新词发现效果。
本发明授权一种基于掩码语言模型的文献新词发现方法及系统在权利要求书中公布了:1.一种基于掩码语言模型的文献新词发现方法,其特征在于,包括掩码语言训练组件、模型依赖关系运算组件和最大概率运算组件, 掩码语言训练组件对文献数据进行数据清洗、句段切分,通过训练集的训练组成向量标识WordEmbedding,组建Attention机制和前馈神经网络,合为一组Encoder,并搭建Encoder训练模型;将编码后的训练集采用随机屏蔽,部分输入token做训练集输入,被屏蔽的token做输出,以该方式做数据生成器,训练深度双向表示网络;经过迭代与训练,得到能完成Cloze任务的掩码语言模型,并对模型进行持久化处理保证其增量运算能力与可迁移性; 通过模型依赖关系运算组件得到任意两个token的相关性,并组成所有token的相关性矩阵,得到不同于互信息衡量的相关度指标,通过运算得到句子字间依赖度; 所述模型依赖关系运算组件将待分析句子以字为单位逐个替换为[MASK],经过掩码语言训练组件后输出初始预测序列,并以此序列为基础,依次替换除待分析字片段以外的字为[MASK],重复进入掩码语言训练模型,得到第二组token组成的矩阵序列,将两序列依次做欧氏距离运算,得到句子片段中除自己以外的每个字对此字的依赖程度,组成相关性组,循环至所有待分析字完成,对相邻两字正反依赖程度做平均值计算,得到句子字间依赖度; 最大概率运算组件利用模型依赖关系运算组件生成的待测句子字间依赖度指标,对特定阈值进行拆分,并通过多字权重的调整,利用概率乘积与权值配比,计算得到待测句子最大概率组合。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人浪潮软件科技有限公司,其通讯地址为:250100 山东省济南市高新区浪潮路1036号浪潮科技园;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。