四川语言桥信息技术有限公司朱宪超获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉四川语言桥信息技术有限公司申请的专利一种基于语言处理的词向量表征方法、装置及终端设备获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115983240B 。
龙图腾网通过国家知识产权局官网在2026-04-14发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211734396.3,技术领域涉及:G06F40/216;该发明授权一种基于语言处理的词向量表征方法、装置及终端设备是由朱宪超;吴阳剑;霍展羽设计研发完成,并于2022-12-30向国家知识产权局提交的专利申请。
本一种基于语言处理的词向量表征方法、装置及终端设备在说明书摘要公布了:本发明适用于人工智能技术领域,提供了一种基于语言处理的词向量表征方法、装置及终端设备,方法包括构建输入词表;设置输入词表中每个词汇的词频信息;根据词频信息将词汇分类为N簇,具有相同词频信息的词汇分类到同一集合中,获得具有N个子集的分簇集合;通过经验因子定义第一簇中的词汇的第一词向量维度,根据词汇所在子集,以及第一词向量维度获得每个子集中的词汇的第二词向量维度;对于第n簇,定义第n线性映射矩阵;通过共享输入词表的参数处理目标词向量,作为自然语言处理模型的输入。通过本发明可以解决自然语言处理中,将词汇转换成词向量的方式计算量大、效率低、无法考虑词汇分布特征的问题。
本发明授权一种基于语言处理的词向量表征方法、装置及终端设备在权利要求书中公布了:1.一种基于语言处理的词向量表征方法,其特征在于, 包括: 构建输入词表; 设置所述输入词表中每个词汇的词频信息; 根据所述词频信息将所述词汇分类为N簇,具有相同词频信息的词汇分类到同一集合中,获得具有N个子集的分簇集合; 通过经验因子定义第一簇中的词汇的第一词向量维度,根据词汇所在子集,以及所述第一词向量维度获得每个子集中的词汇的第二词向量维度; 对于第n簇,定义第n线性映射矩阵; 获取目标词向量,所述目标词向量与所述输入词表为共享词表; 通过所述目标词向量的所属簇获取对应线性映射矩阵,并使用所述对应线性映射矩阵在目标词向量的词向量上进行上采样,更新所述目标词向量; 将更新后的目标词向量作为自然语言处理模型的输入; 其中,N为正整数,n为小于或者等于N的正整数; 所述根据词汇所在子集,以及所述第一词向量维度获得每个子集中的词汇的第二词向量维度,包括: 通过经验因子k定义第一簇中的词汇的第一词向量维度为d,当所述词汇所在子集为第一子集,则第一子集中的词汇的第二词向量维度为d; 当所述词汇所在子集为第N子集,则第N子集中的词汇的第二词向量维度为; 其中,k为大于0且小于1的自然数。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人四川语言桥信息技术有限公司,其通讯地址为:610096 四川省成都市武侯区中国(四川)自由贸易试验区成都高新区天府大道北段1288号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励