杭州征信有限公司胡晓东获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉杭州征信有限公司申请的专利一种基于大语言模型的术语识别方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119441483B 。
龙图腾网通过国家知识产权局官网在2025-09-12发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411584298.5,技术领域涉及:G06F16/35;该发明授权一种基于大语言模型的术语识别方法及系统是由胡晓东;叶雨;李帆;朱少荧;丁力田设计研发完成,并于2024-11-07向国家知识产权局提交的专利申请。
本一种基于大语言模型的术语识别方法及系统在说明书摘要公布了:本发明提供一种基于大语言模型的术语识别方法及系统,涉及数据存储技术领域,方法包括:获取待识别文本数据;对待识别文本数据进行分词处理;提取分词处理得到的各个分词的分词特征;利用各个分词的分词特征,通过基于术语权重的N‑gram大语言模型,提取各个分词的加权词向量;根据各个分词的加权词向量,通过三层堆叠双向长短期神经网络,计算待识别文本数据属于术语的概率值;判断待识别文本数据属于术语的概率值是否大于预设概率值;若是,将待识别文本数据确定为术语;否则,将待识别文本数据确定为非术语。本发明可以考虑上下文信息,识别复杂的术语,提升术语识别的准确性。
本发明授权一种基于大语言模型的术语识别方法及系统在权利要求书中公布了:1.一种基于大语言模型的术语识别方法,其特征在于,包括: S1:获取待识别文本数据; S2:对所述待识别文本数据进行分词处理; S3:提取分词处理得到的各个分词的分词特征; S4:利用各个分词的分词特征,通过基于术语权重的N-gram大语言模型,提取各个分词的加权词向量; S5:根据各个分词的加权词向量,通过三层堆叠双向长短期神经网络,计算待识别文本数据属于术语的概率值; S6:判断待识别文本数据属于术语的概率值是否大于预设概率值;若是,将待识别文本数据确定为术语;否则,将待识别文本数据确定为非术语; 所述S4具体包括: S401:根据以下公式,确定各个分词的权重参数: 其中,ω i表示第i个分词的权重参数,TF i表示第i个分词的TF特征,TFIDF i表示第i个分词的TF-IDF特征,IGM i表示第i个分词的IGM特征,λ 1表示TF特征的融合系数,λ 2表示TF-IDF特征的融合系数,λ 3表示IGM特征的融合系数; S402:根据以下公式,结合各个分词的权重参数,确定各个分词的在不同的滑动窗口下的多个三元组词向量: 其中,V 1i表示第i个分词的第一三元组词向量,ω i表示第i个分词的权重参数,v i表示第i个分词的词向量,V 2i表示第i个分词的第二三元组词向量,V 3i表示第i个分词的第三三元组词向量; S403:根据以下公式,对多个三元组词向量进行加权融合,确定各个分词的加权词向量: 其中,V i表示第i个分词的加权词向量,α 1表示第一三元组词向量的权重系数,α 2表示第二三元组词向量的权重系数,α 3表示第三三元组词向量的权重系数。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人杭州征信有限公司,其通讯地址为:310000 浙江省杭州市上城区庆春东路2-6号26层2601-3室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。