北京龙软科技股份有限公司杨梦获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京龙软科技股份有限公司申请的专利一种煤矿垂直领域大模型的构建方法及装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119848553B 。
龙图腾网通过国家知识产权局官网在2025-07-29发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510323917.3,技术领域涉及:G06F18/214;该发明授权一种煤矿垂直领域大模型的构建方法及装置是由杨梦;陈宁;张鹏鹏;毛善君设计研发完成,并于2025-03-19向国家知识产权局提交的专利申请。
本一种煤矿垂直领域大模型的构建方法及装置在说明书摘要公布了:本发明提供了一种煤矿垂直领域大模型的构建方法及装置,涉及深度学习技术领域,所述方法包括:获取领域语料库数据和通用语料库数据,并分别基于领域语料库数据和通用语料库数据构建领域词表和通用词表;将通用词表和领域词表中的各个分词,基于各自的权重进行加权融合,得到融合词表;基于融合词表,利用领域语料库数据和通用语料库数据对嵌入模型进行训练;加载预训练的原始大语言模型,并将训练完成的嵌入模型替换至原始大语言模型的嵌入层,得到更新后的大语言模型;利用领域语料库数据和通用语料库数据对更新后的大语言模型进行增量预训练,得到煤矿垂直领域大模型。本发明构建的煤矿垂直领域大模型实现了对煤矿行业专业知识的精准表达。
本发明授权一种煤矿垂直领域大模型的构建方法及装置在权利要求书中公布了:1.一种煤矿垂直领域大模型的构建方法,其特征在于,所述方法包括: 获取领域语料库数据和通用语料库数据,并分别基于所述领域语料库数据和所述通用语料库数据构建领域词表和通用词表; 将所述通用词表和所述领域词表中的各个分词,基于各自的权重进行加权融合,得到融合词表,所述权重是通过对第一线性项、第二线性项和对数项的加权组合计算得到;其中,所述第一线性项为所述通用词表中的每个分词在所述通用语料库数据中的相对频率,所述第二线性项为所述领域词表中的每个分词在所述领域语料库数据中的相对频率,所述对数项为所述通用词表和所述领域词表中的每个分词在所述领域语料库数据中的出现频率和在所述通用语料库数据中的出现频率的比值的对数,所述第一线性项的权重调节参数最高; 基于所述融合词表,利用所述领域语料库数据和所述通用语料库数据对嵌入模型进行训练,所述嵌入模型用于将分词基于语义信息映射至对应的词向量; 加载预训练的原始大语言模型,并将训练完成的嵌入模型替换至所述原始大语言模型的嵌入层,得到更新后的大语言模型; 冻结所述更新后的大语言模型的除嵌入层外的其他层,利用所述领域语料库数据和所述通用语料库数据对所述更新后的大语言模型的嵌入层进行训练,在达到预设的迭代条件的情况下,解冻所述其他层,利用所述领域语料库数据和所述通用语料库数据对所述更新后的大语言模型的所有层进行微调训练,得到煤矿垂直领域大模型。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京龙软科技股份有限公司,其通讯地址为:100190 北京市海淀区中关村东路66号世纪科贸大厦C座2106室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。