Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 中国林业科学研究院资源信息研究所;祁连山国家公园青海服务保障中心张怀清获国家专利权

中国林业科学研究院资源信息研究所;祁连山国家公园青海服务保障中心张怀清获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉中国林业科学研究院资源信息研究所;祁连山国家公园青海服务保障中心申请的专利一种基于持续学习的林业预训练语言模型构建方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN118886517B

龙图腾网通过国家知识产权局官网在2025-08-05发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411026587.3,技术领域涉及:G06N20/00;该发明授权一种基于持续学习的林业预训练语言模型构建方法是由张怀清;谭晶维;张京;于红妍;赵宝伟;王贤颖设计研发完成,并于2024-07-29向国家知识产权局提交的专利申请。

一种基于持续学习的林业预训练语言模型构建方法在说明书摘要公布了:一种基于持续学习的林业预训练语言模型构建方法,属于人工智能及计算机程序技术领域。林业语料库的构建:采用网络爬虫、数据库查询和信息提取方法从中国林业信息网、林业类北大核心期刊渠道收集与林业相关的术语、法律法规、文献三个主题的文本数据,并对其进行去除特殊符号、重复值以及分词等数据清洗和预处理后,得到三个用于预训练的林业语料库,并使用这三个不同主题的林业语料库,基于持续学习方法对通用领域的预训练语言模型BERT进行持续预训练,增强通用领域预训练语言模型在林业领域内的知识,最终形成能够持续学习的林业预训练语言模型ForestryBERT。

本发明授权一种基于持续学习的林业预训练语言模型构建方法在权利要求书中公布了:1.一种基于持续学习的林业预训练语言模型构建方法,其特征在于,含有以下步骤: 步骤1、林业语料库的构建: 采用网络爬虫、数据库查询和信息提取方法从中国林业信息网、林业类北大核心期刊渠道收集与林业相关的术语、法律法规、文献三个主题的文本数据,并对其进行去除特殊符号、重复值以及分词数据清洗和预处理后,得到三个用于预训练的林业语料库, 步骤2、模型的持续预训练: 使用三个不同主题的林业语料库,基于持续学习方法对通用领域的预训练语言模型BERT进行持续预训练,增强通用领域预训练语言模型在林业领域内的知识,最终形成能够持续学习的林业预训练语言模型ForestryBERT, 以ForestryBERT为基础模型,LERT为初始权重(),首先根据基于自注意力机制的Transformer模型的多头注意力层、中间层和输出层中的重要性单元来计算通用领域的重要性分数,然后,基于此分数在主题上进行领域训练获得具有林业术语知识的模型;同时,计算主题的重要性得分,作为主题的旧知识,再以对应元素最大值的方式来累积重要性得分以得到前两个主题的重要性分数,然后基于此分数在主题上进行领域训练获得具有林业术语以及法律法规知识的模型;以同样的方式得到主题的重要性分数以及前三个主题的累计重要性分数,并基于此分数在主题上进行领域训练获得具有这三个林业主题所有知识的模型,这三个模型是通过积累重要性的方式学习到了不同的主题知识,学习了主题,模型学习了主题和主题,即ForestryBERT模型学习了三个主题,之后再通过微调相应主题的下游任务来评估每个阶段生成的模型, 步骤3、模型的微调: 步骤3.1、林业标注数据集的构建, 步骤3.1.1林业文本分类数据集, 从中国林业信息网抓取的原始数据具有分类标签,但每个主题都有不同的分类标准和数量,合并了每个主题中标签相似的样本,然后从每个数据集中按1%~10%的比例随机抽取样本,限制数量较多的类别,最终得到三个不同主题的林业文本数据集, 步骤3.1.2林业抽取式问答数据集, 使用有标签的中文阅读理解数据集对预训练语言模型进行微调,以构建能够生成问答对的模型,从三个林业语料库中随机选取文本,并使用该模型为每个上下文生成相应的答案和问题,经过人工验证后构建了一个由2280个样本组成的林业抽取式问答数据集, 步骤3.2、微调:根据构建的两个标注数据集对持续预训练过程产生的三个模型进行微调,以评估林业预训练语言模型的性能以及持续学习方法的有效性。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国林业科学研究院资源信息研究所;祁连山国家公园青海服务保障中心,其通讯地址为:100091 北京市海淀区香山路东小府2号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。