煤炭科学研究总院有限公司;天地科技股份有限公司北京技术研究分公司孙闯获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉煤炭科学研究总院有限公司;天地科技股份有限公司北京技术研究分公司申请的专利面向煤炭行业科技文献的知识分级提取方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120216699B 。
龙图腾网通过国家知识产权局官网在2025-10-21发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510696052.5,技术领域涉及:G06F16/353;该发明授权面向煤炭行业科技文献的知识分级提取方法是由孙闯;贾琨;杨培培;程健;骆意;宋郑一凡;周子博;王冠杰设计研发完成,并于2025-05-28向国家知识产权局提交的专利申请。
本面向煤炭行业科技文献的知识分级提取方法在说明书摘要公布了:本发明提出一种面向煤炭行业科技文献的知识分级提取方法,涉及自然语言处理技术领域,将PDF格式的煤炭行业科技文献进行纯文本MD格式转换后进行行首的非文本标识符删除,得到目标煤炭行业文档;定义各级别标题的语言标识符以及级别标识符组建的标识符规则库;训练出标题分级模型;标题分级模型识别出目标煤炭行业文档中的多个目标级别标题及各自对应的正文;多个目标级别标题通过标识符规则库进行标识符添加并结合正文,生成MD文本文件;正则化匹配标识符在MD文本文件进行定向知识分级提取,得到提取文本。由此,通过PDF文档处理、标题分级模型、面向标题的标识符规则库,提高面向煤炭行业科技文献的知识分级提取的准确率和效率。
本发明授权面向煤炭行业科技文献的知识分级提取方法在权利要求书中公布了:1.一种面向煤炭行业科技文献的知识分级提取方法,其特征在于,所述方法包括: 将PDF格式的煤炭行业科技文献转换为纯文本MD格式的煤炭行业文档,并将煤炭行业文档中每一行的行首含有的非文本标识符删除,以得到目标煤炭行业文档; 定义面向标题的标识符规则库,标识符规则库包括根据各级别标题的语言类型定义的语言标识符,以及各级别标题各自对应的级别标识符; 利用大模型分别合成多个不同级别训练标题及各级别训练标题的训练正文,以组建标题分类数据集,再结合预训练语言模型,提取训练标题及训练正文的语义特征,训练决策树分类算法,以得到标题分级模型; 通过标题分级模型识别出目标煤炭行业文档中的多个目标级别标题、及各目标级别标题的正文; 根据标识符规则库在各目标级别标题的行首分别添加目标语言标识符及各自对应的目标级别标识符,结合添加目标语言标识符和目标级别标识符后的各目标级别标题及正文组建成标准的MD文本文件; 根据用户的问题请求信息,生成对应的正则化匹配标识符,以在所述MD文本文件匹配到目标级别标题,并进行目标级别标题下正文的定向知识分级提取,以得到问题请求信息的提取文本; 所述利用大模型分别合成多个不同级别训练标题及各级别训练标题的训练正文,以组建标题分类数据集,再结合预训练语言模型,提取训练标题及训练正文的语义特征,训练决策树分类算法,以得到标题分级模型,包括: 用大模型分别合成多个不同级别标题及各级别标题的训练正文,以组建标题分类数据集; 基于所述标题分类数据集,结合预训练语言模型,提取训练标题及训练正文的语义特征,训练决策树分类算法,生成初始标题分级模型; 采用正则化匹配方法,检查标题分类数据集中每一行的开头是否有数字和符号“点”,计算符号“点”的数量及符号“点”中间的数字的数量; 在符号“点”的数量与数字的数量多n个,则作为训练标题行,其中,n为预设的阈值; 通过训练标题行,对初始标题分级模型进行优化,以得到标题分级模型。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人煤炭科学研究总院有限公司;天地科技股份有限公司北京技术研究分公司,其通讯地址为:100013 北京市朝阳区和平里青年沟东路5号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励