辽宁材料实验室杨一博获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉辽宁材料实验室申请的专利一种基于大语言模型的材料科研文本数据提取方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120654671B 。
龙图腾网通过国家知识产权局官网在2025-11-28发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510809536.6,技术领域涉及:G06F40/177;该发明授权一种基于大语言模型的材料科研文本数据提取方法是由杨一博;尹海清设计研发完成,并于2025-06-17向国家知识产权局提交的专利申请。
本一种基于大语言模型的材料科研文本数据提取方法在说明书摘要公布了:本发明涉及材料数据管理领域,具体为一种基于大语言模型的材料科研文本数据提取方法和设备。所述方法包括根据材料科研文本得到目标数据集;构建分类模型并利用标准二分类交叉熵损失函数对其进行微调,通过微调后的模型得到待提取数据集;构建表头提取模型并利用交叉熵损失函数对所述表头提取模型进行微调,通过微调后的模型得到表头数据集,再将表头数据集与预设的表头模版组合,构成自适应表头模板;根据自适应表头模板,从材料科研文本信息中提取结构化数据,再对所述结构化数据进行校验,得到校验后的结构化数据。以此方式,可以全面提升系统在不同类型材料科研文本中的适应性、完整性、准确性与智能化水平。
本发明授权一种基于大语言模型的材料科研文本数据提取方法在权利要求书中公布了:1.一种基于大语言模型的材料科研文本数据提取方法,其特征在于,包括: 获取材料科研文本信息,根据所述材料科研文本信息筛选出包含目标数据的科研文本,得到目标数据集; 根据所述目标数据集得到分类微调数据集,构建分类模型,基于分类微调数据集利用标准二分类交叉熵损失函数对所述分类模型进行微调,得到分类专用微调模型,通过分类专用微调模型对所述材料科研文本信息进行分类,得到待提取数据集; 根据所述目标数据集得到提取微调数据集,构建表头提取模型,根据所述提取微调数据集和预设提示词得到样本集,基于所述样本集利用交叉熵损失函数对所述表头提取模型进行微调,得到表头提取专用微调模型,通过表头提取专用微调模型对所述待提取数据集进行表头提取,得到表头数据集,再将表头数据集与预设的表头模版组合,构成自适应表头模板; 根据自适应表头模板,从材料科研文本信息中提取结构化数据,再对所述结构化数据进行校验,得到校验后的结构化数据; 所述对所述结构化数据进行校验,得到校验后的结构化数据,包括: 构建材料科学术语标准字典集合; 根据材料科学术语标准字典集合对所述结构化数据进行文本模糊匹配,若匹配成功,则对所述结构化数据进行自动修正,若匹配失败,则对所述结构化数据进行校正,将校正后的数据和自动修正后的数据作为文本校正数据集; 基于材料科学术语标准字典集合,使用正则表达式规则对所述文本校正数据集中的单位进行标准化识别,根据标准化识别结果对所述文本校正数据集进行单位换算,将换算后的数据作为单位校正数据集; 设定每类参数的数值范围,通过数值范围对单位校正数据集进行过滤,将数值范围不在数值范围内的数据作为异常数据集,通过异常值评分函数对所述异常数据集进行评分,若分数不大于阈值,则标记为正常数据,若分数大于阈值,则标记为异常数据,并通过校正规则对异常数据进行校正,将校正后的数据和正常数据作为校验后的结构化数据。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人辽宁材料实验室,其通讯地址为:110000 辽宁省沈阳市浑南区全运路109-1号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励