国创智造科技(上海)有限公司贺仁龙获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉国创智造科技(上海)有限公司申请的专利用于工业大模型的语料目录管理方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119903124B 。
龙图腾网通过国家知识产权局官网在2025-07-29发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510380061.3,技术领域涉及:G06F16/31;该发明授权用于工业大模型的语料目录管理方法及系统是由贺仁龙;任吉;何振乾设计研发完成,并于2025-03-28向国家知识产权局提交的专利申请。
本用于工业大模型的语料目录管理方法及系统在说明书摘要公布了:本发明提供一种用于工业大模型的语料目录管理方法及系统,所述方法包括:获取目标语料的基础信息,根据所述基础信息对所述目标语料进行预处理以得到标准语料;对所述标准语料进行场景分析以获取对应的标签信息;根据所述标签信息对所述标准语料进行目录值计算,以获取所述标准语料的标准目录值;根据所述标准目录值生成对应的目标目录,将所述标准语料与所述目标目录建立映射后进行存储。本发明对语料有效管理,能够提高语料的使用效率,增强用户体验。本发明有效提高了语料的存储和调用效率,降低了提高语料的使用效率。
本发明授权用于工业大模型的语料目录管理方法及系统在权利要求书中公布了:1.一种用于工业大模型的语料目录管理方法,其特征在于,包括如下步骤: 获取目标语料的基础信息,根据所述基础信息对所述目标语料进行预处理以得到标准语料; 对所述标准语料进行场景分析以获取对应的标签信息; 根据所述标签信息对所述标准语料进行目录值计算,以获取所述标准语料的标准目录值; 根据所述标准目录值生成对应的目标目录,将所述标准语料与所述目标目录建立映射后进行存储; 所述根据所述基础信息对所述目标语料进行预处理以得到标准语料,包括: 对所述目标语料进行字段扫描,以去除所述目标语料中的无效字段和噪声字段后得到第一语料; 根据所述基础信息获取所述目标语料对应的敏感词库,将所述第一语料与所述敏感词库进行比对,将所述第一语料中存在的敏感词替换为标签词汇后得到对应的标准语料; 其中,所述标签词汇与每一个所述敏感词一一对应; 所述基础信息至少包括行业信息、模态信息和语言信息,所述对所述标准语料进行场景分析以获取对应的标签信息,包括: 根据所述行业信息获取所述目标语料的行业类型,将所述行业类型转换为预设编码格式后生成与所述标准语料对应的第一标签矩阵; 根据所述模态信息获取所述目标语料中的模态类型,将所述模态类型转换为预设编码格式后生成与所述标准语料对应的第二标签矩阵; 根据所述语言信息获取所述目标语料的语言类型,将所述语言类型转换为预设编码格式后生成与所述标准语料对应的第三标签矩阵; 将所述第一标签矩阵、所述第二标签矩阵和所述第三标签矩阵按序整合成为标签矩阵以得到所述标签信息; 其中,所述第一标签矩阵、所述第二标签矩阵和所述第三标签矩阵的行列均相同; 所述根据所述标签信息对所述标准语料进行目录值计算,以获取所述标准语料的标准目录值,包括: 计算所述第一标签矩阵、所述第二标签矩阵和所述第三标签矩阵的同位平均值以得到平均标签矩阵; 获取所述标准语料的语料序列,生成所述语料序列的语料索引值; 分别计算所述第一标签矩阵、所述第二标签矩阵、所述第三标签矩阵、所述平均标签矩阵对应的特征值与所述语料索引值之间的比值,以分别得到第一目录值、第二目录值、第三目录值和平均目录值; 将所述第一目录值、所述第二目录值、所述第三目录值和所述平均目录值组合在一起生成目录序列; 计算所述目录序列的目录索引值,根据所述语料索引值和所述目录索引值确定所述标准语料的标准目录值,并建立所述标准目录值与所述标准语料之间的映射关系。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人国创智造科技(上海)有限公司,其通讯地址为:200120 上海市浦东新区中国(上海)自由贸易试验区临港新片区环湖西二路888号C楼;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。