上海艾特欧数字娱乐科技有限公司练慧俊获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉上海艾特欧数字娱乐科技有限公司申请的专利一种利用大语言模型的对话数据增广方法和系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119204210B 。
龙图腾网通过国家知识产权局官网在2025-08-12发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411146127.4,技术领域涉及:G06N5/04;该发明授权一种利用大语言模型的对话数据增广方法和系统是由练慧俊;李雅;娄帆设计研发完成,并于2024-08-20向国家知识产权局提交的专利申请。
本一种利用大语言模型的对话数据增广方法和系统在说明书摘要公布了:本发明提供一种利用大语言模型的对话数据增广方法和系统,所述方法包括:获取对话路径和预设提示信息;其中,所述对话路径从不同来源的文本信息中提取得到,所述对话路径包含次序排布的多个对话节点和对话节点之间关系;利用大语言模型按照所述提示信息生成满足所述对话路径的完整对话数据,所述大语言模型的类型为预训练大语言模型或经过微调的预训练大语言模型。本发明能够通过引入了对话路径来对生成的对话数据内容进行约束,能够利用大语言模型生成符合输入的对话路径的对话节点次序、且满足对话节点之间关系的完整对话数据。
本发明授权一种利用大语言模型的对话数据增广方法和系统在权利要求书中公布了:1.一种利用大语言模型的对话数据增广方法,其特征在于,所述方法包括以下步骤: 获取对话路径和预设提示信息;其中,所述对话路径从不同来源的文本信息中提取得到,所述对话路径包含次序排布的多个对话节点和对话节点之间关系;从不同来源的文本信息中提取对话路径的步骤,包括:当文本信息的来源是结构化数据时,从所述结构化数据中检索选择或随机选择多个对话节点,按照预先定义的组合方式排列所选择的对话节点的次序,并填充对话节点之间的关系,得到从文本信息中提取的对话路径;当文本信息的来源是非结构化数据时,从所述非结构化数据中利用规则和或模型抽取对话节点和对话节点之间的关系,对抽取的对话节点采取替换关键词、重写或增删在内的二次处理,按照预先定义的组合方式排列二次处理后的对话节点的次序,并填充对话节点之间的关系,得到从文本信息中提取的对话路径;其中所述非结构化数据包括已有的对话数据、网络文本、新闻文本和包含文本信息的音视频数据; 利用大语言模型按照所述提示信息生成满足所述对话路径的完整对话数据,所述大语言模型的类型为预训练大语言模型或经过微调的预训练大语言模型; 当采用循环式的对话生成方式,所述利用大语言模型按照所述提示信息生成满足所述对话路径的完整对话数据的步骤包括: 调用大语言模型,将所述预设提示信息作为初始提示输入到所述大语言模型,将所述对话路径输入到大语言模型,生成第一轮次的单轮对话; 按照预设条件判断完整对话路径的生成是否结束,若不满足结束条件,则获取更新的预设提示信息,将更新后的预设提示信息和对话路径输入到大语言模型,生成下一轮次的单轮对话;其中,所述单轮对话属于对话路径的单个节点或部分; 当满足结束条件时,整合全部轮次的单轮对话得到完整的对话数据; 其中,所述预设提示信息的类型包含系统提示、任务提示、样例提示和思维链提示中的多种;所述预设提示信息包含基础内容和额外内容,所述基础内容用于通过提示的方式促使对话数据的生成,所述额外内容用于在所述生成满足所述对话路径的完整对话数据的过程中添加对完整对话数据的额外要求,所述额外内容包括情感标签、主题标签和其他对话路径。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人上海艾特欧数字娱乐科技有限公司,其通讯地址为:201103 上海市闵行区吴中路1799-5号102室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。