中国传媒大学秦云霄获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中国传媒大学申请的专利一种角色化大语言模型的人物记忆对齐方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120525051B 。
龙图腾网通过国家知识产权局官网在2025-12-23发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510621033.6,技术领域涉及:G06N5/04;该发明授权一种角色化大语言模型的人物记忆对齐方法是由秦云霄;程曦龙;肖红江;张远设计研发完成,并于2025-05-14向国家知识产权局提交的专利申请。
本一种角色化大语言模型的人物记忆对齐方法在说明书摘要公布了:本发明提出一种角色化大语言模型的人物记忆对齐方法。现有技术方案采用的角色扮演数据通常仅包含简单的人物描述或心理学指标如性格、人格特征数据,使角色化大语言模型能根据角色人物属性生成符合角色特征的言行。然而,心理学与神经科学研究表明,人类的言行不仅受性格、人格等内在因素影响,还深受记忆的显著影响。现有角色化大语言模型在训练过程中缺乏对角色记忆的显性对齐训练,导致其角色扮演准确性不足。与现有研究相比,本发明创新型地将角色记忆显式整合到监督微调训练过程中,而非仅在推理阶段使用,使角色化大语言模型能同时从角色人物属性和角色记忆两个维度扮演目标人物,实现了更加准确、连贯和人性化的角色扮演能力。
本发明授权一种角色化大语言模型的人物记忆对齐方法在权利要求书中公布了:1.一种角色化大语言模型的人物记忆对齐方法,其特征在于: 先解释所有符号: DRP:现有角色化监督微调数据集,用于监督微调大语言模型,使其具备角色化能力; N:数据集DRP中的训练数据条数 Ri:角色化监督微调数据集中的第i条训练数据对应的角色; Pi:角色化监督微调数据集中的第i条训练数据对应的角色设置,包括角色描述、属性设置; Ci:角色化监督微调数据集中的第i条训练数据对应的对话上下文信息,即当前对话之前的近几轮对话,不超过20轮; xi:角色化监督微调数据集中的第i条训练数据中对话发起方的询问信息; yi:角色化监督微调数据集中的第i条训练数据中角色Ri对对话发起方产生的真实回复; 中含有角色记忆的角色化监督微调数据集; Mi:角色化监督微调数据集中第i条数据中对角色Ri检索的记忆; 角色化监督微调数据集中第i条数据中角色Ri的原始文本资料; 角色化监督微调数据集中第i条数据中角色Ri的原始记忆库; K:每个角色的每条记忆的文本长度; fω:用于制作角色记忆的嵌入模型即embedding模型; ω:嵌入模型的权重; LLMθ:开源的通用大语言模型,其权重为θ; θ:通用大语言模型的权重; 大语言模型基于角色Ri的人物设置Pi、上下文信息Ci、对话场景Si、以及询问信息xi产生的回复; 基于大语言模型的回复与真实角色的回复yi计算的具体损失; θp:在数据集DRP上监督微调之后得到的角色化大语言模型的权重; α:在数据集DRP上监督微调训练时的学习率; 在数据集DRP上监督微调之后得到的角色化大语言模型; 角色化大语言模型基于角色R的人物设置P、上下文C、检索的角色记忆M、以及询问信息x产生的回复; 基于大语言模型的回复与真实角色的回复y计算的具体损失; P,M:在数据集上监督微调之后得到的角色化大语言模型的权重 β:在数据集上监督微调训练时的学习率; 在数据集上监督微调之后得到的角色化大语言模型 总体架构包括数据处理和模型训练;首先在监督微调数据处理阶段通过角色记忆库制作与检索,在现有角色化监督微调数据DRP基础上制作含有角色记忆的角色化监督微调数据其次,基于数据设计了两阶段模型监督微调流程,得到角色化大语言模型最终,通过部署模型实现角色化的用户交互,并且从角色属性和角色记忆两方面同时控制角色化大语言模型的输出响应; 在现有角色化监督微调数据集基础上为每条数据增加角色的检索记忆内容;新的数据集表示为: 其中Mi为角色Ri基于上下文信息Ci,当前对话场景Si和外界信息xi从个人记忆数据中检索的一小部分用于回应外界信息的个人记忆数据;也就是说角色Ri在回复外界信息时需要基于人物属性Pi,上下文Ci,对话场景Si,外界输入信息xi,以及检索的记忆数据Mi; 为了得到每条Ri,Pi,Si,Ci,xi,yi数据对应的角色检索记忆Mi,原始角色化监督微调数据DRP基础上做了如下处理: 1通过网络爬虫获取包含角色Ri的原始文本数据; 2预处理角色的原始文本数据,去除HTML标签、广告内容,修正包括乱码和特殊字符的格式问题,规范化文本,得到经过初步处理的角色数据,记为 3基于RAG技术构建角色文本数据对应的向量数据库,记为用于模拟角色Ri的全部记忆,描述为以下过程: a将中的所有文本按顺序切割,每K个字或者单词被切割成一个文字片段T,并且相邻两个文字片段之间有重合; b使用嵌入模型将所有的文字片段转化成嵌入,并汇总形成角色Ri的记忆数据库表达为公式3,其中fω为开源的嵌入模型,权重为ω,为角色的记忆总数量; 4基于RAG技术从中检索与当前对话场景Si,上下文信息Ci和外界信息xi相关的个人记忆数据Mi,表示为以下过程: a将当前对话场景Si,上下文信息Ci和外界信息xi作为一个文本片段,表示为Tx=Si+Ci+xi b使用嵌入模型将文本Tx转化为嵌入fωTx,并在角色记忆库中检索与Tx最相关的3条记忆片段作为角色与当前对话相关的个人记忆,如公式4所示; 设计了两阶段的监督微调方案,使通用大语言模型逐步转化为一个一方面受角色属性控制,另一方面又受角色记忆控制的角色化大语言模型,从而从角色属性和角色记忆两方面控制角色话大语言模型的角色扮演; 1.1阶段一:角色化大语言模型的人物属性对齐监督微调训练 第一阶段的训练具体来说包含以下几个步骤: a首先大语言模型扮演角色Ri,根据人物属性Pi,上下文Ci,对话场景Si,以及外界输入信息xi而产生回复信息,表示为: 其中LLMθ为大语言模型的前向推理函数,θ为大语言模型的权重,为模型产生的回复; b基于大语言模型的推理输出,计算大语言模型在基于人物属性的角色扮演任务上的损失函数,表示为以下公式: 其中Loss为损失函数;为基于模型的回复与真实角色的回复yi计算的具体损失; c通过在整个数据集上最小化损失,通过迭代梯度下降过程得到角色化大语言模型权重,如以下公式7示: 其中α为梯度下降的学习率,α设置为0.001,在整个数据集DRP上总共训练3个epoch;将θp作为为第一阶段监督微调之后的角色化大语言模型权重,该角色化大语言模型被表示为能根据人物属性、上下文信息、对话场景、以及外界输入信息产生对应的回复信息; 1.2阶段二:角色化大语言模型的人物属性与人物记忆双对齐监督微调训练具体过程包含: a首先角色化大语言模型扮演角色Ri,根据人物属性Pi,上下文Ci,对话场景Si,检索到的相关记忆Mi,以及外界输入信息xi而产生回复信息,可表示为: 其中为模型产生的回复; b基于大语言模型的推理输出,计算大语言模型在基于人物属性的角色扮演任务上的损失函数,表示为以下公式: 其中为基于模型的回复与真实角色的回复yi计算的具体损失;在整个数据集上通过迭代梯度下降最小化上述损失,如以下公式所示: 其中β为第二训练阶段梯度下降学习率,将β设置为0.001,在整个数据集上总共训练3个epoch;将θP,M作为为第二阶段监督微调之后的角色化大语言模型权重,该角色化大语言模型被表示为能根据人物属性、上下文信息回应、对话场景、角色检索到的记忆、以及外界输入信息产生对应的回复信息; 基于角色化大语言模型的角色对话系统部署与搭建,角色化对话系统的工作被描述为以下过程,其中第1-5步为角色化对话系统的搭建与目标人物数据准备阶段,第6步为对话场景设置,第7步为循环式的角色化交互过程; 1确定目标人物R:选定或者设计需要扮演的目标人物,该人物是现实中的人物或者是虚构的人物; 2确定目标人物R的文本资料DR:若目标人物R为现实中的人或者现有文字资料里的人,则用户需要收集相关文字信息DR,若目标人物R为用户虚构的人,则用户需要直接设计目标人物R的文本资料DR; 3确定目标人物R的属性P; 4确定目标人物R的记忆库V:通过RAG技术处理人物文本数据DR,获得目标人物的记忆向量数据库V,如公式3所示; 5模型部署:在计算机硬件设备上部署角色化大语言模型 6对话场景S确定:用户确定与角色R的对话场景; 7角色化交互:用户与基于角色化对话系统的虚拟角色R交互,用户在与角色R交互时以自己真实身份与其交互,或者扮演另一个特定角色与其交互;通过循环执行以下子步骤来扮演目标人物R并回复用户,实现角色化互动: a基于用户的当前信息x以及历史对话信息C,使用RAG技术从目标人物的记忆库V中检索可能与当前对话相关的记忆M; b将目标人物的属性P、检索记忆M、上下文信息C、对话场景S、用户当前发送的信息x转化为提示词,并将提示词输入角色化大语言模型使其扮演人物R回复用户; c用户根据虚拟的目标人物R的回复与角色化对话系统进行下一轮交互。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国传媒大学,其通讯地址为:100024 北京市朝阳区定福庄东街1号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励