华东师范大学杨燕获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉华东师范大学申请的专利一种基于变分贝叶斯逆强化学习策略的情感支持对话系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119293181B 。
龙图腾网通过国家知识产权局官网在2026-03-20发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411390716.7,技术领域涉及:G06F16/3329;该发明授权一种基于变分贝叶斯逆强化学习策略的情感支持对话系统是由杨燕;楼城灿;吴宜虹;陈思嵘设计研发完成,并于2024-10-08向国家知识产权局提交的专利申请。
本一种基于变分贝叶斯逆强化学习策略的情感支持对话系统在说明书摘要公布了:本发明公开了一种基于变分贝叶斯逆强化学习策略的情感支持对话系统,其特点是采用包括:情感支持策略选择模块、对话常识分析推理模块和回复生成模块构建的策略情感支持对话系统,所述情感支持策略选择模块由对话状态编码器和变分贝叶斯逆强化学习策略选择模块,根据当前对话历史信息以及已经所使用的策略来进行策略选择;所述对话常识分析推理模块生成与当前对话相关的常识信息分析与预测;所述回复生成模块将生成内容以及对话历史生成回复。本发明与现有技术相比具增强生成回复的信息丰富度和准确率,有效提高策略情感支持对话场景下策略选择准确度和用户的体验感,具有良好的运用前景和商业开发价值。
本发明授权一种基于变分贝叶斯逆强化学习策略的情感支持对话系统在权利要求书中公布了:1.一种基于变分贝叶斯逆强化学习策略的情感支持对话系统,其特征在于,采用包括情感支持策略选择模块、对话常识分析推理模块和回复生成模块构建的情感支持对话系统,通过支持策略选择、对话常识生成和分析,生成对话系统的回复,所述情感支持策略选择模块为对话状态编码器与变分贝叶斯逆强化学习策略选择模块组合而成,该模块根据当前对话历史信息以及已经所使用的策略来进行情感支持策略选择,具体包括: 1-1:对话状态编码器将对话历史和先前所使用策略列表转化为特征矩阵,其处理过程由下述a~f表示为: a; b; c; d; e; f; 其中,表示当前对话的轮数;表示模型先前在回复的内容;表示用户的历史语句;表示将对话历史处理至合适的格式; 将输入到Roberta-base模型进行编码,取得模型的池化层输出向量后输入线性层中进行维度转化,将得到的特征向量与策略列表进行拼接,得到当前对话历史的综合状态编码; 1-2:变分贝叶斯逆强化学习策略选择模块根据当前的对话历史进行策略预测,所述变分贝叶斯逆强化学习策略选择模包含:奖励函数拟合模块和策略选择模块,其中策略选择模块的训练使用变分贝叶斯逆强化学习的方法;所述变分贝叶斯逆强化学习的方法的实现步骤如下: 1-2-1:在原始数据集上使用对话状态编码器进行对话历史编码,具体构造方法为:对于每一个数据集当中的完整对话进行数据构造,对话角色分为求助者和帮助者,将帮助者回复前的对话历史使用对话状态编码器进行状态编码,然后添加帮助者所使用的回复策略,得到序列数据、表示数据集当中完整对话的条数、表示当前对话的最大轮数; 1-2-2:将序列数据中的数据进行切分,得到元组的训练数据,所述四元组包含同一个对话当中前一个对话历史状态编码、前一个状态帮助者使用的策略、后续一个对话历史状态编码和后续帮助者使用的策略;所述序列数据由下述g式表示为:g; 其中,为第i个对话的第t轮对话历史的综合状态编码;为第i个对话当中第t轮对话的策略选择;t为对话的当前轮数;为当前数据集当中第i个对话的最大轮数;m为当前数据集所包含的完整对话条数; 对序列数据进一步切分,得到由下述h式所示的训练数据: h; 其中,为训练数据总条数;为中切分出的对话历史的综合状态编码;为中切分出的使用策略;为原先数据集中处于后一轮对话的状态编码;为对应的策略动作选择; 1-2-3:奖励函数拟合模块包含了一个深度学习神经网络来进行奖励函数变分后验分布的学习,设置奖励函数为高斯分布,其中的组成如下: 1输入值为对话历史的综合状态编码,其中、、和均为可训练参数,表示中间结果向量,最终奖励函数拟合模块输出一个维度为2的向量,其中第一维表示当前奖励函数分布的均值,第二维表示对数标准差;所述中间结果向量由下述i式表示为: i; 2策略选择模块 采用的设计方式,其中输入值为对话历史的综合状态编码,表示当前状态的全局价值,表示给定状态下各个动作的优势值;、分别为两个隐藏层的激活值;为状态在采取动作时的Q值; 第一层隐藏层的激活值由下述j式表示为: j; 第二层隐藏层的激活值由下述k式表示为: k; 所述当前状态的全局价值由下述l式表示为: l; 所述优势值由下述m式表示为: m; 所述Q值由下述n式表示为: n; 为策略选择模型所选择策略的动作;表示动作空间维度;为所有可选择的动作; 3将奖励函数拟合模块与策略选择模块协同进行训练,其中奖励函数拟合模块的参数统称为,策略选择模块的参数统称为,所述奖励函数拟合模块使用最小化KL散度拟合奖励的后验分布;所述策略选择模块训练使用负对数似然损失,对应损失函数为,表示策略网络估算的Q值在状态转移的过程当中隐含的奖励大小,表示约束性损失,最终的优化损失函数为,和用于控制损失比例; KL散度损失由下述o式表示为: o: 其中,为输出的当前奖励函数分布的均值;为对数标准差; 由下述p式表示为: p; 其中,为正确选用的动作策略;为对话历史的综合状态编码; 所述奖励大小由下述q式表示为: q; 其中为对话历史的综合状态编码;为当前对话轮对应的策略动作选择;为后一轮的状态编码;为后一轮对话对应的策略动作选择; 所述约束性损失由下述r式表示为: r; 其中,为奖励值;为正态分布; 所述优化损失函数由下述s式表示为: s; 其中,和分别为两个不同的损失权重;为KL散度损失;为负对数似然损失;为约束性损失; 4训练完成后使用策略选择模块,求得当前状态下各个动作对应的Q值,选择Q值最大的动作为后续选择的策略,最终选出策略作为当前对话状最优的动作选择,即对应策略; 所述策略动作由下述t式表示为: t; 其中,为对话状态编码;为候选动作集; 所述对话常识分析推理模块的构建具体包括: 2-1:使用对话历史数据以及由ChatGPT标识出的常识分析数据对Llama2-hf-7b模型进行LoRA微调;其中,微调损失函数由下述u式表示为: u; 其中,为目标生成内容;为输入的对话背景提示;G为当前目标生成内容的总长度;为模型已生成的内容; 用户当前的情绪以及其原因由下述v式表示为: v; 其中,为经训练的LoRA适配的语言模型,其用于生成用户情绪以及原因的相关内容;为输入的情绪原因分析提取适配的对话背景提示; 当前用户状况的建议信息由下述w式表示为: w; 其中,为经训练的LoRA适配的语言模型,其用于生成对于当前对话状况的建议;为输入的建议提供适配的对话背景提示; 当前对话当中对于用户的想法分析由下述x式表示为: x; 其中,为经训练的LoRA适配的语言模型,其用于解析生成用户想法的相关内容;为输入的想法分析适配的对话背景提示; 模型预测的后续发生事件由下述y式表示为: y; 其中,为经训练的LoRA适配的语言模型,其用于预测生成后续的发生事件;为输入的后续事件预测适配的对话背景提示; 其中,表示常识的总称;G表示当前常识数据的总长度;表示已生成的常识内容; 2-2:通过LoRA微调,得到用户当前的情绪以及其原因、当前用户状况的建议信息、未来回复当中可能的意图和对话后续可能会发生的状况四个LoRA模型参数,其中表示获取用户当前情绪以及原因的模型,通过输入对话历史可以得到用户当前的情绪以及其原因;表示对于当前的用户状况的建议信息,通过模型获得;表示模型预测的用户的意图,使用来获得;表示对话后续可能会发生的状况,使用来获得; 所述回复生成模块的构建具体包括: 3-1:将微调后得到的四个LoRA模型参数,构建情感支持对话回复生成模块;其中,对话常识推理分析模块生成的内容集合由下述z式表示为: z; 其中,通过输入对话历史得到用户当前的情绪以及其原因;为对于当前的用户状况的建议信息;为模型预测的用户的意图;为对话后续可能会发生的状况; 损失函数由下述式表示为: ; 其中,为对话常识推理分析模块生成的内容集合;为目标生成回复;为回复总长度;为已经生成的回复;为第t轮对话生成的背景提示;为所选策略动作的文本描述; 3-2:使用训练得到的模型,结合对话常识推理分析模块生成的内容以及所选的对话策略,得到由下述式表示的对话回复: ; 其中,为第t轮的对话回复;为所选策略动作的文本描述;为对话常识推理分析模块生成的内容集合;为第t轮对话生成的背景提示。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人华东师范大学,其通讯地址为:200241 上海市闵行区东川路500号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励