中国人民解放军国防科技大学冯大为获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中国人民解放军国防科技大学申请的专利大模型智能体交互问答任务决策方法、装置、设备及介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119166778B 。
龙图腾网通过国家知识产权局官网在2025-09-19发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411251132.1,技术领域涉及:G06N5/04;该发明授权大模型智能体交互问答任务决策方法、装置、设备及介质是由冯大为;许可乐;杨廷楷;翟远钊;杨森;杨程;张迅晖;丁博;王怀民设计研发完成,并于2024-09-06向国家知识产权局提交的专利申请。
本大模型智能体交互问答任务决策方法、装置、设备及介质在说明书摘要公布了:本发明涉及一种大模型智能体交互问答任务决策方法、装置、设备及介质,方法包括:基于部分可观察的马尔科夫决策过程构建智能体策略模型;获取用户输入指令,采用智能体策略模型生成信息搜索轨迹;采用蒙特卡洛树搜索算法构建信息搜索轨迹的决策树,得到Q值标注的偏好数据集;设置一个大语言模型,根据Q值标注的偏好数据集,采用步骤级优化目标函数对大语言模型进行训练,得到训练好的大语言模型;根据训练好的大语言模型构建Q值模型,然后根据Q值模型输出Q值估计;根据Q值估计和信息搜索轨迹选择动作,生成问答流程。本发明能够显著增强大模型智能体在自主推理和决策过程中的表现及泛化能力。
本发明授权大模型智能体交互问答任务决策方法、装置、设备及介质在权利要求书中公布了:1.一种大模型智能体交互问答任务决策方法,其特征在于,所述方法包括: 基于部分可观察的马尔科夫决策过程构建智能体策略模型; 获取用户输入指令,采用所述智能体策略模型生成信息搜索轨迹;采用蒙特卡洛树搜索算法构建信息搜索轨迹的决策树,得到Q值标注的偏好数据集; 设置一个用于学习Q值的大语言模型,根据所述Q值标注的偏好数据集,采用步骤级优化目标函数对所述大语言模型进行训练,得到训练好的大语言模型; 根据训练好的大语言模型构建Q值模型,然后根据所述Q值模型输出Q值估计; 根据所述Q值估计和所述信息搜索轨迹选择动作,生成问答流程; 采用蒙特卡洛树搜索算法构建所述信息搜索轨迹的决策树,得到Q值标注的偏好数据集,包括: 定义决策树的节点表示状态,边表示动作,并在每个节点存储一组统计数据; 从根节点开始进行扩展,在每层深度,根据每个节点存储的统计数据计算上置信界值,以选择合适叶节点进行下一步轨迹扩展; 在进行下一步轨迹扩展时,从所述信息搜索轨迹中采样若干动作对叶节点进行扩展,直至达到最大行动步数,生成决策树; 根据所述决策树获取Q值标注的偏好数据集; 根据所述Q值标注的偏好数据集,采用步骤级优化目标函数对所述大语言模型进行训练,得到训练好的大语言模型,包括: 根据所述Q值标注的偏好数据集,获取偏好数据对; 则步骤级优化目标函数的表达式为: ; 式中,表示约束项权重;表示大语言模型;表示参考模型;表示最佳偏好的动作;表示较少偏好的动作;表示给定环境下的用户输入指令;表示当前时间步下的信息搜索轨迹;表示求平均操作;表示激活函数。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国人民解放军国防科技大学,其通讯地址为:410073 湖南省长沙市开福区德雅路109号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励