杭州观远数据有限公司应泽良获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉杭州观远数据有限公司申请的专利基于强化学习和模仿学习的智能补货决策方法及存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114781724B 。
龙图腾网通过国家知识产权局官网在2026-04-17发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210428733.X,技术领域涉及:G06Q10/04;该发明授权基于强化学习和模仿学习的智能补货决策方法及存储介质是由应泽良;周远设计研发完成,并于2022-04-22向国家知识产权局提交的专利申请。
本基于强化学习和模仿学习的智能补货决策方法及存储介质在说明书摘要公布了:本发明为基于强化学习和模仿学习的智能补货决策方法及存储介质,包括MDP设计模块,模仿学习建模模块以及智能决策模块;模仿学习建模模块包括行为克隆模块以及对抗式模仿学习模块;智能决策模块包括基础策略以及探索策略。本发明结合行为克隆和对抗式模仿学习两种方式,通过行为克隆应对简单业务场景,使智能体的补货决策能力达到专家平均水平,通过对抗式模仿学习构建对抗奖励函数应对复杂业务场景,超越专家决策水平。本发明有效解决现有补货系统对输入数据依赖度较高,模型稳定性低、泛化能力弱的问题,并避免了黑盒预测,拥有更好的商业落地能力以及业务拓展能力。
本发明授权基于强化学习和模仿学习的智能补货决策方法及存储介质在权利要求书中公布了:1.一种基于强化学习和模仿学习的智能补货决策方法,其特征在于,包括以下步骤: S1、通过MDP设计模块对补货业务场景抽象,具体包含状态空间设计、动作空间设计、奖励函数设计与策略设计; S2、根据S1所述MDP设计模块,构建模仿学习建模模块,具体包含行为克隆模块和对抗式模仿学习模块; S3、通过Q-Learning算法训练,获得基于当前数据的最佳补货策略; S4、通过S3所述算法训练所得策略,对补货场景进行智能决策,并通过Dagger算法与环境不断进行交互,产生更多数据,优化模型; 其中,所述步骤S1具体包括: S11.状态空间设计描述智能体感知补货业务场景信息及其动态变化; S12.动作空间设计描述智能体可执行的操作,根据所述步骤S11判断是否对商品进行补货动作以及确定商品最佳补货量; S13.奖励函数设计将客户期望和任务目标转换成可量化的奖励函数,引导强化学习算法训练; S14.策略设计基于所述状态空间设计、动作空间设计以及奖励函数设计,根据策略优化目标是否单一可分为简单策略和复合策略,分别使用单一奖励函数和复合奖励函数; 所述步骤S2具体包括: S21.根据奖励函数是否已知,分为奖励函数已知的行为克隆模块和奖励函数未知的对抗式模仿学习模块; S22.针对简单业务场景,奖励函数已知,直接使用已知的奖励函数指导强化学习算法训练,并使用训练所得策略引导智能体产生补货策略,该过程为行为克隆; S23.针对复杂业务场景,奖励函数未知,通过逆强化学习拟合奖励函数后,使用拟合所得奖励函数指导强化学习算法训练,并使用训练所得策略引导智能体产生补货策略,该过程为对抗式模仿学习; S24.所述S23步骤具体使用逆强化学习拟合得到复合奖励函数,方法包含但不仅限于线性回归; 所述步骤S4具体包括: S41.根据S3训练所得补货策略,与环境不断地进行交互,不断收集专家示例,产生新的数据,即基于当天的数据进行模仿学习,获得补货策略; S42.在增广的新数据集上,重复S1-S3所述步骤对模型再训练,即以当前补货策略进行环境交互,所述的环境交互通过-greedy算法完成:-greedy算法用于平衡利用和探索,该算法以的概率进行随机探索,以1-的概率采取最佳补货动作,是介于0到1的小概率数,生成新的序列,序列由状态、动作、奖励值交替组成: ; 其中M为算法探索的步数; S43.通过“训练-决策-再训练-再决策”的迭代框架,不断优化模型,模型通过-greedy算法生成补货行为,根据补货后业务指标或收集到新的专家示例,获得增广数据集,回到S41。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人杭州观远数据有限公司,其通讯地址为:310000 浙江省杭州市余杭区五常街道文一西路998号19幢506室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励