东北大学张天成获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉东北大学申请的专利一种基于强化学习的个性化习题推荐方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116680477B 。
龙图腾网通过国家知识产权局官网在2025-08-08发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310703313.2,技术领域涉及:G06F16/9535;该发明授权一种基于强化学习的个性化习题推荐方法是由张天成;李季;李捷;张馨艺;于明鹤;于戈设计研发完成,并于2023-06-14向国家知识产权局提交的专利申请。
本一种基于强化学习的个性化习题推荐方法在说明书摘要公布了:本发明提供一种基于强化学习的个性化习题推荐方法,涉及教育数据挖掘技术领域。本发明首先获得学习者学习记录,通过知识追踪模型判断出学习者潜在的知识水平,将其作为学习者特征的一部分,使得对学习者的特征建模更加准确。之后通过强化学习算法来删除习题记录中学习者误选到的不满意的习题,从而提升推荐的准确性。最后通过个性化推荐模型对学习者进行习题推荐。本发明将个性化推荐、知识追踪、强化学习算法相结合,在考虑学习者潜在知识水平的同时,还去掉了学习过程中误选习题带来的影响,具有重要的理论和实际运用价值。
本发明授权一种基于强化学习的个性化习题推荐方法在权利要求书中公布了:1.一种基于强化学习的个性化习题推荐方法,其特征在于:包括以下步骤: 步骤1:利用知识追踪模型计算出学习者潜在的知识水平,将其加入到个性化推荐模型的特征构建和习题记录修改模型的状态表示中; 步骤2:构建并训练一个个性化推荐模型用于习题推荐; 步骤3:基于强化学习的DeepQ-Learning算法设计并训练一个习题记录修改模型,用来去掉学习过程中误选到的不喜欢或者不满意的习题; 所述习题记录修改模型采用强化学习相关算法,包括模型的动作表示、状态表示、奖励函数和采用强化学习算法,具体如下: 为了删除学习者学习过程中不喜欢或者不满意的习题,每一步的动作at只有两个值,at=0表示在习题记录中删除该习题,at=1表示在习题记录中保留该习题; 学习者的状态表示如下式所示: S=[k1,k2,…,kN,p1,p2,…,pN] 其中,k1,k2,…,kN表示学习者的潜在知识水平,具体到第i个学习者的表示为 由知识追踪模型给出;p1,p2,…,pN是学习者习题记录和位置标识符的低维向量表示,位置标识符的作用是记录修改的位置; 强化学习模块的奖励函数由个性化推荐模型给出,形式如下式所示: 其中,etarget是学习者在下一时刻真实选择的习题,表示根据修改后的习题记录选择目标习题的概率,petarget|Ei表示根据原始习题记录选择目标习题的概率;强化学习模块采取回合更新的策略,只有完成一个学习者的整个学习记录的修改后才会获得奖励函数,其余时刻奖励函数为0; 强化学习算法采取的是深度Q网络算法DQN,该算法是将神经网络和传统强化学习算法中的Q-Learning算法相结合; 强化学习模块将真实值和预测值的差值的平方作为损失函数,进行训练和更新DQN模型的参数,损失函数具体公式如下式所示: 其中,Qθst,at表示在状态st下选择动作at将获得的奖励的预测值,由预测Q网络计算得出,预测Q网络的网络参数为θ;表示状态st下选择动作at能获得的奖励的真实值;其中由目标Q网络计算得出,表示下一个状态st+1能获得的最大奖励值,目标Q网络的网络参数为rt是当前能获得的奖励值,由奖励函数给出; 损失函数的梯度如下式所示: 根据梯度下降来更新网络参数; 步骤4:将个性化推荐模型和习题记录修改模型进行联合训练; 步骤5:使用步骤4联合训练后得到的习题记录修改模型对学习者习题记录进行修改,再使用步骤4联合训练后得到的个性化推荐模型对学习者进行习题推荐,得到习题推荐列表。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人东北大学,其通讯地址为:110819 辽宁省沈阳市和平区文化路三号巷11号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。