Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 广东工业大学周家杰获国家专利权

广东工业大学周家杰获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉广东工业大学申请的专利一种基于多智能体深度强化学习的双阶段协同优化方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119922575B

龙图腾网通过国家知识产权局官网在2025-10-14发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510085471.5,技术领域涉及:H04W24/02;该发明授权一种基于多智能体深度强化学习的双阶段协同优化方法是由周家杰;袁穗丹;黄俊霖;彭泰钧;陈新;杨超设计研发完成,并于2025-01-20向国家知识产权局提交的专利申请。

一种基于多智能体深度强化学习的双阶段协同优化方法在说明书摘要公布了:本发明提供一种基于多智能体深度强化学习的双阶段协同优化方法,在大模型协同微调阶段,车辆将采集的环境信息传输至所属的无人机进行大模型微调;车辆发出的请求根据雷达感知信息估计率的优先级进行排队处理;在大模型协同推理阶段,无人机将地面车辆用户根据不同的服务请求进行分类处理;无人机与其所属类别的车辆进行共享推理任务;并且在两个阶段分别通过MADDPG算法调整自身的发射功率来优化车辆通信速率、以及通过MAPPO算法优化无人机之间的位移和资源分配,并最大化下行链路的通信速率。本发明通过多智能体协作,优化大规模模型的微调与推理过程,提升车联网系统中通信和感知效率,同时提高车辆用户的AIGC服务满意度。

本发明授权一种基于多智能体深度强化学习的双阶段协同优化方法在权利要求书中公布了:1.一种基于多智能体深度强化学习的双阶段协同优化方法,其特征在于,包括大模型协同微调阶段、大模型协同推理阶段; 在大模型协同微调阶段,车辆将采集的环境信息传输至所属的无人机进行大模型微调;车辆发出的请求根据雷达感知信息估计率的优先级进行排队处理;并通过MADDPG算法将车辆作为智能体通过调整自身的发射功率来优化通信速率; 在大模型协同推理阶段,无人机将地面车辆用户根据不同的服务请求进行分类处理;每台无人机针对其所属类别的车辆进行共享推理任务,所述的无人机启动大模型完成部分推理任务,并将所生成的中间推理结果将通过OMA下行链路传输给各个车辆完成剩余推理任务;并使用MAPPO算法优化无人机之间的位移和资源分配,并最大化下行链路的通信速率; 所述的MADDPG算法通过Critic网络和Actor网络相结合的方式实现联合优化,其中,Critic网络用于估计全局状态-动作值函数其参数通过最小化损失函数更新,即: 式中,表示车辆k的Critic网络损失函数,表示Critic网络的参数;表示期望值;Q表示Critic网络输出的状态-动作值函数;yk表示车辆k的目标值;su表示车辆智能体的联合状态;au表示车辆智能体的动作集合; 其中,车辆k的目标值yk表示为: 式中,为车辆k的奖励函数;γu表示折扣因子;状态su′和动作au′分别表示下一步的状态和由目标Actor网络生成的联合动作;表示目标Critic网络的参数; 在Actor网络优化过程中,每个车辆智能体独立地学习动作策略通过以下梯度更新优化参数: 式中,表示车辆k的Actor网络损失函数;表示Actor网络的参数;表示期望值; 所述的Actor网络依赖于Critic网络提供的全局信息,指导每个车辆智能体调整其发射功率,以实现全局最优性能,并通过软更新策略保持参数的平滑调整: 式中,分别表示车辆k的目标Actor网络的参数和目标Critic网络的参数;分别表示车辆k的Actor网络的参数和Critic网络的参数;τ∈0,1]为软更新步长; 通过MAPPO算法解决无人机在多任务推理中协同优化资源分配的问题,将每台无人机作为一个智能体,通过学习优化策略,以最大化无人机的通信速率和最小化NIQE为目标; 所述的MAPPO算法的Actor网络通过多步交互采样,策略更新通过优化以下目标函数完成: 式中,表示无人机j的Actor网络的损失函数,θj表示Actor网络的参数;表示期望值;表示当前策略和旧策略在状态下执行动作的概率比值;∈为裁剪阈值,用于限制策略更新的幅度以提高收敛稳定性;表示基于广义优势估计算法计算得到的优势函数;clip表示将值裁剪到区间[1-∈,1+∈]内,即小于1-∈的变为1-∈,大于1+∈的变为1+∈;ψ为平衡探索与利用的超参数,表示状态时的动作熵; 所述的MAPPO算法的Critic网络无人机j的状态价值进行拟合,即: 式中,表示无人机j的Critic网络的损失函数;为Critic网络所拟合的状态时的状态价值,为状态的目标状态价值。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人广东工业大学,其通讯地址为:510006 广东省广州市番禺区小谷围街道广东工业大学;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。