福建博思软件股份有限公司方缙获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉福建博思软件股份有限公司申请的专利保持通用能力的MoE模型层自适应训练方法、介质和设备获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121683921B 。
龙图腾网通过国家知识产权局官网在2026-05-05发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202610158567.4,技术领域涉及:G06N3/09;该发明授权保持通用能力的MoE模型层自适应训练方法、介质和设备是由方缙;杨凯;丁晓璐;刘东东设计研发完成,并于2026-02-04向国家知识产权局提交的专利申请。
本保持通用能力的MoE模型层自适应训练方法、介质和设备在说明书摘要公布了:本申请公开了一种保持通用能力的MoE模型层自适应训练方法、介质和设备,属于人工智能技术领域。该方法包括:构建一个集成了基于信任域约束的监督微调损失、层自适应负载均衡损失和GRPO强化学习损失的联合损失函数。其中,监督微调损失通过KL散度约束当前模型输出与参考模型输出的分布;层自适应负载均衡损失通过动态计算各MoE层的负载不均衡度,并据此为各层分配自适应的惩罚权重,实现对不均衡程度更高的层施加更强的约束;GRPO损失则利用群组内候选响应的相对优势进行策略优化。最后,基于该联合损失函数对模型参数进行同步更新。本申请有效解决了MoE模型在私域定制中通用能力易退化、专家负载不均衡与强化学习目标割裂的问题。
本发明授权保持通用能力的MoE模型层自适应训练方法、介质和设备在权利要求书中公布了:1.一种保持通用能力的MoE模型层自适应训练方法,其特征在于,所述方法包括: 加载一个预训练的MoE模型,将其初始参数固定,作为信任域参考模型;准备监督训练数据集以及用于强化学习的输入提示集合; 在同一个训练批次中,构建一个集成以下三个优化目标的联合损失函数,的计算公式如下: ; 其中,和分别为可调的损失权重超参数,表示基于信任域约束的监督微调损失,表示总的层自适应负载均衡损失,表示基于群组相对优势的GRPO强化学习损失,表示待优化的MoE模型的参数; 的构造方式如下: 对于从所述监督训练数据集中采样的样本数据对x,y∈,计算标准交叉熵损失,计算公式如下:,其中,表示对于输入提示x,模型将正确答案y作为输出的概率大小;计算当前模型输出概率分布与所述信任域参考模型的输出概率分布之间的KL散度,将KL散度作为信任域约束项,基于所述标准交叉熵损失和所述信任域约束项计算,计算公式如下: ; 其中,为信任域约束强度系数,DKLP||Q表示概率分布P相对于概率分布Q的KL散度,表示信任域参考模型在输入提示x下完整的概率分布,表示待优化的MoE模型在输入提示x下完整的概率分布; 的构造方式如下: 对于所述MoE模型的第l个MoE层,该MoE层含有Ml个专家网络,统计一个训练批次中第i个专家网络的实际负载比例,计算公式如下:,其中,B为训练批次大小,∈{0,1}为路由指示变量,表示第b个输入样本是否被路由到第l层的第i个专家网络; 基于实际负载比例计算各层的负载不均衡损失,计算公式如下: ; 计算该层的负载不均衡度指标,根据负载不均衡度指标,动态计算该层的自适应权重wl,使得wl随单调递增,以实现对不均衡程度更高的层施加更强的负载均衡约束,和wl的计算公式如下: ; ; 其中,为基础权重,为放大系数,为权重上限值; 基于各层的负载不均衡损失及其对应的自适应权重,加权求和得到总的层自适应负载均衡损失,计算公式如下: 其中,L表示MoE模型中MoE层的总数; 的构造方式如下: 对于给定的用于强化学习的输入提示集合中的输入提示x,从所述模型在上一次参数更新前的策略中采样生成K条候选响应,并获得对应的奖励;计算该群组的平均奖励,计算公式如下:;以及构造各候选响应的相对优势,对所述各候选响应的相对优势进行标准化或裁剪处理,得到处理后的相对优势;计算当前策略与更新前的策略的概率比,计算公式如下: ; 基于所述处理后的相对优势及概率比,采用近端策略优化的裁剪形式计算得到GRPO强化学习损失,计算公式如下: ; 其中,k表示候选响应索引,表示裁剪阈值超参数; 基于所述联合损失函数,采用梯度优化算法对所述MoE模型的所有参数进行同步更新。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人福建博思软件股份有限公司,其通讯地址为:350000 福建省福州市闽侯县上街镇高新大道5号博思软件大厦;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励