Document
拖动滑块完成拼图
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
最新专利技术
  • 本公开涉及计算机技术领域,涉及一种渲染模型的训练方法及装置、光照渲染方法及装置、计算机程序产品和电子设备。该训练方法包括:基于教师模型从图像帧样本中提取待渲染对象的固有属性信息和全局光影信息;利用初始学生模型对高斯基元进行特征解码,得到基础...
  • 本发明公开了一种基于置换策略网络的移动多智能体知识迁移方法,涉及多智能体强化学习技术领域。包括:将置换不变性策略网络与置换同变性策略网络嵌入超网络框架,通过超网络动态生成输入层与输出层权重矩阵,建立联合状态‑动作空间与智能体规模、环境变化的...
  • 本发明公开了一种基于宽度学习的自然语言理解模型训练方法及系统,包括以下步骤:对训练数据进行预处理;将基于Transformer架构的预训练语言模型与宽度学习融合,得到融合模型;将训练数据作为基于Transformer架构的预训练语言模型的输...
  • 本发明涉及深度神经网络安全领域,尤其是涉及一种基于梯度对齐对抗蒸馏的黑盒攻击方法。包括以下步骤:步骤1:设计梯度差最大化的样本扰动生成器;步骤2:为替代模型设计梯度对齐对抗蒸馏建模框架;步骤3:交替训练替代模型和扰动生成器;步骤4 : 基于...
  • 本发明涉及一种有序多人Stackelberg纳什博弈的逆强化学习算法,包括建立专家玩家的Stackelberg纳什博弈系统,并设计惩罚函数;基于最优化控制理论;建立学习者玩家的Stackelberg纳什博弈系统;设计基于模型的逆强化学习算法...
  • 本发明提出一种面向混合博弈稀疏奖励的分布式多智能体强化学习方法,解决动作空间庞大、奖励稀疏及拟人性差的问题。通过多服务器部署游戏环境、AI服务器和强化学习训练器,搭建分布式训练框架,实现并行数据采集与梯度同步,提升训练效率。将复合动作拆分为...
  • 本发明属于人工智能与自然语言处理技术领域,公开了基于GRPO奖励函数的NL2SQL模型训练和存储方法及装置。本发明构建了高质量的训练数据集,结合语法校验、执行验证及语义一致性筛选,有效提升模型的训练效果与生成性能;本发明采用GRPO作为基础...
  • 本发明属于金融科技与人工智能交叉技术领域,公开了金融数据驱动的多模态大模型强化学习训练方法及装置。本发明利用GRPO实现了多模态模型对股票图具体准确的分析;设计动态奖励函数,通过匹配格式标签、文本语义相似度和分段奖励机制三重反馈优化模型输出...
  • 本发明提供一种问答大模型训练方法、问答方法、装置、设备及存储介质,涉及人工智能技术领域,其中方法包括:获取待训练的问答大模型及问题样本集;所述问题样本集中包括多个难度等级的问题样本;对于所述问题样本集中的每个所述问题样本,获取所述问题样本的...
  • 本申请提供一种基于强化学习的异常检测多模态大模型训练方法和装置。本申请提供的方法:异常检测多模态大模型的编码器基于交叉注意力机制提取综合特征,基于综合特征预测样本图像与检测指令对应的异常标签和推理过程文本;计算推理过程文本的每个最小文本单元...
  • 本发明提供一种智能计算中心云平台通过算力进行嵌入链自奖励信号的强化训练方法及装置,涉及智能计算中心、智算中心、算力基础设施和智算云技术领域,该方法包括:步骤S1、基于初始策略模型对第一问题进行预测,得到多个预测回答;步骤S2、通过预设参考模...
  • 本发明提供了一种基于多模态数据的强化学习模型的训练方法及相关设备,可以实现文本、图片、结构化数据的跨模态语义融合,突破传统单模态处理局限。该方法包括:获取驾培行业所对应的外部数据、互联网生态数据以及内部业务数据;对外部数据、互联网生态数据以...
  • 本申请属于人工智能技术领域,涉及一种模型强化微调方法、装置、设备及其存储介质,通过获取目标数量的任务演示数据;输入到构建完成的目标模型中,对目标模型进行离线初始训练,得到模型策略初始化后的目标模型;获取实时采集的任务指导数据;输入到模型策略...
  • 本申请公开了一种决策模型训练方法、装置、设备及介质。所述方法包括:获取策略互动中与非合作方的多局竞争中的历史对局数据;利用同策略多智能体优先经验回放算法选取目标训练样本集并根据目标训练样本集对多个预设模型进行迭代训练;利用联盟学习算法将多个...
  • 本发明涉及模型训练技术领域,具体是涉及一种有模型深度强化学习方法、装置、设备及介质。本发明基于智能体工作的原始环境图像分析出差异图像,该差异图像代表了环境的动态变化信息,然后基于该差异图像和原始环境图像训练世界模型,使得世界模型能够学习到复...
  • 本公开提供了基于大模型的视觉内容生成和目标大模型训练方法和装置,涉及深度学习、大模型、计算机视觉以及自然语言处理等人工智能领域。所述的基于大模型的视觉内容生成方法可包括:获取目标指令信息;将目标指令信息输入目标大模型,得到对应的目标结果信息...
  • 本申请实施例提供一种信贷风险模型的参数调整方法、装置、设备及存储介质,计算机技术领域和金融技术领域。该方法包括:获取信贷风险模型在初始冠军挑战中所确定出的多个初始配置参数;将多个初始配置参数划分为多组之后,输入至预先训练好的多粒度混合专家模...
  • 本发明公开了一种在进化计算中基于深度强化学习的自动算法配置方法,包括:确定问题集;获取构建马尔可夫决策过程的初始数据;根据所述初始数据使用个体状态向量定义进化计算算法中每个个体在时间步的状态向量;根据所述初始数据构建种群特征、个体特征和开发...
  • 本发明涉及嵌入式人工智能技术领域,公开了一种基于量化感知训练的拉弧检测模型训练方法及系统,包括:构建用于直流拉弧故障检测的初始浮点精度神经网络模型,并为模型定义多个量化函数用以转换浮点参数;自定义FakeQuant伪量化策略,将原始模型中的...
  • 本申请实施例提供了一种训练方法、装置、存算系统和电子设备,用以提升人工智能模型在复杂噪声环境下的性能。该方法包括:获取人工智能模型的第一线性层的第一权值数据和第一输入;将第一输入输入所述第一线性层并进行加噪输出,得到第一输出;将第一输出作为...
技术分类