Document
拖动滑块完成拼图
专利交易 积分商城 国际服务 IP管家助手 科技果 科技人才 商标交易 会员权益 需求市场 关于龙图腾 更多
 /  免费注册
到顶部 到底部
清空 搜索
最新专利技术
  • 本发明公开了人形机器人VLA模型任务泛化能力挖掘方法及系统,该方法核心包括:通过元学习框架训练模型,提升模型对新任务的快速适应能力;采用多任务联合训练策略,增强模型对多样化任务的学习效果;利用任务特征自适应模块,自动识别并提取任务相关特征,...
  • 本发明公开了一种基于奇异值分解的低秩近似的神经网络继承方法及系统。与现有方法不同,本发明采用了一种新的结构继承方案,避免了传统方法中深层网络结构带来的计算负担,提高了计算效率。为了加速模型收敛并增强表现,本发明采用了基于奇异值分解(SVD)...
  • 本申请提供一种模型训练、数据处理的方法及设备。本申请的方法,通过借助参考模型从已有的指令数据集中筛选出模型拟合难度满足预设条件的指令,可以从指令数据集中筛选出模型拟合难度较高的、具有挑战性的指令,作为种子指令;基于种子指令扩展生成多个相似的...
  • 本申请实施例公开了一种数据处理方法、装置、电子设备和可读存储介质,涉及计算机技术领域。本申请实施例可以获取源域数据集、目标域数据集和共享域数据集,并通过目标模型的特征提取网络、注意力网络和输出网络,确定目标模型的输出结果,并根据输出结果和输...
  • 本发明公开了基于Transformer模型与对抗扰动训练的内容校对方法,包括:对输入文本序列进行嵌入处理并生成初始语义嵌入向量;通过短距离卷积层处理查询和键向量并进行归一化;利用在线子空间稳定化器确定稳态与易变记忆子空间;将向量分别投影到上...
  • 本发明提供一种以决策边界为导向的多目标协同鲁棒联邦学习方法及系统,包括中心服务器将当前的全局模型参数分发给多个客户端;客户端进行多轮的本地训练以更新本地模型参数;在训练过程中以最小化三元混合损失函数为优化目标;客户端将更新后的本地模型参数上...
  • 公开了一种检测模型训练方法、装置、设备及存储介质,涉及信息安全领域。训练样本集中的多个样本包括第一样本,第一样本的多次迭代包括第n次迭代。在第n次迭代中,根据第一样本的多个变异规则,生成第一样本的多个变异样本。其中多个变异样本中的第一变异样...
  • 本公开提供一种深度强化学习模型调参辅助方法及装置,涉及人工智能技术领域。本公开通过学生智能体和教师智能体的协同调参机制,结合模型的历史版本的训练经验和当前版本的数据生成模型的调参方案,调参方案的生成过程具备明确的分析‑强化‑生成的自监督推理...
  • 本申请实施例提供一种智能催收机器人的训练方法、装置及电子设备,涉及计算机技术领域,用以适用于复杂多变的催收场景,并提升催收成功率。其中,方法为:获取至少一个对象模拟模型和初始催收机器人;基于至少一个对象模拟模型和初始催收机器人之间的催收模拟...
  • 本发明涉及机器学习技术领域,可应用于金融科技、医疗健康等业务系统平台中,公开了一种机器人强化策略优化方法、装置、设备及介质,获取机器人的运行状态信息,并根据运行状态信息与预先获取的环境图像构建高维状态观测向量;根据预设的神经网络策略模块对高...
  • 本申请公开了大语言模型强化学习训练的熵坍塌抑制方法、装置、设备及介质,涉及问答大语言模型技术领域,包括:确定目标策略模型在预设并行环境下进行强化学习训练时的当前熵值;若当前熵值大于预设熵值阈值,通过目标策略模型确定第一工具调用序列信息;确定...
  • 本发明涉及人工智能技术领域,尤其涉及一种基于智能体自监督学习的多智能体协作能力提升方法,该方法对于蒙特卡洛树搜索自精炼算法的任一次迭代,确定搜索树中在任一次迭代时被选中的父节点,记为目标父节点,获取目标父节点的历史访问总次数以及子节点价值集...
  • 本发明提供了一种大语言模型持续学习方法和系统,采用部署于企业内部环境的本地化大语言模型接收用户原始请求并生成内部应答反馈给用户,识别用户原始请求中的敏感信息元素并进行脱敏处理生成安全请求,发送给外部大语言模型并接收返回的外部应答,对外部应答...
  • 本发明公开的属于人工智能与机器学习技术领域,具体为一种多个大模型智能体的自我进化训练方法,包括具体步骤如下:S1,多样化结构化表达起步设计:在生成环节前,预先定义多种结构化表达形式;S2,多轨协作生成:多个智能体按角色分工,在预设的多种结构...
  • 本发明公开了基于动态软协作图的多智能体强化学习方法及系统,包括局部观测编码步骤及模块,协作图构建步骤及模块,信息融合步骤及模块,策略生成步骤及模块,联合训练步骤及模块,推理与执行步骤及模块;基于动态软协作图的多智能体协同强化学习方法及系统,...
  • 本申请提供一种大语言模型强化学习系统、强化学习方法及相关设备,系统包括:管理模块,用于对多类别价值函数进行统一管理和调用,具体包括:环境注册单元,用于建立全局注册表,存储环境函数与对应的元信息及与价值函数的映射关系;环境运行单元,用于根据唯...
  • 本发明公开的基于轨迹邻域信息序列优化的离线强化学习方法,包括根据上一状态st‑1,当前状态st,以及当前动作at,外展推断噪声Δst,计算反事实动作与当前状态的选择反事实动作的奖励;基于反事实动作网络分析当前状态st生成邻域动作基于状态预测...
  • 本发明属于计算机视觉领域,涉及一种基于Q模型的前瞻性视觉语言导航方法和系统。该方法包括:利用基线模型的全局编码器和局部编码器,获取基于历史信息的动作评分;构建用于预测未来信息的Q模型,并对Q模型进行预训练;利用预训练的Q模型抽取每个候选动作...
  • 本发明公开了基于奖励中心化的无人排雷装备智能体协作方法,将无人排雷装备作为一个智能体,构建此作战区域中的多智能体决策框架、多个无人排雷装备值网络中的奖励中心化机制和经验回放池;对基于奖励中心化的多智能体双延迟深度确定性策略梯度架构所构成的多...
  • 本申请提供了一种推理模型的训练方法、装置、电子设备及存储介质,该方法包括:根据初始训练数据,对基础模型进行微调,得到教师模型;其中,所述初始训练数据中包含第一长度的思维链数据;将所述初始训练数据输入所述教师模型,获取所述教师模型在多个时间步...
技术分类