Document
拖动滑块完成拼图
专利交易 商标交易 积分商城 国际服务 IP管家助手 科技果 科技人才 会员权益 需求市场 关于龙图腾 更多
 /  免费注册
到顶部 到底部
清空 搜索
最新专利技术
  • 本发明提供一种基于元评估反馈的评估模型优化及动态校准方法, 属于人工智能模型评估领域, 本发明通过主评估模型与元评估模型的协同运作, 结合动态知识图谱和强化学习框架, 构建了具备实时反馈优化能力的评估体系。主评估模型负责执行原始答案匹配任务...
  • 本说明书实施例提供了一种模型对齐方法及设备。该方法包括:基于奖励模型确定一组候选输出中各个候选输出对应的奖励值以及组内相对优势值;基于各个候选输出对应的奖励值、组内相对优势值以及策略模型, 确定大模型的对齐损失;通过对齐损失中的标准对齐损失...
  • 本发明公开了一种基于多智能体深度强化学习的两阶段激励方法, 涉及智能体深度强化学习技术领域, 为了解决现有技术中激励方法的过程过于繁琐以及效果不佳的问题。本发明通过特定区域的仿真实验, 以出租车为参与者模拟真实感知任务地理分布与轨迹规划, ...
  • 一种基于任务解析的少样本多智能体强化学习泛化方法。包括:通过任务解析模型处理文本/图像输入:文本方案利用大语言模型生成结构化子任务分配及语义嵌入向量;图像方案通过多模态模型生成分配方案及图像特征向量;采用共享参数时序网络编码智能体轨迹, 经...
  • 本申请提供一种大模型幻觉缓解方法、设备、介质及产品, 涉及人工智能技术领域, 该方法包括:获取输入样本, 所述输入样本包括:元知识和对话历史;使用基于强化学习的样本筛选器对所述元知识进行筛选, 并利用筛选后的元知识进行模型训练, 得到知识图...
  • 本发明实施例提供一种基于深度强化学习的魔方复原方法和系统, 通过6×N×N张量矩阵编码魔方状态, 完整保留色块颜色、坐标信息, 为后续模型训练提供高精度输入, 适配任意阶魔方(如二阶、三阶等), 增强方案通用性;利用Q‑learning优化...
  • 本申请公开了一种专家模型的训练方法和装置、存储介质及电子设备, 涉及计算机技术领域, 包括根据输入数据的预估资源占用情况从初始专家模型中包括的多个专家网络组中确定出目标专家网络组;将目标专家网络组中的多个专家网络依次作为当前专家网络, 确定...
  • 本申请提供一种基于强化学习优化的多轮自动机器学习智能体系统。包括:任务解析模块, 用于生成供MLE智能体调用的初始提示;MLE智能体模块, 用于生成可执行代码;代码执行器, 用于生成执行结果;评价器, 用于输出各指标的归一化值及代码正确性标...
  • 本申请公开了一种模型强化学习优化系统、方法及电子设备, 涉及人工智能技术领域, 由于各计算设备均分配有待优化模型权重、参考模型权重和奖励模型权重, 即计算设备部署有全部类型的智能体, 能够同时执行预训练语言模型优化过程中的多种计算任务, 避...
  • 本发明提供一种推荐模型的训练方法、推荐方法及相关装置, 可以提高总体推荐准确性和惊喜性能。该方法包括:根据多维惊喜因子、用户交互历史数据及候选项目确定惊喜项目, 多维惊喜因子包括意外性、新颖性、及时性和相关性;根据惊喜项目确定多维惊喜条件信...
  • 本发明公开了一种基于隐式梯度优化的大语言模型对抗越狱攻击方法, 该方法通过Gumbel‑Softmax技术实现对抗性token的连续梯度优化, 结合两阶段代理模型筛选机制降低计算成本, 并采用动态正则化策略保持语义隐蔽性。系统包含梯度优化模...
  • 本申请公开了一种基于非凸优化的动态对抗样本生成方法及装置, 涉及人工智能安全与对抗机器学习技术领域, 该方法包括:训练得到预训练模型;原始样本图像施加噪声生成初始对抗样本, 将初始对抗样本输入至预训练模型中得到模型预测输出, 并计算损失函数...
  • 本发明公开了神经网络鲁棒精度权衡学习的自适应优化框架, 其特征在于, 包括:将训练按照每K个周期分为多个训练阶段, 通过设计的适应度函数对于每个阶段的神经网络进行评估, 自适应地获得最适合当前阶段的攻击策略, 用于下一个阶段神经网络的训练,...
  • 本申请提供一种对抗样本生成方法、装置及设备, 涉及人工智能安全技术领域, 以解决如何提高对抗样本的迁移能力的技术问题。该对抗样本生成方法包括:在目标网络模型前向传播过程中, 提取原始图像对应的中间层特征图, 并获取中间层特征图中各通道的相关...
  • 本公开的实施例公开了医学去偏见大语言模型训练方法、装置、电子设备和介质。该方法的一具体实施方式包括:对服务器集群进行资源检测, 以及筛选满足资源选取条件的服务器;将多模态医学反馈数据集输入至医学去偏见大语言模型, 得到医学诊断信息集;构建医...
  • 本发明公开了一种多任务模型训练方法、预测方法、设备、存储介质及产品, 所述训练方法包括利用图像特征提取模块对样本数据的图像进行特征提取;利用文本特征提取模块对样本数据的文本描述进行特征提取;对图像特征向量和文本特征向量进行对齐, 并根据两者...
  • 本发明公开的一种基于样本回放的大模型连续知识迁移方法, 属于大语言模型持续学习技术领域, 应用于大模型连续学习场景中。本发明实现方法为:1、利用最大似然估计的大语言模型对单一子任务样本结构数据进行训练;2、利用Rouge‑L指标筛选单一子任...
  • 本申请公开了一种基于模型蒸馏的医疗数据处理方法、系统及介质, 主要涉及医疗数据处理技术领域, 用以解决现有蒸馏模型难以有效平衡多模态特征重建、注意力分布匹配与分类任务优化之间的关系、另外, 仅针对单一模态进行蒸馏, 无法继承跨模态关联知识的...
  • 本发明涉及模型数据分析处理技术领域, 具体涉及一种基于最小训练step覆盖频次的模型训练数据构造方法与系统, 所述方法包括以下步骤:训练配置输入步骤:接收训练任务的基础参数;样本数量反推步骤:根据输入的基础参数, 调用预设公式反向计算每类样...
  • 本发明公开了一种基于可放缩残差头结构的大语言模型训练方法, 其包括:S1:准备训练数据, 训练数据包括第一训练数据和第二训练数据;S2:在原有大语言模型上添加可放缩残差头结构;S3:定义判别器路由网络, 判别器路由网络根据sigmoid函数...
技术分类