浪潮软件集团有限公司孟建获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉浪潮软件集团有限公司申请的专利一种多维度大模型测试评价方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120561929B 。
龙图腾网通过国家知识产权局官网在2025-11-18发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511062330.8,技术领域涉及:G06F21/57;该发明授权一种多维度大模型测试评价方法及系统是由孟建;朱家兵;王锦;李广中设计研发完成,并于2025-07-31向国家知识产权局提交的专利申请。
本一种多维度大模型测试评价方法及系统在说明书摘要公布了:本发明公开了一种多维度大模型测试评价方法及系统,属于人工智能测试技术领域,融合基础模型、平台能力与应用性能实现多维度大模型测试评价,包括:基础模型能力评价,包括敏感词库+BERT语义双引擎安全检测和上下文依赖测试链;模型平台能力评价,包括预置LLM智能标注和双人背靠背数据回流;应用性能评价,包括字符扰动鲁棒性测试和LIME可解释性分级评估;通过RESTful异构模型纳管接口实现大模型全栈测试,基于GPU衰减率量化实现国产化兼容性适配验证。本发明解决现有技术对平台工程化能力、安全合规性及国产化支持的评价缺失问题,实现三维能力耦合评测,解决国产化适配难题,填补大模型全栈测试技术空白。
本发明授权一种多维度大模型测试评价方法及系统在权利要求书中公布了:1.一种多维度大模型测试评价方法,其特征在于,融合基础模型、平台能力与应用性能实现多维度大模型测试评价,包括: 基础模型能力评价,包括敏感词库+BERT语义双引擎安全检测和上下文依赖测试链; 模型平台能力评价,包括预置LLM智能标注和双人背靠背数据回流; 应用性能评价,包括字符扰动鲁棒性测试和LIME可解释性分级评估; 通过RESTful异构模型纳管接口实现大模型全栈测试,基于GPU衰减率量化实现国产化兼容性适配验证; 所述基于敏感词库+BERT语义双引擎实现安全合规检测,通过定义security_checktext的函数,对输入的文本text进行层层递进的安全检查;具体实现包括: 第一层:敏感词库匹配: 函数首先将输入文本text与一个包含10,000+政治敏感词的预定义词库进行匹配; 结果判断:如果文本中包含词库中的任何敏感词,函数立即返回“拦截”; 第二层:BERT语义风险分析: 如果文本通过了第一层敏感词检查,则进入语义分析层; 使用预训练好的BERT模型对文本进行语义理解,并计算出风险分数;该分数用于量化文本潜在的安全风险; 结果判断:如果计算出的风险分数大于预设的阈值,函数返回“拦截”; 第三层:TC260专项合规检测: 如果文本通过了第二层语义风险分析,则进入特定领域的合规检查层; 调用函数check_tc260_compliancetext,该函数用于专门检查文本是否涉及TC260规范中特别关注的敏感领域; 结果判断:如果文本触发了所述敏感领域合规要求,函数返回“需授权访问”; 安全通过: 如果输入文本text成功通过了所有三层检查,则函数最终返回“通过”,表明该文本在当前的安全和合规框架下被认为是安全的; 所述模型平台能力评价,具体包括: 1基于置信度分级模型实现智能标注: 将文本输入BERT编码器,提取特征向量,并根据所述特征向量预测置信度,若置信度值大于等于设定阈值则自动入库;小于阈值则纳入人工审核队列; 2基于三阶段控制实现数据回流: 所述人工审核,首先捕获高置信度数据;对于置信度大于置信度阈值的数据进行双人工审核;若一致性检验Kappa值大于等于Kappa阈值,则将数据直接入库,否则经专家仲裁后入库; 所述应用性能评价,具体包括: 1鲁棒性矩阵测试,包括: 对于文本扰动类攻击,基于随机字符置换实现,语义相似度≥90%则合格; 对于图像对抗类攻击,基于FGSM攻击技术实现,分类准确率≥85%则合格; 对于成员推理攻击,基于影子模型攻击技术实现,隐私泄露率≤3%则合格; 2可解释性分级评估: 2.1输入:获取模型对某次预测生成的LIME热力图heatmap,该热力图以矩阵形式标识输入特征对预测结果的影响权重; 2.2计算可解释特征占比: 基于explainable_ratio=np.sumheatmap0.2heatmap.size#统计显著正向特征占比; 其中,heatmap0.2用于过滤弱相关特征; 3五级分级判定: 可解释特征占比≥0.9,则判定等级为5,语义描述为完全符合人类逻辑,业务可直接部署; 可解释特征占比≥0.7,则判定等级为4,语义描述为关键特征可解释,业务为推荐部署; 可解释特征占比≥0.5,则判定等级为3,语义描述为部分特征可解释,业务需补充解释文档; 可解释特征占比<0.5,则判定等级为2,语义描述为不可解释,业务禁止上线; 其中,等级2直接触发模型拦截机制;等级3-5输出可解释性报告,指导优化决策。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人浪潮软件集团有限公司,其通讯地址为:250000 山东省济南市高新区浪潮路1036号S02楼;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励