信联科技(南京)有限公司;北京信联数安科技有限公司李明柱获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉信联科技(南京)有限公司;北京信联数安科技有限公司申请的专利一种用于大语言模型的提示注入攻击测试用例获得方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120470583B 。
龙图腾网通过国家知识产权局官网在2025-09-16发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510970344.3,技术领域涉及:G06F21/55;该发明授权一种用于大语言模型的提示注入攻击测试用例获得方法是由李明柱;张胜;柴秀楠设计研发完成,并于2025-07-15向国家知识产权局提交的专利申请。
本一种用于大语言模型的提示注入攻击测试用例获得方法在说明书摘要公布了:本发明涉及一种用于大语言模型的提示注入攻击测试用例获得方法,结合条件变分自编码器cVAE和马尔可夫链,通过数据生成和上下文建模,逐步暴露恶意指令,模拟现实中的多轮对话攻击,获得大语言模型测试用例,对大语言模型实现多轮对话攻击,挑战大语言模型的防御能力;并且所设计方案引入隐蔽性技术、角色扮演攻击、状态转移等技术,提升了攻击的复杂度和隐蔽性,具备自动化、隐蔽性更强、覆盖广、可批量测试等核心优势,能够更真实、更全面地评估大语言模型的安全防御能力,并发现现有防御机制的不足之处,推动对多轮提示注入攻击的研究和安全防御机制的改进。
本发明授权一种用于大语言模型的提示注入攻击测试用例获得方法在权利要求书中公布了:1.一种用于大语言模型的提示注入攻击测试用例获得方法,其特征在于:执行如下步骤A至步骤D,训练获得用于生成提示注入攻击测试用例的目标大语言模型; 步骤A.基于预设各恶意样本指令,以及各恶意样本指令分别对应的预设恶意行为标签,分别针对各恶意样本指令,应用能够响应恶意指令的大语言模型,针对恶意样本指令进行拆解,获得恶意样本指令所对应彼此独立的各个非恶意拆解指令,然后进入步骤B; 步骤B.分别针对各恶意样本指令,应用大语言模型通过自然语言处理算法,按恶意意图逐步暴露的顺序,针对恶意样本指令所对应各个非恶意拆解指令进行排序,获得恶意样本指令所对应的顺序各非恶意拆解指令,然后进入步骤C; 步骤C.基于各恶意样本指令分别所对应的顺序各非恶意拆解指令,以累计在先问答、并结合相应恶意样本指令所对应恶意行为标签的方式,输入第一大语言模型并获得回答,实现对第一大语言模型的训练,提高第一大语言模型的安全性,然后进入步骤D; 上述步骤C中,分别基于各个恶意样本指令,针对恶意样本指令所对应的顺序各非恶意拆解指令,初始化n=1,然后执行如下步骤C1至步骤C4; 步骤C1.选择顺序第n个非恶意拆解指令,若n=1,则直接生成第n个非恶意拆解指令所对应的对话历史编码c1,以第n个非恶意拆解指令所对应恶意行为标签,生成攻击信号编码c2,并进入步骤C2;若n≠1,则以第n个非恶意拆解指令,结合顺序在先所选各非恶意拆解指令分别对应步骤C1至步骤C4处理来自第一大语言模型的回答,生成相对应的对话历史编码c1,以第n个非恶意拆解指令所对应恶意行为标签,生成攻击信号编码c2,并进入步骤C2; 步骤C2.由应用条件变分自编码器cVAE中编码器针对c1与c2组合进行处理,生成相对应潜在空间向量表示z,再由条件变分自编码器cVAE中解码器针对潜在空间向量表示z进行处理,生成条件指令,并然后进入步骤C3; 步骤C3.将条件指令输入第一大语言模型并获得回答,对第一大语言模型进行训练,提高第一大语言模型的安全性,然后进入步骤C4; 步骤C4.判断n是否等于恶意样本指令所对应非恶意拆解指令的数量N,是则关于恶意样本指令的第一大语言模型训练结束;否则针对n进行加1更新,并返回步骤C1; 步骤D.基于第一大语言模型训练过程中各非恶意拆解指令分别对应来自第一大语言模型的回答,分析各非恶意拆解指令所对应各预设恶意状态之间的转移概率,由马尔可夫链网络分别针对各恶意样本指令进行逐条指令拆分,并结合第一大语言模型进行攻击验证,直至达到预设攻击强度阈值,实现对马尔可夫链网络的训练,即获得用于生成提示注入攻击测试用例的目标大语言模型。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人信联科技(南京)有限公司;北京信联数安科技有限公司,其通讯地址为:210000 江苏省南京市江宁经济技术开发区东吉大道1号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。