浙江大学;杭州高新区(滨江)区块链与数据安全研究院杨静远获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉浙江大学;杭州高新区(滨江)区块链与数据安全研究院申请的专利基于正向语境嵌入越狱攻击提示词的大模型安全检测方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120744915B 。
龙图腾网通过国家知识产权局官网在2025-11-28发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511217851.6,技术领域涉及:G06F21/55;该发明授权基于正向语境嵌入越狱攻击提示词的大模型安全检测方法是由杨静远;倪王泽;秦湛;任奎设计研发完成,并于2025-08-28向国家知识产权局提交的专利申请。
本基于正向语境嵌入越狱攻击提示词的大模型安全检测方法在说明书摘要公布了:本发明公开了基于正向语境嵌入越狱攻击提示词的大模型安全检测方法,包括:获取原始越狱攻击提示词;对原始越狱攻击提示词进行分类,并基于类别对原始越狱攻击提示词进行改写,得到改写提示词;选取正向回答内容和恶意回答内容,将改写提示词进行结构引导的语义混合调控,经强化学习修正,得到正向语境嵌入的越狱攻击提示词;将正向语境嵌入的越狱攻击提示词输入待测大模型,针对待测大模型进行安全检测。该方法将原始具有攻击性或违规目的的提示词,通过语义重构与语境包装的方式,嵌入到一段具有正面导向意义的文本上下文中,从而显著降低被模型后置安全护栏如敏感词检测器、内容过滤器识别拦截的概率,提升大模型安全检测的准确性。
本发明授权基于正向语境嵌入越狱攻击提示词的大模型安全检测方法在权利要求书中公布了:1.一种基于正向语境嵌入越狱攻击提示词的大模型安全检测方法,其特征在于,包括: 获取原始越狱攻击提示词; 对所述原始越狱攻击提示词进行分类,并基于类别对所述原始越狱攻击提示词进行改写,得到改写提示词; 选取正向回答内容和恶意回答内容,将改写提示词进行结构引导的语义混合调控,经强化学习修正,得到正向语境嵌入的越狱攻击提示词; 将正向语境嵌入的越狱攻击提示词输入待测大模型,针对所述待测大模型进行安全检测; 其中,选取正向回答内容和恶意回答内容,将改写提示词进行结构引导的语义混合调控,经强化学习修正,得到正向语境嵌入的越狱攻击提示词,包括: 选取正向回答内容和恶意回答内容,根据提示词类型选择混合式结构,混合控制生成结构模板控制向量; 基于所述结构模板控制向量和混合式结构确定提示词连接方法及提示词连接模板,基于所述正向回答内容对应的问题修改所述改写提示词,得到混合提示词; 利用经强化学习优化的场景化重写模型对所述混合提示词进行重写,得到正向语境嵌入的越狱攻击提示词。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人浙江大学;杭州高新区(滨江)区块链与数据安全研究院,其通讯地址为:310058 浙江省杭州市西湖区余杭塘路866号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励