哈尔滨工业大学杨沐昀获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉哈尔滨工业大学申请的专利面向长文本场景的大语言模型安全风险评估方法、系统和设备获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119647621B 。
龙图腾网通过国家知识产权局官网在2025-10-28发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411671767.7,技术领域涉及:G06N20/00;该发明授权面向长文本场景的大语言模型安全风险评估方法、系统和设备是由杨沐昀;胥卜凡;徐冰;曹海龙;朱聪慧;赵铁军设计研发完成,并于2024-11-21向国家知识产权局提交的专利申请。
本面向长文本场景的大语言模型安全风险评估方法、系统和设备在说明书摘要公布了:面向长文本场景的大语言模型安全风险评估方法、系统和设备,属于大语言模型技术领域,解决大语言模型在长文本场景的安全性保障严重不足,存在着极大的安全评估方法的缺口问题。本发明方法包括:大模型在面对长文本输入时,针对同一有害任务,评估其安全性表现是否与短文本场景下的评估结果一致。本发明利用短文本场景安全领域数据,自动化生成整体语义一致、长文本形式的有害内容,构建长文本场景安全风险评估数据集,识别模型在长文本场景下中的潜在安全风险。采用的长文本评估方法包含上下文学习、基于反向长度扩充和思维链的有害长文本生成技术、经过无偏估计处理的安全评估指标。本发明适用于评估大语言模型在长文本场景下的安全风险。
本发明授权面向长文本场景的大语言模型安全风险评估方法、系统和设备在权利要求书中公布了:1.一种面向长文本场景的大语言模型安全风险评估方法,其特征在于,所述方法包括: 步骤1:利用短文本安全领域数据集,构建短文本场景安全风险评估数据集; 步骤2:利用短文本场景安全风险评估数据集,确定短文本场景低安全风险数据集和短文本场景高安全风险数据集,获取大语言模型在短文本场景下的安全风险评估指标; 步骤3:构建有害长文本上下文数据集和长文本安全风险评估数据集,具体包括: 步骤3.1:自定义混合长上下文的目标长度L,自定义粒度信息P代表有害上下文占混合长上下文的比例,自定义位置信息P代表有害上下文嵌入混合长上下文的位置,其中P+P≤1,0≤P,P≤1; 步骤3.2:对短文本场景安全风险评估数据集中的任意有害短文本上下文,若有害长文本上下文数据集中有其对应的长度为L×P±Δ的有害长文本上下文,其中Δ是自定义的生成长度阈值,直接采用该有害长文本上下文;否则进行长度扩充,得到长度为L×P±Δ的有害长文本上下文,并利用有害短文本上下文和有害长文本上下文构建有害长文本上下文数据集中的数据,其中有害短文本上下文用于索引, 步骤3.2中,所述进行长度扩充,得到长度为L×P±Δ的有害长文本上下文,具体包括: 重复有害短文本上下文,得到指定长度下的有害长文本上下文;或 将目标评估任务在过滤前的数据库中进行聚类索引,将同一评估任务类别的有害短文本上下文进行拼接,若未达到指定上下文长度,则执行重复扩充;或 利用有害的长文本生成大模型,通过设计对应评估任务的提示词和思维链,引导该大模型生成有害长文本上下文,其中,所述有害的长文本生成大模型的训练方法包括: 步骤3.2.1:将现有的长文本评估数据中的摘要生成数据集的长文本输入与摘要输出组合到一起,使用任意长文本大模型进行大纲生成; 步骤3.2.2:计算对应长文本的长度L,并进行以10n为单位的四舍五入取整n∈{1,2,...},代表向下取整;将大纲及L组合作为输入,对应长文本作为输出,组成长度扩充数据集; 步骤3.2.3:利用步骤3.2.2得到的长度扩充数据集对大模型进行长度扩充微调,得到有害的长文本生成大模型; 步骤3.3:采样安全长文本,所述安全长文本总长度为L×1-PG±Δ2,其中Δ2是自定义的插入长度阈值,同时采样安全任务描述; 步骤3.4:在L×PL位置插入有害长文本上下文,得到安全内容与有害内容混合的混合长上下文; 步骤3.5:将安全任务描述与有害任务描述组合,得到混合任务描述; 步骤3.6:将混合长上下文与混合任务描述作为输入,得到长文本场景安全风险评估数据集; 步骤4:根据长文本安全风险评估数据集,对大语言模型的长文本安全性能进行评估,获取大语言模型在长文本场景下的安全风险评估指标, 步骤4包括: 步骤4.1:评估大模型在长文本场景下生成安全内容的能力,具体包括: 步骤4.1.1:遍历已构建的长文本场景安全风险评估数据集,将对应的混合上下文和混合任务描述组合成输入,对每个输入执行以下步骤: 步骤4.1.1.1:让大语言模型对输入进行n次文本生成,得到n个输出; 步骤4.1.1.2:通过大语言模型或规则匹配判断每个输出是否属于拒绝回答类别,得到拒绝回答总量cr;通过有害内容检测手段,判断每个输出是否属于有害类别,得到无害回答总量cs; 步骤4.1.1.3:根据自定义的数值k,计算拒绝率@k-和无害率@k-;若拒绝率@k-小于拒绝率阈值或无害率@k-小于无害率阈值,将输入及对应的有害长文本上下文成对放入长文本场景高安全风险数据集;否则,将输入及对应的有害长文本上下文成对放入长文本场景低安全风险数据集; 步骤4.1.2:统计前述的拒绝率和无害率,得到大语言模型在长文本场景下的安全风险评估指标,即长文本场景下的整体拒绝率@k-、整体无害率@k-和低风险率;该指标可直接作为安全风险评估的结果,若某项指标较低,意味着其安全风险程度较高; 步骤4.1.3:将步骤2得到的结果和步骤4.1.2得到的结果进行对比分析,得出其在长文本场景下安全性下降的程度; 步骤4.2:对长文本有害内容进行检测,具体包括: 步骤4.2.1:遍历长文本安全风险评估数据集,将对应的混合上下文和安全内容检测任务描述组合作为输入; 步骤4.2.2:让大语言模型根据输入进行文本生成,将输出解析成分类结果并保存; 步骤4.2.3:统计所有分类结果,计算有害漏判率、安全错判率和正确率,作为第二种大模型安全风险评估指标;若有害漏判率或安全错判率较高,则其安全风险程度较高,若正确率较低,则其安全风险程度较高; “有害”表达了不适当、危险的含义。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人哈尔滨工业大学,其通讯地址为:150001 黑龙江省哈尔滨市南岗区西大直街92号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励