中国人民大学窦志成获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中国人民大学申请的专利一种基于检索增强的大语言模型生成内容检测方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119782499B 。
龙图腾网通过国家知识产权局官网在2025-10-28发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411807499.7,技术领域涉及:G06F16/334;该发明授权一种基于检索增强的大语言模型生成内容检测方法是由窦志成;黄钊恒;朱余韬;文继荣设计研发完成,并于2024-12-10向国家知识产权局提交的专利申请。
本一种基于检索增强的大语言模型生成内容检测方法在说明书摘要公布了:本公开提供一种基于检索增强的大语言模型生成内容检测方法。包括三个部分:第一部分为语料库的构建与缓存,在离线阶段构造人类撰写语料库与大模型改写语料库;将人类撰写文本的标签设置为y=0,大语言模型生成文本的标签设置为y=1;第二部分为检索相关文本与改写文本并分别作为待检测文本的前缀;第三部分为通过检测方法计算在不同上下文条件下的待检测文本的生成概率差异,并与待检测文本的对数似然检测特征结合最终得到文本是否为大语言模型生成的判断结论。
本发明授权一种基于检索增强的大语言模型生成内容检测方法在权利要求书中公布了:1.一种基于检索增强的大语言模型生成内容检测方法,其特征在于, 所述大语言模型生成的文本的可能性计算的过程包括三个步骤: 第一步为语料库的构建与缓存,在离线阶段构造人类撰写语料库与大模型改写语料库;将人类撰写文本的标签设置为,大语言模型生成文本的标签设置为; 第二步为检索相关文本与改写文本并分别作为待检测文本的前缀; 第三步为通过检测方法计算在不同上下文条件下的待检测文本的生成概率差异,并利用待检测文本的对数似然与生成概率差异相除检测特征结合; 所述第三步的具体方法为:通过给定包含个token的待检测文本,通过判断计算得到预测检测得分与预先计算的阈值之间的关系,将预测得分满足大于阈值时,待检测文本判定为大语言模型生成文本,否则判定为人类撰写文本; 所述判断计算的过程为:利用一个检索器和外部语料库检索待检测文本的前个相关人类撰写文本,进一步获取检索文本对应的大语言模型改写文本,所述大语言模型改写文本和待检测文本一同进行大语言模型生成的文本的可能性计算,最终通过阈值判定是否为大语言模型生成文本,当其可能性大于时,判断为大语言模型生成; 所述检测方法的实现方式为:在线检测时,检索器获取待检测文本的相关人类撰写文本与改写文本,将两段文本分别作为前缀,通过交叉熵计算待检测文本在不同上下文下的概率分布差异: 其中,表示基于大模型的检测器的词表大小,表示在待检测文本的第个位置在预测词表中的第个token,在待检测文本的每个位置对应的交叉熵之和:表示在人类撰写相关文本和大模型重写文本作为上下文影响下的概率分布差异; 之后,将待检测文本在不同上下文下的概率分布差异与待检测文本的对数似然检测特征相结合: 使用基于大语言模型的检测器,对待检测文本中的第个token计算其得分来表示为大语言模型生成的文本的可能性:。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国人民大学,其通讯地址为:100872 北京市海淀区中关村大街59号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励