北京大学;重庆泛语科技有限公司王世奇获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京大学;重庆泛语科技有限公司申请的专利一种大语言模型生成中文论文模块的检测方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119886120B 。
龙图腾网通过国家知识产权局官网在2025-10-10发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202311363657.X,技术领域涉及:G06F40/242;该发明授权一种大语言模型生成中文论文模块的检测方法是由王世奇;郭鑫;王继民;王一博;刘智锋;吴亚平设计研发完成,并于2023-10-20向国家知识产权局提交的专利申请。
本一种大语言模型生成中文论文模块的检测方法在说明书摘要公布了:本发明公开了一种大语言模型生成中文论文模块的检测方法。针对中文论文,特别是人文社科类学术论文的摘要、引言、结论等论文模块,采集人类撰写的样本数据,并通过大语言模型生成样本数据,将这两种样本数据整合后,提取样本数据的文本结构特征和文本向量特征作为多维特征输入,以是否由大语言模型生成这一变量作为分类标签进行多模型分类训练,通过多模型融合提高检测的准确性。本发明方法可广泛应用于学术论文的各个结构模块的检测,能够较为准确地识别出由大语言模型生成的学术论文模块,具有很高的应用价值。
本发明授权一种大语言模型生成中文论文模块的检测方法在权利要求书中公布了:1.一种大语言模型生成的中文论文模块的检测方法,包括以下步骤: 1采集人类撰写的中文论文模块样本数据,并划分为训练集、测试集和范例集; 2利用范例集作为参考样例,通过大语言模型分别针对训练集和测试集中的论文题目生成相应的论文模块,获得大语言模型生成的样本数据; 3构建领域词典; 4将步骤1采集的人类撰写的样本数据和步骤2大语言模型生成的样本数据整合为三列数据,分别是论文题目、论文模块和是否由大语言模型生成标识; 5使用自然语言处理工具,加载步骤3构建的领域词典,对所有论文模块的文本内容进行分词和词性标注处理; 6对论文模块进行文本结构特征提取,所述文本结构特征包括篇章粒度、段落粒度、句子粒度和词汇粒度; 7对论文模块进行文本向量特征提取; 8选取P种分类算法模型,使用训练集数据,将文本结构特征和文本向量特征分别作为多维特征输入,同时以论文模块是否由大语言模型生成这一变量作为分类标签进行模型训练,得到2P个训练完成的分类模型; 9将测试集数据分别输入到训练完成的2P个分类模型,并结合分类标签分别计算各个分类模型分类准确率,分别用A1、A2……A2p来表示;如果某个分类模型的分类准确率低于设定的R%,则弃用该分类模型,反之则保留该分类模型,从而筛选出Q个分类效果较好的模型,其分类准确率分别用B1、B2……BQ来表示,其中最高的分类准确率用Bmax表示; 以R%的准确率为下限使用极值处理法计算得到每个分类模型的权重,公式如下: 其中,Wi代表第i个分类模型的权重,Bi代表第i个分类模型的分类准确率; 10对于待检测的论文模块,先根据步骤5进行分词和词性标注处理,然后根据步骤6和7分别进行文本结构特征提取和文本向量特征提取;将待检测论文模块的文本结构特征和文本向量特征分别输入到步骤9保留的Q个分类模型中,将模型的输出分别记为Y1、Y2……YQ,其取值范围在0-1之间,“1”标记为大语言模型生成的论文模块,“0”标记为人类撰写的论文模块;如果ΣWi*Yi0.5*∑Wi,则判定被检测的论文模块是由大语言模型生成的,否则判定为人类撰写的。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京大学;重庆泛语科技有限公司,其通讯地址为:100871 北京市海淀区颐和园路5号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励