江西财经大学罗远胜获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉江西财经大学申请的专利基于检索增强生成的毒性文本采集方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121071167B 。
龙图腾网通过国家知识产权局官网在2026-03-03发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511625143.6,技术领域涉及:G06F16/38;该发明授权基于检索增强生成的毒性文本采集方法及系统是由罗远胜;黄柳设计研发完成,并于2025-11-07向国家知识产权局提交的专利申请。
本基于检索增强生成的毒性文本采集方法及系统在说明书摘要公布了:本发明涉及一种基于检索增强生成的毒性文本采集方法及系统,首先通过爬取平台获取目标文本数据,并采用冷启动方式人工构建小规模的初始数据集,注入知识库作为基础数据。对每批目标文本进行语义检索,从知识库中获取语义相似度前k个文本,结合这些文本通过思维链推理采用多个大语言模型进行推理,生成毒性标签,并对当前批次待标注目标文本进行标注。将标注后的目标文本注入知识库,以迭代方式持续采集与标注数据,并在迭代过程中,通过增量学习机制持续优化检索器性能,以实现毒性文本采集。本发明能够高效积累大规模、细粒度、高一致性的毒性文本标注语料,显著缓解传统毒性文本数据采集中面临的标注成本高、质量不一致和扩展性差的问题。
本发明授权基于检索增强生成的毒性文本采集方法及系统在权利要求书中公布了:1.一种基于检索增强生成的毒性文本采集方法,其特征在于,所述方法包括如下步骤: 步骤1、获取平台上的文本数据并进行清理,得到待标注数据; 步骤2、采用冷启动方式人工构建小规模的初始数据集,将初始数据集注入知识库; 步骤3、将待标注数据进行批次划分,得到若干批次待标注目标文本,使用检索器从知识库中获取与当前批次待标注目标文本语义相似的前k个样例,得到语义相似样例; 步骤4、将当前批次待标注目标文本与语义相似样例结合构建提示词,并利用至少两个不同架构的大语言模型,通过思维链推理独立生成至少两个毒性标签,并给出语义相似样例的评估结果; 步骤5、当生成的毒性标签一致,则直接采用该毒性标签标注当前批次待标注目标文本; 当生成的毒性标签不一致时,则启动辩论机制,使所有大语言模型进行多轮交互和辩论,从而确定最终毒性标签,进而对当前批次待标注目标文本进行标注,得到标注后的目标文本; 步骤6、将标注后的目标文本注入知识库,以迭代方式持续采集与标注数据,并在迭代过程中,根据语义相似样例的评估结果,动态调整检索器的检索策略,同时通过增量学习机制持续优化检索器性能,以实现毒性文本采集; 在所述步骤3中,检索器基于语义嵌入模型实现,语义嵌入模型采用层级语义聚合网络结构,用于将文本映射到低维稠密向量空间,在映射过程中,通过层级语义聚合网络结构中的语义编码层提取文本的不同层次的语义信息,通过线性层对齐不同层次的语义信息的维度,再进行拼接,并输入至自注意力聚合层,利用可学习的注意力权重动态融合不同层次的语义信息,生成全局语义表示向量,并通过计算全局语义表示向量之间的相似度,从知识库中检索出与目标文本语义相似的前k个样例; 在步骤6中,根据语义相似样例的评估结果,动态调整检索器的检索策略具体包括如下步骤: 语义相似样例的评估结果包括每个样例对标签生成的重要性评分和\或查询文本,查询文本为根据待标注目标文本生成的需要补充的样例类型; 若语义相似样例的评估结果包含重要性分数,对下一批待标注目标文本检索式,检索器根据重要性分数进行加权相似度检索; 若语义相似样例的评估结果包含查询文本,则将查询作为新的搜索向量,与下一批待标注目标文本结合进行样例检索。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人江西财经大学,其通讯地址为:330000 江西省南昌市经济技术开发区双港东大街169号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励