Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 四川大学王海舟获国家专利权

四川大学王海舟获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉四川大学申请的专利基于知识增强多任务学习的隐式委婉有害文本检测方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119577585B

龙图腾网通过国家知识产权局官网在2025-10-21发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411762618.1,技术领域涉及:G06F18/2415;该发明授权基于知识增强多任务学习的隐式委婉有害文本检测方法是由王海舟;陈雅宁;柯亮;王文贤;陈兴蜀;金地;杨菲;周罡设计研发完成,并于2024-12-03向国家知识产权局提交的专利申请。

基于知识增强多任务学习的隐式委婉有害文本检测方法在说明书摘要公布了:本发明提供了一种基于知识增强多任务学习的隐式委婉有害文本检测方法,涉及网络安全技术领域。该方法包括:通过社媒平台爬取预设主题的关键词,构建原始数据集;对原始数据集依次进行数据过滤和数据标注,生成按预设标签分类的分类数据集;构建隐式有害文本检测模型,并通过分类数据集训练隐式有害文本检测模型;其中,隐式有害文本检测模型包括委婉词汇特征融合模块、潜在含义知识增强模块和多任务学习框架;将待检测文本输入训练好的隐式有害文本检测模型,输出检测结果。该方法可通过知识增强和多任务学习实现对隐式有害文本的高效检测,具有较高的检出率和准确率,并具有较高的检测效率。

本发明授权基于知识增强多任务学习的隐式委婉有害文本检测方法在权利要求书中公布了:1.基于知识增强多任务学习的隐式委婉有害文本检测方法,其特征在于,包括以下步骤: 步骤S1:通过社交网络平台爬取预设主题的关键词,构建原始数据集; 步骤S2:对原始数据集依次进行数据过滤和数据标注,生成按预设标签分类的分类数据集; 步骤S3:构建隐式有害文本检测模型,并通过分类数据集训练隐式有害文本检测模型; 其中,所述隐式有害文本检测模型包括委婉词汇特征融合模块、潜在含义知识增强模块和多任务学习框架; 步骤S4:将待检测文本输入训练好的隐式有害文本检测模型,输出检测结果; 步骤S1之后还包括数据增强; 1生成隐式有害文本: 从ToxiCN数据集或CDialBias数据集中获取带有“有害文本”标签的示例文本; 通过提示模块将示例文本传递至语言模型,生成隐式有害文本; 提示模块的传递公式如下: ; 式中,表示隐式有害文本的概率分布,表示特殊分类标记,表示示例文本中的第个词汇,表示示例文本的主题,表示示例文本的标签,为示例文本中的词汇数,,为掩码标记; 通过毒性分类器对隐式有害文本进行毒性检测; 2限制集束搜索对抗解码: 基于语言模型采用Topk算法采样经毒性检测的隐式有害文本,得到词汇毒性表; 对词汇毒性表进行大小为2的限制集束搜索解码,解码得到的候选词; 基于隐式有害文本和候选词拼接生成对抗文本,并通过毒性分类器检测对抗文本的毒性; 将候选词与对抗文本进行毒性对抗,即毒性大小对比; 其中,对毒性分类器施加软约束, ; 式中,表示从序列开始到第个词的词序列,为语言模型对解码评分函数贡献的超参数,为分类器对解码评分函数贡献的超参数,为语言模型给出的词汇在给定上下文中的概率,为毒性分类器给出的整个序列属于对应类别的概率; 基于毒性对抗的结果,选择有害性最小概率对应的词汇,通过语言模型生成隐性有害增强文本,即隐式委婉表达的有害文本; 步骤S3中, 所述委婉词汇特征融合模块包括输入层、编码层和特征融入层; 所述潜在含义知识增强模块包括对比学习层和共享编码层; 所述多任务学习框架包括有害文本检测子任务、委婉句识别子任务和损失函数; 步骤S3中,所述训练具体包括: 1委婉词汇特征融合模块: 对分类数据集中的词汇表,存在 ; ; 式中,表示词汇表中词汇间语义关系的本体论,为分类数据集中元素构成的无序二元组的集合,为词汇表中第个词汇,为词汇表中的词汇数,; 对词汇表中的每一个词汇,使用BERT学习得到对应的词向量, ; 式中,为词向量集合,为词向量的长度,表示词向量的维度; 提取其词义字典中的同义词关系,即从所有的无序二元组中提取所有由词向量及其词义邻居词向量构成的二元组; 迭代修正词向量,得到改进词向量,最小化目标函数, ; ; ; 式中,和为控制词向量和词向量间相关性的相对强度值,为词向量的改进词向量,为改进词向量的集合;其中,改进词向量集合中所有元素的初始值与词向量集合中对应词向量相等; 基于改进词向量集合编码来源于分类数据集的原始输入文本,生成初始文本表示向量; 引入委婉词词典,根据同属于原始输入文本和委婉词词典的词汇,融合初始文本表示向量与词汇对应的委婉词汇特征向量,生成文本表示向量; 2潜在含义知识增强模块: 对基于分类数据集生成的文本表示向量的集合进行正样本采样, ; 式中,为当前批次第个输入的文本表示向量的正样本,表示当前批次中输入的第个文本表示向量,表示正样本采样;若,则;若,则; 使用潜在含义作为正样本进行对比学习,产生对比损失, ; 式中,为输入的文本表示向量的数量,为文本表示向量及正样本输入采样模块IMP的共同序号,表示当前批次中输入的第个文本表示向量,表示编码表示,表示指示函数,为标量温度参数; 计算隐形有害文本检测对应的损失函数 式中,是权重系数,为交叉熵损失函数; 式中,为文本表示向量的模型预测概率,为文本表示向量的真实标签; 最小化损失函数,输出经潜在含义知识增强的文本表示向量,即有害潜在特征; 3多任务学习框架: 包括子有害文本检测器、委婉语检测器和父有害文本检测器: 将有害文本和委婉句文本输入BERT共享编码层,对应输出有害潜在特征和委婉句潜在特征; 基于训练子有害文本检测器;其中,为有害序号,为输入的有害文本数量,,为第个有害文本对应的有害潜在特征,为第个有害文本对应的伪标签,由有害标签和经增强的委婉性标签预结合得到; 基于训练委婉句检测器;其中,为委婉句文本序号,为输入的委婉句文本数量,,为委婉句文本对应的委婉句潜在特征,为委婉句文本对应的; 通过子有害文本检测器预测每一个有害文本的有害标签,通过委婉句检测器预测每一个有害文本的委婉性标签; 基于有害文本的有害性标签和委婉性标签构造多标签学习数据;其中, ; ; 式中,表示连接操作符,为委婉句检测器对于文本样本原始的委婉性标签预测,为经锐化的伪委婉标签, ; 式中,为第二温度超参数; 通过多标签学习数据训练父有害文本检测器,具体包括: 通过父有害文本检测器预测有害潜在特征增强后的原始有害标签预测, ; 式中,表示父有害文本检测器所包含的基础块数量,表示可训练参数; 其中,基础块包括两层全连接网络, ; 式中,表示输入,为可训练参数,和均为激活函数; 通过最小化有害文本的和有害文本的有害性标签的差值,训练父有害文本检测器, ; 式中,为父有害文本检测器的损失,为有害文本集合,表示焦点损失,为有害文本预测组件,表示均方差损失,为委婉句预测组件。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人四川大学,其通讯地址为:610065 四川省成都市武侯区一环路南一段24号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。