Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
专利交易 商标交易 积分商城 国际服务 IP管家助手 科技果 科技人才 会员权益 需求市场 关于龙图腾 更多
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 北京工业大学赵力丹获国家专利权

北京工业大学赵力丹获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉北京工业大学申请的专利基于前置分类器的中立文本生成方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117390189B

龙图腾网通过国家知识产权局官网在2026-04-07发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202311458205.X,技术领域涉及:G06F16/35;该发明授权基于前置分类器的中立文本生成方法是由赵力丹;李童;杨震设计研发完成,并于2023-11-05向国家知识产权局提交的专利申请。

基于前置分类器的中立文本生成方法在说明书摘要公布了:本发明公开了基于前置分类器的中立文本生成方法。现有方法使用同一个文本生成器对句子中引发偏见的词进行替换或删除操作实现主观偏见的消除,然而这类方法受到不同操作分布的影响,当某一种操作较少时,模型更偏向于进行另一种操作。本方法针对去偏问题的特点,进行细粒度的分析处理,提升去偏的效果;该方法主要分为三步:序列标注模型标记待操作序列;分类器判断操作策略提取文本语义向量;文本句法特征嵌入;特征融合;MLP实现分类;中立文本生成。本方法结合句子的语义特征和句法特征对操作类型进行细粒度分析并标记出待操作序列,同时,根据操作类型替换或删除,我们采取相应的生成策略来得到表达中立的句子。

本发明授权基于前置分类器的中立文本生成方法在权利要求书中公布了:1.基于前置分类器的中立文本生成方法,其特征在于,步骤如下: 步骤1获取文本主观偏见的数据集;使用维基百科的编辑版本作为的数据集;该数据集中有5万多个样本;一个样本是一个句子对,包含一个带有主观偏见的句子和表达中立的句子,分别用和表示,是通过修改得到的; 步骤2序列标注模型;序列标注模型的作用是对输入文本中的每个词或字符进行标注,将其与预先定义的类别或标签关联起来;在本文中,该模型标注的是引发偏见的词;首先,将输入的句子中的每个词转换为适合模型输入的特征向量;使用预训练的词向量模型将句子中的每个词映射为对应的词向量;使用训练好的序列标注模型对句子中的每个词进行标注;在这个任务中,目标是标注句子中引发偏见的词;将输入的文本序列中的每个词或子词与一个标记相对应,标记指示了该词或子词是否包含主观偏见;对于每个词,模型输出一个标签,表示该词是否是引发偏见的词; 最终,得到了标注后的句子,其中偏见词被标记为特定的标签,而非偏见词则保持原样;使用已标注的数据集对RoBERTa模型进行训练; 步骤3训练序列标注模型;训练数据集包含了待操作序列以及对应的标记序列;将待操作序列输入RoBERTa模型,并使用交叉熵损失函数来计算预测标记与真实标记之间的差异;通过反向传播和梯度下降算法,模型可以学习到对主观偏见的识别和标记;在RoBERTa模型中,模型的输出通过Softmax函数转换为标签概率分布;假设代表模型预测的分数,则标记的概率通过Softmax函数计算,如下式,其中C表示标记的类别数: 将序列输入RoBERTa模型,并使用交叉熵损失函数来计算预测标签和真实标签之间的差异;由此,训练好序列预测模型用于标记待操作序列; 步骤4确定操作策略模型;通过调研数据集中消除句子主观偏见的操作,发现主要包含两类:第一类是对句子中引发偏见的形容词、副词进行删除操作,得到表达中立的句子;第二类是对句子中引发偏见的名词、动词进行替换操作,将其替换为表达更加中立的词,来生成去偏后的句子; 步骤5提取文本语义特征;将文本语义信息作为句子特征用于句子分类任务中;使用BERTBidirectionalEncoderRepresentationfromTransformers方法提取句子的隐藏向量表示;BERT的输入是每一个token对应的表征;为了完成具体的分类任务,除了词的token之外,还需在序列开头插入特定的分类token[CLS];该token对应的最后一个Transformer层输出被用来起到聚集整个序列表征信息的作用;具体来说,输入用表示,通过BERT嵌入层生成对应的嵌入向量;通过使用注意力机制计算具有多组,和的嵌入向量来生成多个注意力向量;然后合并这些向量并点乘进行线性变换,以生成与每个token相对应的输出;具体公式如下,其中,参数矩阵,,,;Q,K和V分别表示查询向量,键向量和值向量;d表示维度; 在BERT模型中,每个单词token通过使用注意力机制权衡单词之间相关性来输出句子语义表示;通过训练BERT模型,提取[CLS]对应的最后一个transformer层的输出作为句子语义向量; 步骤6提取文本句法特征;将文本的依存关系作为句子特征用于句子分类任务中;由于替换和删除操作作用于不同词性的词,而依存关系可以表示单词之间的语法关系,因此,将这一特征进行嵌入;使用python的spacy自然语言处理库和numpy库,根据句子的语法关系构建依存关系矩阵,使用矩阵分解方法来将矩阵分解为三个部分:左奇异矩阵、奇异值矩阵和右奇异矩阵;然后选择前k个奇异值对应的部分并重新构建句子表示矩阵,并将该矩阵展平一维向量,表示句法特征; 步骤7特征融合;将步骤3、4中提取的句子语义特征和句法特征进行拼接来表示句子的特征向量; 步骤8确定策略;确定策略由MLP实现;MLP由输入层、多个隐藏层和输出层组成,每个层包含多个神经元;输入层的神经元个数与特征向量的维度相同,输出层的神经元个数与分类的类别数相同,将步骤7融合的特征向量作为MLP的输入,通过多个隐藏层的非线性变换将特征进行组合,最终得到分类结果; 步骤9中立文本生成模型;基于操作策略和标记出的待操作序列,通过不同的方式生成中立句子;具体地,根据操作类型即替换或删除,采取相应的生成策略来得到表达中立的句子;在替换操作中,使用BART模型进行偏见词转化,以生成表达中立的单词; BART模型根据其内部的自回归生成机制,使用自回归解码器生成单词序列;在生成过程中,模型利用上下文信息和输入的偏见词,根据概率分布生成中立单词;这些生成的单词通常是在语义上与偏见词相似,但表达中立的观点;将生成的中立单词填充到原句的替换位置上,形成中立句子;当操作策略确定为删除时,直接将待操作序列进行删除,生成表达中立的句子;从原句中去除标记出的待操作序列来实现,确保生成的句子不包含待操作部分;这样,生成的句子将保持中立。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京工业大学,其通讯地址为:100124 北京市朝阳区平乐园100号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。