Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
专利交易 商标交易 积分商城 国际服务 IP管家助手 科技果 科技人才 会员权益 需求市场 关于龙图腾 更多
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 北京理工大学张华平获国家专利权

北京理工大学张华平获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉北京理工大学申请的专利一种基于mT5和词频信息熵的多语共同关注主题检测方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN118779443B

龙图腾网通过国家知识产权局官网在2026-03-31发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202410159540.8,技术领域涉及:G06F16/34;该发明授权一种基于mT5和词频信息熵的多语共同关注主题检测方法是由张华平;岳远;商建云设计研发完成,并于2024-02-04向国家知识产权局提交的专利申请。

一种基于mT5和词频信息熵的多语共同关注主题检测方法在说明书摘要公布了:一种基于mT5和词频信息熵的多语共同关注主题检测方法,属于社交媒体信息挖掘技术领域。本方法采用多语言词频信息熵的统计方法,充分考虑共同关注的话题在多语言中分布较为平均的特点,实现不同文化所共同关注的主题词提取;使用mBERT进行同义词聚合,在构建词表过程中实现了冗余词汇的识别,降低输出词汇的冗余程度;通过改进BERTopic中主题词提取算法,使用微调后的mT5对单文档进行主题词的提取,由传统的单语言主题检测改进到多语言的模式,在一定程度上避免潜在价值主题词遗漏的问题。本发明适用于社交媒体信息挖掘技术领域,提高共同关注主题的检测识别能力,并提升主题词的输出质量。

本发明授权一种基于mT5和词频信息熵的多语共同关注主题检测方法在权利要求书中公布了:1.一种基于mT5和词频信息熵的多语共同关注主题检测方法,其特征在于,包括以下步骤: 步骤1:基于BERTopic模型构建“文档-主题词”数据集; 步骤1的实现方法为, 步骤1.1:构建基于BERTopic的主题词提取模型; 将BERTopic作为基准模型,采用c-tf-idf和最大边际相关性算法优化主题词质量;使用自监督的HDBSCAN算法或有监督的KMeans算法,替换BERTopic模型向量聚类算法,并设置相关超参数;将文本嵌入模型替换为和任务相关的语言模型,多语言输入则对应替换为多语模型,得到主题词提取模型; 步骤1.2:数据采集,构建“文档-主题词”数据集; “文档-主题词”数据集中,文档包含“英”,“阿”,“中”,“韩”,“日”五种语言的文档集合,对应记作{Texten},{Textar},{Textzh},{Textko},{Textja}; 对于步骤1.1所得的主题词提取模型,输入文档集合{Texti},设置特定的输入批次大小,获得五种语言下的单文档,如公式1所示: 1 通过模型嵌入文档集合得到嵌入向量;通过算法进行降维;再通过算法进行聚类,获取聚合后的文档集合; 对聚合后的文档集合中的文档,使用c-tf-idf算法得到主题词,并通过最大边际相关性算法对结果进行调优,得到“文档-主题词”数据集,如公式2所示: 2 其中,表示通过BERTopic最终获取到五种语言下的文档对应的主题词,由于c-tf-idf算法需要对多篇文档统计词频和逆文档频率值,因此不能输入单文档获取数据集; 步骤2:基于FineTune或PrefixTune方式微调mT5,训练mT5主题词提取能力; 步骤2的实现方法为, 步骤2.1:FineTune微调mT5; mT5是一个编码器-解码器语言模型,参数化为,其中x表示单个文本y表示生成的主题词序列z是x和y的拼接;表示前i个时间步的激活函数;表示y对应的索引序列;为大语言模型集成网站Huggingface上预训练模型mT5_multilingual_XLSum的初始化参数;随后以公式3对所示目标进行梯度更新: 3 步骤2.2:PrefixTune微调mT5; 使用peft库实现PrefixTuning即前缀微调;PrefixTuning是使用最广泛的参数高效调优方法之一,此处使用连续的词嵌入来优化提示,替代离散的标记;初始化可训练矩阵以存储前缀参数;为了防止不稳定的优化并减轻性能的轻微下降,矩阵经过重新参数化,由公式4给出: 4 其中,由大型前馈神经网络MLP组成,需要根据模型大小设置模型层数等超参数,表示第个时间步,这里只需要训练前缀参数,指微调后模型的全部参数; 根据“文档-主题词”数据集大小和模型微调效果选择最终的模型微调方式;模型微调效果指微调后的模型预测的主题词占测试集中对应主题词的比例;若经PrefixTune后,模型效果接近或高于FineTune后的模型效果,则选择时间开支更小的PrefixTune对后续类似规格的数据集进行微调,否则使用FineTune微调; 步骤3:基于词频信息熵和mBERT,构建数据集的主题词表; 步骤3的实现方法为, 步骤3.1:基于mBERT进行同义词聚合; 首先对输入的新闻文本数据集进行文本预处理,包括删除特殊字符、标点符号、停用词以及进行分词处理,确保数据集的格式统一和一致;然后进行编码:使用预先训练好的模型对预处理后的数据集进行编码;将每个语言中的每个同义词,转换为BERT向量表示,如公式5所示: 5 其中表示词汇经的向量化表示,对于经过提取得到的同义词,通过计算其在表示空间中和文本中其他词汇的余弦相似度,如公式6所示,确定与之最相似的其他同义词; 6 其中表示词汇的嵌入词向量、之间的余弦相似度,将所有同义词根据余弦相似度进行聚合,将相似度高的同义词归为一类;使用聚类算法或者树状结构对同义词进行分组;对于分组聚合后的同义词,取其中一个作为代表词并翻译成我们需要的语言形式进行展示; 步骤3.2:基于信息熵,进行主题词的词频统计; 利用不同语言下词频的香农熵,即频率熵,构造共同关注词表并对表项进行排序;第n个主题包含的单词为;在翻译和同义词合并的词表构建过程中,每个单词被映射到其同义代表词的表示形式,该同义代表词存在于集合中;对于集合中经同义合并后表示的代表词汇,将语言下的每个同义词的出现频率进行统计,记为的同义词在语言下出现的概率如公式7所示: 7 其中,表示的同义词在特定语言下出现的概率,L是语言总个数,表示的同义词在语言下出现的频率;则每种语言下同义代表词W的频率熵,如公式8所示: 8 通过对频率熵进行排序,构建共同关注的主题词排序表; 步骤4:基于微调后的mT5和主题词表,输出预测的多语共同关注主题; 步骤4的实现方法为, 对于构建好的BERTopic模型,复用BERTopic中的UMAP算法和HDBSCAN算法对文档进行聚类; 对于聚类后的文档集群,将原BERTopic处理聚类文档集群使用的c-tf-idf算法替换为步骤2微调后的mT5,用于提取多语言单文档主题词,输出词数量在微调mT5时自定义;进而实现基于BERTopic文档聚类和单文档主题词提取mT5模型组合的多文档多语言主题聚类检测功能;对于mT5模型最后一层的softmax函数输出的单文档主题词集合,使用主题词排序表进行排序和过滤,得到最终输出,实现多语、低冗余、共同关注主题词的检测;提高共同关注主题的检测能力,提升主题词的输出质量。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京理工大学,其通讯地址为:100081 北京市海淀区中关村南大街5号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。