Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
专利交易 商标交易 积分商城 国际服务 IP管家助手 科技果 科技人才 会员权益 需求市场 关于龙图腾 更多
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 武汉大学陈玉敏获国家专利权

武汉大学陈玉敏获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉武汉大学申请的专利基于舆情大数据的诉求案件信息抽取聚类方法及设备获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115757791B

龙图腾网通过国家知识产权局官网在2026-04-14发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211503457.5,技术领域涉及:G06F16/35;该发明授权基于舆情大数据的诉求案件信息抽取聚类方法及设备是由陈玉敏;褚天佑;马鉴燊;陈国栋;闵万坤;陈玥君;苏恒设计研发完成,并于2022-11-28向国家知识产权局提交的专利申请。

基于舆情大数据的诉求案件信息抽取聚类方法及设备在说明书摘要公布了:本发明提供了一种基于舆情大数据的诉求案件信息抽取聚类方法及设备。所述方法包括:步骤1至步骤7。本发明能够提取舆情大数据中民众诉求案件的关键信息,通过基于深度学习的匹配模型和无监督聚类方法能够快速地在大规模的诉求数据集上对案件进行合并和聚类。

本发明授权基于舆情大数据的诉求案件信息抽取聚类方法及设备在权利要求书中公布了:1.一种基于舆情大数据的诉求案件信息抽取聚类方法,其特征在于,包括: 步骤1,构建实体信息抽取语料库:采集待处理诉求案件数据,确定待抽取信息的实体对象和类型范围,包括地址、公司、兴趣点,通过人工标注得到少量样本,形成实体信息抽取语料库,通过步骤2和步骤3中的信息抽取方法预提取一部分结果用于验证确定的实体对象是否合理准确,验证无误后,将人工标注的少量样本与模型自动提取的结果合并作为实体信息抽取语料库; 步骤2,构建实体信息抽取模型:利用基于ERNIE的预训练语言模型作为编码器,后接指针网络用于抽取实体对象,构建实体信息抽取模型,其中指针网络的输出为待抽取实体在文本中的起始与终点位置的索引,通过索引来截取文本中的待抽取实体; 步骤3,训练实体信息抽取模型并提取案件中的实体信息:生成训练实体信息抽取模型所需的数据集,根据步骤1中构成的实体信息抽取语料库按一定比例随机划分生成训练集和验证集,在训练集中,按一定比例生成正样本和负样本用于实体信息抽取模型训练,利用训练好的实体信息抽取模型提取待抽取的案件文本,如果存在多个待抽取实体,对每个实体单独进行抽取取得结果; 步骤4,构建实体信息同义词语料库:选取一部分待匹配文本数据,即步骤3中提取的实体信息,通过人工标注得到少量同义词样本,形成实体信息同义词语料库,同义词指每个类别中样本与样本之间在语义上指向同一实体,如果两个样本互为同义词,则称他们互相匹配,通过步骤7的信息聚类方法预生成一部分结果作为参考,将模型聚类的一部分错误的结果加入到人工标注的样本中,通过多次迭代生成实体信息同义词语料库; 步骤5,构建实体信息匹配模型:为了能够在海量的案件诉求数据下快速获取匹配结果,实体信息匹配模型由表征式匹配网络和交互式匹配网络构成; 表征式匹配网络用于快速召回数据集中与待匹配样本相似的前N个结果,表征式匹配网络由基于ERNIE的预训练语言模型作为编码器,并在其后接一层全连接层用于向量降维; 交互式匹配网络负责判断该样本与召回的前N个结果是否匹配,交互式匹配网络由基于ERNIE的预训练语言模型作为编码器,在其后接一层全连接层作为分类器,将判断两个文本之间是否匹配转为二分类问题,并输出结果; 步骤6,训练实体信息匹配模型:生成训练实体信息匹配模型所需的数据集,根据步骤4中构成的实体信息同义词语料库按比例随机划分生成训练集和验证集,在训练集中,按比例生成正样本和负样本用于实体信息匹配模型训练,由于数据集中存在同义词关系的样本较少,易造成数据长尾问题,利用数据增强生成正样本作为训练集; 步骤7,案件实体信息匹配与聚类:根据实体信息同义词语料库中的样本,对待匹配数据集进行匹配,将匹配成功的作为实体聚类结果; 使用实体信息匹配模型进行匹配,利用表征式匹配网络提取数据集中所有样本的向量表示,然后对所有向量建立k-d树索引用于快速匹配,对于任意一个待匹配文本,召回前N个数据集中最相似的样本,相似度采用余弦距离衡量,然后利用交互式匹配网络对该待匹配文本和N个样本两两匹配,判断两者是否匹配,将交互式匹配网络输出的匹配概率作为文本两两之间的距离,使用DBSCAN方法进行聚类,得到模型匹配的结果; 将模型匹配成功的结果与实体聚类结果合并,得到第一合并结果,模型匹配失败的结果则通过人工判断合并到第一合并结果中,得到第二合并结果,统计第二合并结果中各个实体涉及的出现频数,最后将第二合并结果与总语料库合并,增加总语料库中的匹配样本。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人武汉大学,其通讯地址为:430072 湖北省武汉市武昌区珞珈山街道八一路299号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。