河海大学陆佳民获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉河海大学申请的专利一种面向水利文本的主题演化关系挖掘方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114647722B 。
龙图腾网通过国家知识产权局官网在2026-03-03发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210294529.3,技术领域涉及:G06F16/355;该发明授权一种面向水利文本的主题演化关系挖掘方法是由陆佳民;马族隆;冯钧设计研发完成,并于2022-03-24向国家知识产权局提交的专利申请。
本一种面向水利文本的主题演化关系挖掘方法在说明书摘要公布了:本发明公开了一种面向水利文本的主题演化关系挖掘方法,首先,对预先获取的语料进行预处理,形成“文本‑单词矩阵”数据集;其次,使用LDA模型对数据集进行聚类处理,生成文档‑主题矩阵与主题‑词矩阵,为后续主题演化挖掘提供支持;然后,将主题演化关系挖掘分为主题间相互作用关系挖掘和主题演化路径挖掘;主题间相互作用关系挖掘利用先建模主题演化模型,聚焦于不同主题个体间的相互影响情况;最后,主题演化路径挖掘利用离散时间主题演化模型,从整体层面鸟瞰学科的发展脉络。本发明实现了对不同时间阶段的水利主题间演化关系的准确、高效挖掘,对研究员厘清行业发展脉络、选择更有前景的研究领域起到了重要的作用。
本发明授权一种面向水利文本的主题演化关系挖掘方法在权利要求书中公布了:1.一种面向水利文本的主题演化关系挖掘方法,其特征在于,包括以下步骤: 1对预先获取的语料进行预处理,形成“文本-单词矩阵”数据集; 2使用LDA模型对数据集进行聚类处理,生成文档-主题矩阵与主题-词矩阵,为后续主题演化挖掘提供支持; 3将主题演化关系挖掘分为主题间相互作用关系挖掘和主题演化路径挖掘;主题间相互作用关系挖掘利用先建模主题演化模型,聚焦于不同主题个体间的相互影响情况; 4主题演化路径挖掘利用离散时间主题演化模型,从整体层面鸟瞰学科的发展脉络; 所述步骤1包括以下步骤: 11通过网络爬虫获取国内中文水利类期刊上发表的论文摘要文本,每篇文本均以TXT格式独立存储,文件名以“时间”加“论文标题”的形式命名; 12对获取的语料进行文本分词、水利领域词典构建、去停用词、去高频词和去低频词处理,形成“文本-单词矩阵”的数据集;所述水利领域词典构建通过水利公文主题词表,搜狗细胞词库和算法扩充实现;其中算法扩充是在导入自定义词库前,经过jieba分词后的一个个词项构成了一个项集,每篇文档中的每一个句子对应一个事务,所有句子的集合构成了一个数据库,对其采用关联规则挖掘算法,将能够挖掘出词项构成的频繁J项集和关联规则;如果挖掘出规则X→Y,则说明在规则的前提X出现的情况下,规则的结论Y也经常出现;由此认为XY属于一个整体,从而找出文档集包含的水利领域名词; 所述步骤2包括以下步骤: 21设置文档集的主题数目K,以及Dirichlet先验分布的参数和 22为文档集中每篇文档的每个词项随机分配一个主题; 23为每个词项都重新采样一个新的主题,并不断重复,直至采样收敛; 24统计文档集中每篇文档的主题分配,得到每篇文档下的主题分布矩阵θm;统计每个主题的词语分布,得到每个主题下的词项分布矩阵QA; 所述步骤3实现过程如下: 31对数据集进行主题建模,得到整个数据集的文档-主题矩阵与主题-词矩阵; 32将文档按照其时间信息以年为单位进行划分,得到不同时间片下的论文集Dh={D1,D2,…,Dn}; 33对于每个时间片中的论文集,计算不同主题在每个时间片中的主题流行相关性与主题共现度;所述主题共现度通过计算文档中同时出现的主题的PMI分数来获得成对主题的共现分数: 其中,Pwi,wj是主题i中词语wi和主题j中词语wj在自定义窗口内的共现频率,pwi是主题i中词语wi的出现频率,PMI越大,主题之间共现度越高; 所述主题流行相关性计算过程如下: 计算主题所属的文档数占当年的总文档数的比值作为当年该主题的流行度: 其中,Ptopick|y表示主题k在y年的流行度,timeD表示文档D发布的年份,如果文档D的主题分布中包含主题k,那么Ptopick|D的值设置为1,反之则置为0,Cy表示y年的总文档数目,起归一化的作用; 得到任意两个主题的流行度序列Ptopic1=Ptopic1|y1,Ptopic1|y2,…,Ptopic1|yu}和Ptopic2=Ptopic2|y1,Ptopic2|y2,…,Ptopic2|yu};通过皮尔逊相关系数法计算两组流行度序列的相关性即为该主题对的主题流行相关性: 其中,表示等长时间流行度序列的平均值;若Corr·=0,则说明这两个主题的流行度不相关;若Corr·的值大于0时,表示两个主题的流行度正相关,同理当Corr·值小于0时,表示两个主题的流行度负相关; 34根据主题流行的正或负相关性与共现度的高或低,将主题间的关系分为促进关系、竞争关系、同源关系、更迭关系四个种类; 所述步骤4实现过程如下: 41将文档按照其时间信息以年为单位进行划分,得到不同时间片下的论文集Di={D1,D2,…,Dn}; 42对每个时间片上的数据集进行主题建模,得到各个时间片上的文档-主题矩阵与主题-词矩阵; 43对于相邻时间片上的主题,计算主题相似度,并设置阈值进行过滤; 44根据主题相似度将主题演化路径以桑基图的形式展现。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人河海大学,其通讯地址为:210024 江苏省南京市鼓楼区西康路1号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励