北京理工大学郭欣锐获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京理工大学申请的专利一种基于双曲图卷积网络和层次聚类的主题分类方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN118673928B 。
龙图腾网通过国家知识产权局官网在2025-12-19发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202410639670.1,技术领域涉及:G06F40/30;该发明授权一种基于双曲图卷积网络和层次聚类的主题分类方法是由郭欣锐;阮歆池;于国鑫;郝志伟;徐冠宇;胡晗;郇鑫焘设计研发完成,并于2024-05-22向国家知识产权局提交的专利申请。
本一种基于双曲图卷积网络和层次聚类的主题分类方法在说明书摘要公布了:本发明公开的一种基于双曲图卷积网络和层次聚类的主题分类方法,属于自然语言处理中的文本主题分类技术领域。本发明实现方法为:对微博文本数据进行预处理,包括数据清洗、中文分词和去除停用词;使用TF‑IDF方法计算特征向量。将预处理后的文本数据映射到双曲空间,利用指数映射和对数映射在欧氏空间与双曲空间之间转换信息,同时保留双曲空间的层次结构特征。计算节点间的双曲距离并结合层次聚类算法,捕捉层次结构数据中的关系。相似或相关的节点能够在双曲图卷积网络的信息聚合过程中获得更高的权重,挖掘文本数据的层次结构,通过训练双曲图卷积神经网络捕捉微博文本数据的层次结构关系,利用训练好的双曲图卷积神经网络实现高质量的主题分类。
本发明授权一种基于双曲图卷积网络和层次聚类的主题分类方法在权利要求书中公布了:1.一种基于双曲图卷积网络和层次聚类的微博文本主题分类方法,其特征在于:包括以下步骤, 步骤一:采集指定话题下的微博文本,对文本数据进行预处理,并对微博文本的主题类别进行标注,得到标注后的微博文本数据集,将微博文本数据集作为后续步骤二用于微博文本向量化的输入;所述预处理包括数据清洗、中文分词、去停用词; 步骤二:对于步骤一得到的微博文本数据集中的微博文本,在欧几里得空间E中通过TF-IDF方法计算所述微博文本的特征向量,将微博文本转换为向量形式,向量每个维度对应一个词语的TF-IDF值,即得到每条微博文本对应的特征向量xE; 步骤三:根据步骤二得到的每条微博文本对应的特征向量xE,根据余弦相似度的公式计算词向量间的相似度,并建立用于双曲图卷积网络的邻接矩阵M; 步骤四:利用指数映射将步骤二得到每条微博文本对应的特征向量xE映射到双曲空间,在欧氏空间与双曲空间之间转换信息,同时保留双曲空间的双曲结构特征x0,H作为步骤五的输入; 将处理后的数据映射到双曲空间,利用指数映射在欧氏空间与双曲空间之间转换信息,同时保留了双曲空间的层次结构特征; 其中,x0,E表示欧氏空间中的一个特征,Hd,K是具有常数负曲率-1K的d维双曲球面,K0,表示在Hd,K中作为参考点使用的原点,用来执行切空间操作; 步骤五:以步骤四得到的双曲特征x0,H为输入,根据双曲空间的映射特征后计算节点间的双曲距离公式计算节点间的双曲距离;层次聚类算法根据双曲距离捕捉层次结构数据中的关系,得到代表在双曲空间中邻接矩阵,作为双曲图卷积网络的输入; 步骤六:将双曲特征向量x0,H与邻接矩阵G输入到双曲图卷积网络中,在双曲图卷积网络完成层次信息提取;双曲图卷积网络通过特征转换、邻域聚合以及非线性激活三个步骤实现节点信息的更新;在主题分类层利用Softmax函数将双曲图卷积网络输出的值转化为概率值,所述概率值代表不同主题类别的可能性,用于执行主题分类;选取概率最高的主题作为预测的分类结果; 步骤七:结合损失函数训练步骤六构建的双曲图卷积网络,得到训练好的双曲图卷积网络; 步骤八:将待分类的微博文本输入到训练好的双曲图卷积网络,得到待分类的微博文本主题分类结果,即基于双曲图卷积网络和层次聚类实现微博文本的主题分类。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京理工大学,其通讯地址为:100081 北京市海淀区中关村南大街5号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励