东北大学魏志国获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉东北大学申请的专利一种基于birch聚类的海量文本聚类方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114266249B 。
龙图腾网通过国家知识产权局官网在2025-06-27发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202111586056.6,技术领域涉及:G06F40/289;该发明授权一种基于birch聚类的海量文本聚类方法是由魏志国;程维;李春麟;潘永康;彭程;孙霜铭设计研发完成,并于2021-12-20向国家知识产权局提交的专利申请。
本一种基于birch聚类的海量文本聚类方法在说明书摘要公布了:本发明涉及机器学习技术领域,提出一种基于birch聚类的海量文本聚类方法。针对海量文本的处理,使用改进的birch聚类算法建立哈希聚类特征树CFTree,当初始CFTree构建完成后,通过提升阈值T来重建CF树以吸收更多的异常样本值,直到异常值磁盘不再溢出;在对文本进行切词和去停用词的基础上,使用加权技术TF‑IDF计算关键词权重,并选取其中权重值较大的部分作为文本特征通过局部敏感哈希算法进行特征的降维,去除了文本中复杂的冗余信息,提取了能代表文本的关键信息,降低了文本特征的维度,提升了聚类的速度;采用了启发式的阈值提升模式,使得算法更好的适应不同文本的需求,降低人为设置超参数导致的聚类效果较差情况发生的概率。
本发明授权一种基于birch聚类的海量文本聚类方法在权利要求书中公布了:1.一种基于birch聚类的海量文本聚类方法,其特征在于,包括: 步骤1:获取文本信息并进行预处理; 步骤2:对预处理得到的字词进行文本特征的降维处理; 步骤2.1:对每一个文本特征采用Hash算法得到N字节的Hash值; 步骤2.2:对得到的Hash值分别乘对应的权重值,得到文本特征的加权值; 步骤2.3:对同一篇文本特征的加权值按位进行求和,得到一个N字节的字符串; 步骤2.4:将N字节的字符串转化为01字符串,得到表示该文本的SimHash值; 步骤3:使用文本SimHash值创建初始聚类特征树CFTree,生成聚类中心表; 步骤3.1:设置阈值T的初始化值,并初始化一棵聚类特征树CFTree; 步骤3.2:任意选取一个待聚类的文本,将该文本的SimHash值作为一个样本点放入初始化簇中,并将该值作为初始化簇中心; 步骤3.3:通过计算该文本的SimHash值与各簇中心的汉明距离对所有待聚类文本进行聚类; 步骤3.4:判断新加入样本点的簇是否超过该簇所能容纳的最大样本点数B;若超过最大样本点数B,删除当前簇中心,并从簇内所有的样本点中选取汉明距离最大的两个,作为新的簇中心; 步骤3.5:计算当前簇内所有样本点与两个簇中心的汉明距离,对于每个样本点,将其加入汉明距离较小的簇,并更新簇中心值; 步骤3.6:当所有的文本都遍历一遍时,结束初始CFTree的构建,并根据聚类结果创建聚类中心表; 步骤4:利用全局聚类方法对所有簇进行聚类并更新聚类中心表,得到最终的分类结果。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人东北大学,其通讯地址为:110819 辽宁省沈阳市和平区文化路3号巷11号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。