广联达科技股份有限公司付红雷获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉广联达科技股份有限公司申请的专利文本聚类方法、装置、计算机设备及存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117312550B 。
龙图腾网通过国家知识产权局官网在2026-03-13发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210731153.8,技术领域涉及:G06F16/355;该发明授权文本聚类方法、装置、计算机设备及存储介质是由付红雷;徐胜利;高志明设计研发完成,并于2022-06-24向国家知识产权局提交的专利申请。
本文本聚类方法、装置、计算机设备及存储介质在说明书摘要公布了:本发明提供一种文本聚类方法、装置、计算机设备及存储介质,该方法包括:获取多个目标文本,确定每个所述目标文本的文本向量;计算所述文本向量之间的第一相似度,根据所述第一相似度将所述多个目标文本划分为多个初始类别;属于同一个初始类别内的两个或两个以上的文本向量之间的第一相似度大于预设的第一阈值;计算多个所述初始类别之间的第二相似度,根据所述第二相似度对所述多个初始类别进行合并,以得到多个终极类别。本发明分为粗聚类和细聚类两个阶段。在粗聚类阶段把相似度高于某个较大阈值的文本聚在一起,保证聚类的准确性。在细聚类阶段,不断合并类中心最近的两个类直到整体聚类度不再增加,在快速聚类的前提下保证了聚类最终效果。
本发明授权文本聚类方法、装置、计算机设备及存储介质在权利要求书中公布了:1.一种文本聚类方法,其特征在于,包括以下步骤: 获取多个目标文本,确定每个所述目标文本的文本向量; 计算所述文本向量之间的第一相似度,根据所述第一相似度将所述多个目标文本划分为多个初始类别;其中属于同一个初始类别内的两个或两个以上的文本向量之间的第一相似度大于预设的第一阈值; 计算多个所述初始类别之间的第二相似度,根据所述第二相似度对所述多个初始类别进行合并,以得到多个终极类别; 其中,所述计算多个所述初始类别之间的第二相似度,根据所述第二相似度对所述多个初始类别进行合并,以得到多个终极类别的步骤包括: 计算每个初始类别的中心向量值以及任意两个中心向量值之间的第二相似度; 确定第二相似度最高的第一初始类别和第二初始类别; 计算所述第一初始类别和所述第二初始类别在合并前与其它参照初始类别之间的第一聚类程度,以及所述第一初始类别和所述第二初始类别在合并后与其它参照初始类别之间的第二聚类程度;其中,聚类程度通过类内平均距离与类间平均距离之间的比值确定,所述类内平均距离与同一个初始类别内的所有文本向量的平均值相关,所述类间平均距离与任意两个初始类别之间的中心向量值之差的平均值相关; 根据所述第二聚类程度和所述第一聚类程度之间的关系确定所述第一初始类别和所述第二初始类别是否需要合并。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人广联达科技股份有限公司,其通讯地址为:100193 北京市海淀区西北旺东路10号院东区13号楼;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励