中国人民大学王菲菲获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中国人民大学申请的专利一种半监督聚类方法及其开放题回答文本编码方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119581050B 。
龙图腾网通过国家知识产权局官网在2025-11-14发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510142146.8,技术领域涉及:G16H50/70;该发明授权一种半监督聚类方法及其开放题回答文本编码方法是由王菲菲;蒋妍;王理琼设计研发完成,并于2025-02-10向国家知识产权局提交的专利申请。
本一种半监督聚类方法及其开放题回答文本编码方法在说明书摘要公布了:本发明涉及数据表示技术领域,公开一种半监督聚类方法及其开放题回答文本编码方法,半监督聚类方法包括:获取待聚类数据集及其有标签数据集和无标签数据集;将待聚类数据集映射为空间密度图和或拓扑密度图,利用有标签数据集和无标签数据集,将待聚类数据集中的数据聚类为若干聚类簇,其中,每个聚类簇中的每个数据均具有聚类标签,聚类标签为已有标签或新标签。本发明基于半监督聚类方法对开放题回答文本数据进行高效和高精度的聚类,在少量先验知识的情况下能够发现新类,在进行聚类后,可以对每一类的开放题回答文本提取关键词进行编码,便于快速、准确地了解被访群体的情况,提高诊疗效率和质量。
本发明授权一种半监督聚类方法及其开放题回答文本编码方法在权利要求书中公布了:1.一种半监督聚类方法,其特征在于,包括: 获取待聚类数据集以及基于待聚类数据集得到的有标签数据集和无标签数据集; 将待聚类数据集映射为空间密度图和或拓扑密度图,其中,空间密度图基于空间密度距离构建,空间密度距离的表达式为:,式中,表示使数据点i空间密度可达数据点j的最小d,以及,拓扑密度图基于拓扑密度距离构建,拓扑密度距离的表达式为:,式中,使数据点i拓扑密度可达数据点j的最小k; 根据空间密度图和或拓扑密度图,利用有标签数据集和无标签数据集,将待聚类数据集中的数据聚类为若干聚类簇,其中,每个聚类簇中的每个数据均具有聚类标签,聚类标签为有标签数据集中任一数据的标签或与有标签数据集中所有数据的标签均不相同的新标签; 其中,所述根据空间密度图和或拓扑密度图,利用有标签数据集和无标签数据集,将待聚类数据集中的数据聚类为若干聚类簇,包括: 根据空间密度图和拓扑密度图,利用有标签数据集和无标签数据集进行初始化、图分割、标签传播,将待聚类数据集中的数据聚类为若干聚类簇; 其中,所述根据空间密度图和拓扑密度图,利用有标签数据集和无标签数据集进行初始化、图分割、图合并、标签传播,将待聚类数据集中的数据聚类为若干聚类簇包括: 利用有标签数据集和无标签数据集作为总样本集对空间密度图和拓扑密度图进行初始化; 结合有标签数据集,对初始化后的空间密度图和拓扑密度图进行相同的循环操作,得到分割后的空间密度图和拓扑密度图:在达到预设停止条件之前循环切断密度图的最长边,将密度图分割为多个连通子图,其中,每个子图只有两种可能,一是该子图是无先验标签的新簇,二是该子图属于其唯一取值标签的簇; 将分割后的空间密度图和拓扑密度图合并为一张新图,其中,新图的顶点集为空间密度图的顶点集和拓扑密度图的顶点集的并集,新图的边集为空间密度图的边集和拓扑密度图的边集的交集; 根据标签传播条件,对新图内的所有数据点赋予聚类标签,其中,标签传播条件包括:对于有唯一取值标签的子图,将子图内所有数据点均赋予该唯一取值标签作为聚类标签,对于所有数据点均无标签的子图,取一不同于有标签数据集内任一标签的新标签作为聚类标签,将子图内所有数据点均赋予该新标签。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国人民大学,其通讯地址为:100872 北京市海淀区中关村大街59号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励