腾讯科技(深圳)有限公司刘志煌获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉腾讯科技(深圳)有限公司申请的专利商户文本的识别方法、装置、设备和存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115618871B 。
龙图腾网通过国家知识产权局官网在2025-12-12发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202110791436.7,技术领域涉及:G06F40/295;该发明授权商户文本的识别方法、装置、设备和存储介质是由刘志煌设计研发完成,并于2021-07-13向国家知识产权局提交的专利申请。
本商户文本的识别方法、装置、设备和存储介质在说明书摘要公布了:本申请提供一种商户文本的识别方法、装置、设备和存储介质,方法包括,获取待识别商户文本;针对每一种类型的特征词,根据待识别商户文本中每一个词是否为该类型的特征词,为待识别商户文本中每一个词配置对应的权重系数,并利用配置的权重系数对待识别商户文本的各个词的词向量进行加权求和,得到待识别商户文本的与该类型对应的特征向量;特征词的类型包括关键词、主题词、实体词和属于频繁序列模式的词中的任意多种;根据待识别商户文本的与各个类型对应的特征向量进行集成聚类,获得待识别商户文本所属类别。相比于现有技术,本方案获得的不同类型的特征向量能够反映商户文本更多的特征,因而可以更准确的识别出商户文本所属类别。
本发明授权商户文本的识别方法、装置、设备和存储介质在权利要求书中公布了:1.一种商户文本的识别方法,其特征在于,包括: 获取待识别商户文本; 针对每一种类型的特征词,根据所述待识别商户文本中每一个词是否为该类型的特征词的结果,为所述待识别商户文本中每一个词配置对应的权重系数,并利用配置的权重系数对所述待识别商户文本的各个词的词向量进行加权求和,得到所述待识别商户文本的与该类型对应的特征向量;其中,针对每一个待识别商户文本执行,获得每一个待识别商户文本的,与每一特征词类型对应的特征向量,特征词的类型包括关键词、主题词、实体词和属于频繁序列模式的词;所述特征词由样本库中预先标注有所属类别的多个商户文本经过文本挖掘得到;所述频繁序列模式指代在所述样本库的商户文本中支持率大于第一阈值的序列模式;序列模式由文本中至少一个词组成,配置权重系数的方式为:针对每一种类型的特征词,若待识别商户文本中每一个词为该类型的特征词,将该类型的权重确定为待识别商户文本中该词的权重系数,若待识别商户文本中每一个词不为该类型的特征词,将最小权重系数确定为该词的权重系数; 针对每一种特征词的类型,利用聚类模型对所述待识别商户文本的与该类型对应的特征向量,以及所述样本库中商户文本的与该类型对应的特征向量进行聚类处理,获得该类型对应的聚类结果;其中,所述聚类模型包括K均值聚类算法,均值漂移聚类算法以及基于密度的聚类算法,将这三种聚类算法的聚类结果集成为该类型对应的聚类结果; 将多个聚类结果中,重复出现次数最多的聚类结果确定为最终聚类结果,并根据所述最终聚类结果确定所述待识别商户文本所属类别。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人腾讯科技(深圳)有限公司,其通讯地址为:518000 广东省深圳市南山区高新区科技中一路腾讯大厦35层;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励