Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 北京优捷信达信息科技有限公司胡子扬获国家专利权

北京优捷信达信息科技有限公司胡子扬获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉北京优捷信达信息科技有限公司申请的专利一种实时对长文本去重聚类的方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115795036B

龙图腾网通过国家知识产权局官网在2025-11-18发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211561536.1,技术领域涉及:G06F16/353;该发明授权一种实时对长文本去重聚类的方法是由胡子扬设计研发完成,并于2022-12-07向国家知识产权局提交的专利申请。

一种实时对长文本去重聚类的方法在说明书摘要公布了:本发明公开了一种实时对长文本去重聚类的方法,包括有以下步骤:步骤一,基础设施建设:在中心服务存储建立可以对特征向量进行快速模糊比对的数据结构;在中心数据库建立特征值为主键的文本列表A;在中心数据库建立特征值为主键的文本列表B;步骤二,粗分类,在文本列表A和文本列表B中的每条文本进入系统时实时计算;步骤三,定时背景建模;步骤四,细分类,对文本列表A进行定时定量计算,将所有如此判断为相似的文本对在表A中将关联特征值标注为此集合内的最小特征值;步骤五,终端用户实时查询:单个文本查询和时间段查询,本发明涉及数据分析技术领域。本发明,在保证数据处理的实时性的同时也兼顾了高度的准确性。

本发明授权一种实时对长文本去重聚类的方法在权利要求书中公布了:1.一种实时对长文本去重聚类的方法,其特征在于,包括有以下步骤: 步骤一,基础设施建设:在中心服务存储建立可以对特征向量进行快速模糊比对的数据结构;在中心数据库建立特征值为主键的文本列表A,文本列表A包括计数器、文本内容、获取时间、关联特征值;在中心数据库建立特征值为主键的文本列表B,文本列表B包括文本内容以及关联特征值; 步骤二,粗分类,在文本列表A和文本列表B中的每条文本进入系统时实时计算:对文本提取n元语法作为特征值;反复对每条文本的所有特征值进行哈希计算,将计算结果进行计算以得到每条文本等长的特征向量;将特征值传与模糊比对数据结构进行计算,得到最大相似值; 若最大相似值大于设定的最高阈值,则此条文本为重复数据,在文本列表A中将对应的主键所附计数器增值1; 若最大相似度不大于设定的最高阈值,则判断此文本为新文本,在文本列表表A中存储相应的特征值、获取时间,计数器设为1; 若最大相似度不大于设定的最高阈值,但大于设定的最低阈值,则将文本存入文本列表B,将与其最相似的文本特征值存入文本列表表A;如业务过程中有任何方法可以判断文本对相似,则也加入文本列表B; 若最大相似度大于设定的最高阈值,则粗分类的返回值为与其最相似文本的特征值,否则为自己的特征值; 步骤三,定时背景建模:查询文本列表A,读取文本列表B,进行存储分布式表征计算模型、深度学习语义向量计算模型、正反面数据向量判断模型的建模; 在设定的时间,查询文本列表A,获取设定时间段内所有文本;对所有获取的文本进行分词以及去除停用词;使用分布式表征方法对分词后的所有文本进行无监督学习,得到词频以及每个词对应的语义向量;使用深度学习方法对每条文本的语义向量流进行无监督学习,得到每条文本的语义向量; 读取文本列表B,获取类似文本作为监督学习的正面训练数据,同时从文本列表A中随机抽取文本对作为监督学习的反面训练数据;训练线性模型,使得上一步获取的正面数据对的向量在经过线性变换后笛卡尔积尽量大,而反面数据对在向量经过线性变换后笛卡尔积尽量正交,进而得到存储分布式表征计算模型、深度学习语义向量计算模型、正反面数据向量判断模型的建模; 步骤四,细分类,对文本列表A进行定时定量计算,在设定的时间,查询文本列表A,获取设定时间段内文本;对文本使用分布式表征计算模型、深度学习语义向量计算模型,以及正反面数据向量判断模型的线性部分,得到文本集的张量;对文本集的张量自己进行内积计算,得到相似矩阵,将相似矩阵根据设定的阈值进行判断,将所有如此判断为相似的文本对在表A中将关联特征值标注为此集内的最小特征值; 步骤五,终端用户实时查询:单个文本查询和时间段查询; 单个文本查询,将文本进行粗分类计算,再将得到的特征值,在文本列表A中查询:计数器表示与此文本基本内容相同的文本数量;根据表中关联特征值反查,可得到文本内容与所查询内容区别; 时间段查询:根据表A中所记录的时间进行段查询,再根据查询结果中的关联特征值进行归类,则得到此段时间内文本集,文本集的每条包括文本子集,共同描述同一个事件;子集内的文本所附带的计数器为与文本基本雷同的其他文本数量。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京优捷信达信息科技有限公司,其通讯地址为:100024 北京市朝阳区三间房南里4号院172幢1层106室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。