Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 之江实验室焦帅获国家专利权

之江实验室焦帅获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉之江实验室申请的专利文本语料的去重处理方法、去重处理系统和存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120067337B

龙图腾网通过国家知识产权局官网在2025-08-08发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510536475.0,技术领域涉及:G06F16/355;该发明授权文本语料的去重处理方法、去重处理系统和存储介质是由焦帅;韩佳易;周海涛;方健;张莹;姜波;史大治;李劲松设计研发完成,并于2025-04-27向国家知识产权局提交的专利申请。

文本语料的去重处理方法、去重处理系统和存储介质在说明书摘要公布了:本申请提供一种文本语料的去重处理方法、去重处理系统和存储介质。文本语料的去重方法包括:对全局待去重文本语料进行随机采样,得到待去重文本语料子集;根据预设的文本分类模型,将待去重文本语料子集分为多个分类集合;对各个分类集合中的文本语料进行层次化聚类,得到层次化聚类结构;根据层次化聚类结构将全局待去重文本语料分至多个语料桶;对所有语料桶进行桶内去重后,进行全局去重,得到去重后的文本。如此,实现了文本语料的去重过程的优化,有利于节约去重过程所需要的计算资源和存储资源。

本发明授权文本语料的去重处理方法、去重处理系统和存储介质在权利要求书中公布了:1.一种文本语料的去重方法,其特征在于,包括: 对全局待去重文本语料进行随机采样,得到待去重文本语料子集; 根据预设的文本分类模型,确定所述待去重文本语料子集中,各个文本语料的属性向量;所述属性向量包括在多个分类维度中的各个分类维度上的分类结果置信度; 根据所述属性向量按照预设规则将所述待去重文本语料子集分为多个分类集合;其包括:若文本语料的属性向量表征所述文本语料在一个分类维度上的分类结果置信度大于或等于置信度阈值,则表示所述文本语料在所述分类维度上的属性显著;若文本语料的属性向量表征所述文本语料在至少一个分类维度上的属性显著,则确定所述文本语料属于显著分类集合;其中,显著分类集合为多个,属性显著的文本语料被分到且仅被分到一个显著分类集合中;若文本语料的属性向量表征所述文本语料在一个分类维度上的分类结果置信度小于置信度阈值,则表示所述文本语料在所述分类维度上的属性不显著;若文本语料的属性向量表征所述文本语料在所有分类维度上的属性均不显著,则确定所述文本语料属于模糊分类集合; 对各个分类集合中的文本语料进行层次化聚类,得到层次化聚类结构; 根据所述层次化聚类结构将全局待去重文本语料分至多个语料桶; 对所有语料桶进行桶内去重后,进行全局去重,得到去重后的文本。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人之江实验室,其通讯地址为:311121 浙江省杭州市余杭区中泰街道科创大道之江实验室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。