康键信息技术(深圳)有限公司赵旭获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉康键信息技术(深圳)有限公司申请的专利新词发现方法、装置、电子设备及介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN112287676B 。
龙图腾网通过国家知识产权局官网在2025-09-19发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202011181496.9,技术领域涉及:G06F40/284;该发明授权新词发现方法、装置、电子设备及介质是由赵旭设计研发完成,并于2020-10-29向国家知识产权局提交的专利申请。
本新词发现方法、装置、电子设备及介质在说明书摘要公布了:本发明涉及数据处理技术,揭露了一种新词发现方法,包括:对原始文本集进行分句、分词和去停用词处理,得到原始字词集,按照原始字词集中字词的顺序,将第一预设数量的连续字词合并处理,生成候选词集合,利用预设的顺序n元语言模型对候选词集合进行概率计算,得到候选词的概率值并排序,筛选第二预设数量的候选词,得到筛选词集,对筛选词集中的相同候选词的概率进行相加并对候选词排序,选择概率值大于预设阈值的候选词作为新词。本发明还涉及区块链技术,所述新词可以存储在区块链节点中。本发明还揭露一种新词发现装置、电子设备及计算机可读存储介质。本发明可以提高新词发现的效率及全面性。
本发明授权新词发现方法、装置、电子设备及介质在权利要求书中公布了:1.一种新词发现方法,其特征在于,所述方法包括: 获取原始文本集,对所述原始文本集进行分句处理,得到原始句子集,并对所述原始句子集进行分词和去停用词,得到原始字词集; 按照所述原始字词集中字词的顺序,在所述原始字词集中将第一预设数量的连续字词进行合并处理,生成候选词集合; 将所述候选词集合中的候选词在预设的领域词词典中进行遍历匹配,获取从所述领域词词典找到的一个或多个匹配的词,将所述匹配的词依次替换其中一个对应的候选词,产生对应的训练样本,利用预设的顺序n元语言模型对所述训练样本进行概率计算,得到所述候选词集合中每个候选词的概率值; 根据所述概率值的排序,筛选第二预设数量的候选词,得到筛选词集; 对所述筛选词集中的相同候选词的概率进行相加,根据相加后的概率值对所述筛选词集中所有的候选词排序,选择概率值大于预设阈值的候选词作为新词。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人康键信息技术(深圳)有限公司,其通讯地址为:518000 广东省深圳市前海深港合作区前湾一路1号A栋201室(入驻深圳市前海商务秘书有限公司);或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。