Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 金叶天成(北京)科技有限公司郭奇获国家专利权

金叶天成(北京)科技有限公司郭奇获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉金叶天成(北京)科技有限公司申请的专利一种基于统计特征和词图的轻量级中文关键词提取方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117787270B

龙图腾网通过国家知识产权局官网在2025-10-10发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202311824997.8,技术领域涉及:G06F40/284;该发明授权一种基于统计特征和词图的轻量级中文关键词提取方法是由郭奇;田立军设计研发完成,并于2023-12-27向国家知识产权局提交的专利申请。

一种基于统计特征和词图的轻量级中文关键词提取方法在说明书摘要公布了:本发明公开一种基于统计特征和词图的适用于单篇中文文本的关键词提取方法,包括文本预处理、逐一计算各词的特征、计算各词综合得分、排序和过滤步骤。词的特征包括词频特征、位置特征、分布跨度特征、句子频率特征、特殊词特征和词图分数。本发明基于统计特征和词图信息,得到了准确的关键词提取结果和有区分度的关键词得分。本发明具有以下优势:适用于单篇中文文本;轻量级、无需模型训练和额外语料库;广泛的适用于不同领域的文本。

本发明授权一种基于统计特征和词图的轻量级中文关键词提取方法在权利要求书中公布了:1.一种基于统计特征和词图的轻量级中文关键词提取方法,其特征在于,包括以下步骤: 步骤1:文本预处理,由以下具体步骤组成: 步骤1-1:根据设定的分句符号划分文本,形成文本单元; 步骤1-2:将各文本单元中的大写英文字母转换为小写英文字母; 步骤1-3:使用“结巴”分词将各文本单元划分为一个以上词,然后过滤掉各文本单元中出现在停用词表中的词; 步骤1-4:特殊词标记,按照预设规则标注文本单元中的特殊词; 步骤2:逐一计算各词的特征:由以下具体步骤组成: 假定n为文本单元数量,tf为当前词在各文本单元中出现次数之和,m为出现当前词的文本单元数量,当前词出现的文本单元序号集合为{s1,s2,s3,……,sm},其中1≤s1s2s3……sm≤n; 步骤2-1:计算词频特征TF: TF=tf 步骤2-2:计算位置特征POS: 其中,c为常数,si为当前词出现的文本单元序号; 步骤2-3:计算分布跨度特征DS: 步骤2-4:计算句子频率特征SF: 步骤2-5:计算特殊词特征SW: 其中,a为常数; 步骤2-6:计算词图分数TRS,由以下步骤组成: 步骤A-1:计算词邻连接矩阵,词邻连接矩阵的元素为两个词在预设窗口内同时出现的频次; 步骤A-2:根据词邻接矩阵构建无向图G,每个词作为无向图G的一个顶点,如两个词在一定预设窗口内同时出现过,两个顶点之间就存在边,两个词同时出现的频次作为边的权重; 步骤A-3:初始化各词的分数,并且按照以下公式进行迭代计算,直到收敛; 其中wi表示第i个词,N各文本单元中的词的总数目,α为常数,EG表示图G的边,uwi,wj表示连接第i个词和第j个词对应顶点间的边的权重,TRwi为第i个词的分数,TRwj为第j个词的分数; 步骤A-4:对各词语分数进行min-max标准化,得到词图分数TRS; 步骤3:计算各词综合得分S: 其中,表示文本单元中的各词的词频均值; 步骤4:排序和过滤 步骤4-1:对各词综合得分S进行排序; 步骤4-2:使用词典对词过进行滤,只保留存在于词典中的词; 步骤4-3:计算各词间的杰卡德距离: 其中wi和wj表示第i个和第j个词,Wi表示词wi中字的集合,Wj表示词wj中字的集合,|Wi∩Wj|表示第i个和第j个词共同出现的字的数目,|Wi∪Wj|表示第i个和第j个词中所有出现的字的数目; 步骤4-4:判断各词间的杰卡德距离是否小于预设阈值,如果是,删除综合得分S低的词,保留下来的词及其得分作为关键词输出。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人金叶天成(北京)科技有限公司,其通讯地址为:100024 北京市朝阳区朝阳北路白家楼甲1号红庄国际文化保税创新园区E-1-1;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由AI智能生成
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。