上证所信息网络有限公司陆性天获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉上证所信息网络有限公司申请的专利一种文本编码方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115345130B 。
龙图腾网通过国家知识产权局官网在2026-02-13发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210954541.2,技术领域涉及:G06F40/126;该发明授权一种文本编码方法是由陆性天;黄欣;曹波;杨博;曹晓翀;张婧;王贇玥设计研发完成,并于2022-08-10向国家知识产权局提交的专利申请。
本一种文本编码方法在说明书摘要公布了:本发明公开一种文本编码方法,所述方法包括:对语料集进行数据清洗和预处理、对语料集进行分句和分词、提取相关特征、对句子进行编码表示、在编码基础上追加三个维度、构建上层模型;本发明与现有技术相比,区别在于以往的追加特征多采用句内特征,如词性、句法依存、相对位置、绝对位置等,而本发明追加的是全局的统计信息,整体操作简单,训练成本低,对句子级别编码进行基于全局统计信息的先验知识注入,提升了上游任务的准确率。
本发明授权一种文本编码方法在权利要求书中公布了:1.一种文本编码方法,其特征在于所述方法如下: S1.对语料集进行数据清洗和预处理; S2.对语料集进行分句、分词; S3.提取相关特征; S31.提取N‑gram特征,作为候选词组; S32.遍历候选词组,对每个词组处理如下: 据词性和句法模板,判断为候选词,根据公式计算新词得分; 为候选词的长度;为候选词的词频统计;subcand为候选词中的子候选词; S33.根据得分按照阈值进行过滤,得到新的候选词组; S34.遍历新的候选词组,对每个词组处理如下: 统计前项词b在文中出现的总次数,Cb,统计后项词a在文中出现的总次数,Ca,根据下列公式,计算新词得分: ,为候选词数量;为以b作为前项词的候选词数量;为统计所有以b作为前项词的候选词的数量累计和;为以a作为后项词的候选词数量,为统计所有以a作为后项词的候选词的数量累计和; S35.根据公式为候选词打上前项联合概率特征,S36.根据公式为候选词打上后项联合概率特征,根据得分按照阈值进行过滤,得到新的候选词组; S37.将过滤后所得候选词集合打上标识; S38.将步骤S35、S36和S37所得特征追加至原有数据中; 所述方法还包括: S4.对句子进行编码表示; S5.在步骤S4编码基础上追加步骤S3所得的三个维度; S6.构建上层模型。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人上证所信息网络有限公司,其通讯地址为:201203 上海市浦东新区张东路1387号37栋;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励