Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 一贯智服(杭州)技术有限公司王晶获国家专利权

一贯智服(杭州)技术有限公司王晶获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉一贯智服(杭州)技术有限公司申请的专利一种基于句子表征的短文本相似度匹配方法及应用获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116304728B

龙图腾网通过国家知识产权局官网在2025-07-25发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211666333.9,技术领域涉及:G06F18/22;该发明授权一种基于句子表征的短文本相似度匹配方法及应用是由王晶;陈煜设计研发完成,并于2022-12-23向国家知识产权局提交的专利申请。

一种基于句子表征的短文本相似度匹配方法及应用在说明书摘要公布了:本发明涉及一种基于句子表征的短文本相似度匹配方法及应用,构建针对文本匹配与表征学习的模型,以孪生网络为基础,以基于连续批次数据的正负样本增强方法进行损失计算;训练完成的模型用于短文本相似度匹配;方法应用于税务行业的问答系统,为用户问匹配税务行业的标准问。本发明解决对于相同长度样本的置信度计算偏移的缺陷,加强样本本身的语义表达,增加不同句子中的语义差异的关注概率,降低句子长度对于模型判断的干扰;充分利用历史时间步的连续批次样本中已有的的特征向量,优化当前时间步模型的训练目标,在利用更多样本特征数据的同时不增加训练时长;提升模型预测准确度,节省标注人力成本;特别适用于专业领域。

本发明授权一种基于句子表征的短文本相似度匹配方法及应用在权利要求书中公布了:1.一种基于句子表征的短文本相似度匹配方法,其特征在于:构建针对文本匹配与表征学习的模型,所述模型以孪生网络为基础,以基于连续批次数据的正负样本增强方法进行损失计算;所述正负样本增强方法包括正样本数据增强和组合式负样本构造;所述正样本和负样本的训练集为单独且未标注的对应应用领域的文本; 所述正样本数据增强包括以下步骤: S1.1对于任一正样本,以此正样本与正样本本身组成训练样本对; S1.2查找当前正样本中是否存在对应当前应用领域的专业词,若是,则以对应当前应用领域的专业词对训练样本对中的正样本本身进行重复扩充,所述重复扩充的专业词重复于当前专业词前或后,进行S1.4,否则进行下一步; S1.3在正样本的句子中随机重复选取个字进行重复扩充; S1.4得到正样本的训练样本对与; 所述组合式负样本构造包括批次内的负样本构造和连续批次的负样本构造; 批次内的负样本构造为,任一批次内的负样本对由每个样本与除了自己本身的其它一个训练样本构成;令批次大小为N,学习目标函数为 , 其中,,,表示编码器,与为dropout的两种不同的随机掩码,i为当前样本的下标,j为批次内其他样本的下标,τ为温度超参数,τ>0,sim为相似度计算函数;以大小为M的队列对每个批次内在训练过程中所产生的训练样本的特征向量进行记录,当该队列存储的批次数据大于队列长度时,则最早进入队列的数据出队,收集新的批次内的数据; 连续批次的负样本构造为,负样本对由每个样本与除了自己本身的其他待入队列的批次数据和队列中批次数据构成;训练目标函数为 , 其中,M表示存储连续批次数据的队列长度,表示的是队列中存储的连续批次内的句子向量,以m为索引,,,表示编码器,与为dropout的两种不同的随机掩码,i为当前样本的下标,j为批次内其他样本的下标,τ为温度超参数,τ>0,sim为相似度计算函数; 以训练完成的模型用于短文本相似度匹配。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人一贯智服(杭州)技术有限公司,其通讯地址为:311121 浙江省杭州市余杭区仓前街道海智中心1幢9层904-906;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。