合肥讯飞数码科技有限公司洪帅获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉合肥讯飞数码科技有限公司申请的专利文本聚类方法以及相关装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114328910B 。
龙图腾网通过国家知识产权局官网在2025-07-15发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202111396748.4,技术领域涉及:G06F16/35;该发明授权文本聚类方法以及相关装置是由洪帅;张浩宇;吴飞;方四安;柳林;徐承设计研发完成,并于2021-11-23向国家知识产权局提交的专利申请。
本文本聚类方法以及相关装置在说明书摘要公布了:本申请提供了一种文本聚类方法以及相关装置,该文本聚类方法包括:获得多个文档;响应于多个文档中存在字符长度超过阈值的待处理文档,对待处理文档进行降维处理以使得待处理文档的字符长度小于或等于阈值;对字符长度小于或等于阈值的所有文档进行聚类以获得至少一个聚类簇;针对每个聚类簇生成对应的摘要。通过这种设计方式,对PGNet模型进行了改进,使其能够同时处理多篇文档,得到多篇章文档的共同摘要,基于PGNet模型的多篇章的文本短描述生成方法,解决了传统方案中只能实现单个文档的摘要生成的缺陷。
本发明授权文本聚类方法以及相关装置在权利要求书中公布了:1.一种文本聚类方法,其特征在于,包括: 获得多个文档; 响应于多个所述文档中存在字符长度超过阈值的待处理文档,对所述待处理文档进行降维处理以使得所述待处理文档的字符长度小于或等于所述阈值; 对字符长度小于或等于所述阈值的所有所述文档进行聚类以获得至少一个聚类簇; 针对每个所述聚类簇生成对应的摘要; 所述摘要基于训练后的MD_PGNet模型获得;其中,训练所述MD_PGNet模型的步骤,包括:构建多个训练文本簇,每个所述训练文本簇中包括相似度超过预设值的多个训练文档,且每个所述文本簇设置有对应的摘要标签;将同一个训练文本簇中的多个训练文档中的单词依次并行输入至所述MD_PGNet模型中;获得当前时间步下所述MD_PGNet模型中解码获得的所有单词的解码状态向量、以及解码获得的所有单词对应的编码状态向量;基于所述解码状态向量和所述编码状态向量获得所述训练文本簇的平均注意力;基于所述平均注意力、所述解码状态向量和所述摘要标签获得拷贝权重概率、以及基于所述解码状态向量和所述编码状态向量获得当前时间步下的生成词概率;基于所述拷贝权重概率和所述生成词概率获得当前时间步下的预测词概率;基于所述预测词概率和所述训练文本簇内所有训练文档的覆盖向量的损失获得总损失,并根据所述总损失调整所述MD_PGNet模型中的参数; 其中,所述基于所述解码状态向量和所述编码状态向量获得所述训练文本簇的平均注意力的步骤,包括:基于每个所述单词的所述解码状态向量和所述编码状态向量获得所述单词的注意力权重;针对非首个单词,基于所述注意力权重和覆盖向量更新非首个单词的注意力权重;获得每个训练文本中已解码获得的所有单词的注意力权重的和值,并将每个训练文本的所述和值乘以对应的篇章权重系数以获得第一数值;将所述训练文本簇内所有训练文本的第一数值的平均值作为所述平均注意力。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人合肥讯飞数码科技有限公司,其通讯地址为:230000 安徽省合肥市高新区望江西路666号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。