中国电子科技集团公司第十五研究所张昊获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中国电子科技集团公司第十五研究所申请的专利一种信息汇集实时形成主题的方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116303869B 。
龙图腾网通过国家知识产权局官网在2025-11-14发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310075485.X,技术领域涉及:G06F16/31;该发明授权一种信息汇集实时形成主题的方法是由张昊;岳一峰;任祥辉设计研发完成,并于2023-02-07向国家知识产权局提交的专利申请。
本一种信息汇集实时形成主题的方法在说明书摘要公布了:本发明涉及一种信息汇集实时形成主题的方法,属于大数据技术领域,该方法包括:获取输入文本中的关键句;将输入文本中的关键句作为输入文档,获取N个与输入文档相似的候选文档;构建N个对,获取输入文档对应的主题或判断k‑d树中没有输入文档对应的主题;将输入文档的内容特征向量以及输入文档对应的主题存储到k‑d树中。本申请提供的方法通过获取输入文本中的关键句,避免了多余文本干扰;同时,基于k‑d树来存储所有待使用文档的内容特征向量,获取k‑d树中N个与输入文档相似的候选文档,可充分利用所有特征;此外,借助深度学习强大的语义提取能力,选择文档所属主题,从而达到实时、有效的文档主题自动生成能力。
本发明授权一种信息汇集实时形成主题的方法在权利要求书中公布了:1.一种信息汇集实时形成主题的方法,其特征在于,所述方法包括: 计算输入文本中各个句子之间的相似度,根据各个句子之间的相似度计算输入文本中各个句子的第一得分,根据输入文本中的各个句子是否为主旨段,获取输入文本中各个句子的第二得分,根据第二得分获取输入文本中的关键句; 基于k-d树来存储所有待使用文档的内容特征向量,将输入文本中的关键句作为输入文档,获取输入文档的内容特征向量,通过k-d树查询算法获取k-d树中N个与输入文档相似的候选文档; 构建N个输入文档,候选文档对,根据N个输入文档,候选文档对获取BERT预训练模型的输入串,将输入串输入至BERT预训练模型获取长向量,并根据长向量获取输入文档对应的主题或判断k-d树中没有输入文档对应的主题,包括: 构建N个输入文档,候选文档对,分别计算N个输入文档,候选文档对中输入文档的上下文的特征向量与相似文档描述的特征向量; 对输入文档的上下文的特征向量与相似文档描述的特征向量进行字符串直接拼接,获取BERT预训练模型的输入串; 将输入串输入至BERT预训练模型,通过BERT预训练模型对输入串进行转化、变换以及拼接获取一个长向量,包括: 将输入串输入至BERT预训练模型,通过BERT预训练模型对输入串转化为文本向量token_ids_i和位置向量segment_ids_i,其中,i为候选文档的序号; 对每一对文本向量token_ids_i和位置向量segment_ids_i进行Functional变换; 将Functional变换结果输入至concatenate层进行拼接,获取一个长向量; 将长向量输入至预测结果标记处添加无法链接分类标签的MLP多层感知模型中,获取输入文档对应的主题或判断k-d树中没有输入文档对应的主题,包括: 将长向量输入至预测结果标记处添加无法链接分类标签的MLP多层感知模型的Dence层中,Dence层对输入的长向量进行Dense线性变换; 将Dense线性变换结果输入至预测结果标记处添加无法链接分类标签的MLP多层感知模型的Softmax层中,得到每个预测结果的概率分布,将概率最高的预测结果作为输入文档对应的主题,或者判断k-d树中没有输入文档对应的主题; 将输入文档的内容特征向量以及输入文档对应的主题存储到k-d树中。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国电子科技集团公司第十五研究所,其通讯地址为:100083 北京市海淀区北四环中路211号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励