恭喜中国科学院软件研究所石万东获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜中国科学院软件研究所申请的专利一种面向热点话题的渐进式观点抽取方法和系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN113849628B 。
龙图腾网通过国家知识产权局官网在2025-06-24发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202111075709.4,技术领域涉及:G06F16/335;该发明授权一种面向热点话题的渐进式观点抽取方法和系统是由石万东;王宏安;朱嘉奇;陈辉;杨翊;张佳雯设计研发完成,并于2021-09-14向国家知识产权局提交的专利申请。
本一种面向热点话题的渐进式观点抽取方法和系统在说明书摘要公布了:本发明公开了一种面向热点话题的渐进式观点抽取方法和系统。该方法为:提供先验知识;基于先验知识构建种子事件结构图,图中包含观点信息结点以及代表观点元素间关系的边;结合当前阶段的事件结构图和数据进行观点抽取模型的训练和预测,训练结束后给出当前阶段数据的预测结果;去掉已经存在于事件结构图中的观点,将新观点提交给专家进行确认;将专家返回的确认结果进行筛选,去掉不合格的观点,将合格观点添加到事件结构图中;再次返回至观点抽取步骤,如此循环进行直至观点抽取模型达到收敛。本发明将历史信息用于同一话题下新文本观点抽取,能有效减缓不均衡热点话题数据集带给神经模型的影响,在少量标注数据下就能获得高质量的观点信息。
本发明授权一种面向热点话题的渐进式观点抽取方法和系统在权利要求书中公布了:1.一种面向热点话题的渐进式观点抽取方法,其特征在于,包括以下步骤: S01、提供先验知识,包括将热点话题下的社交文本分成多个阶段,给出对应话题的视角类别集合和部分观点,对于每个视角类别添加少量能够反映类别信息的种子词汇; S02、基于先验知识构建种子事件结构图,图中包含观点信息结点以及代表观点间关系的边; S03、结合上一阶段更新后的事件结构图或种子事件结构图对当前阶段文本流进行观点抽取模型的训练和预测,训练结束后给出当前阶段文本流的预测结果; S04、使用基于词语相似度的词语聚类过滤算法对观点抽取模型的预测结果进行过滤,过滤掉已经存在于事件结构图中的观点,将新观点提交给专家进行确认; S05、将专家返回的确认结果进行筛选,去掉标记为不合格的观点,将合格观点添加到事件结构图中以对事件结构图进行更新,再次返回至S03,如此循环进行直至观点抽取模型达到收敛,将收敛后的观点抽取模型的预测结果作为最终的观点抽取结果; 所述步骤S02中,通过以下步骤来构造事件结构图中词汇结点之间的连边: 2.1构建观点内部连边,将观点三元组中的视角词、观点词和情感词atj,otj,sej分别作为结点,并将atj、otj连边和otj、sej连边,其中1≤j≤M,M为事件结构图中观点总数; 2.2计算视角词与视角类别的相似度,对于每个视角词atj,计算其与类别k中种子词acz的cosine相似度wordSimj,z,将所有种子词的相似度平均值作为视角词与视角类别的相似度categorySimj,k,并对所有的视角类别相似度使用sigmoid函数转化;相似度计算公式如下: 其中,categoryScorej,k表示视角词与视角类别相似度得分,acz表示属于视角类别k的种子词z词向量,ck表示视角类别k下种子词集合,|ck|表示视角类别k下种子词总数,z表示视角类别k中的种子词; 2.3判断视角词视角类别,如果视角词i与视角类别k分数大于阈值σ,那么将类别k结点与视角词i连边; 2.4将所有视角类别结点与头结点root连边,增强图的连通性; 所述步骤S03中,通过如下步骤得到文本观点三元组抽取结果: 3.1得到视角词和观点词,使用预训练模型BERT得到输入序列中每个token的向量表示,使用一一枚举的方法得到由连续token构成区块的隐表示Spi,j,其中0≤i≤j≤lengthinput;使用前馈神经网络计算区块的标签概率,每个情感标签τ∈{A,O,null},分别代表属于视角词、观点词及其它; 3.2基于事件结构图生成证据向量,筛选掉标记为null的区块,视角词区间和观点词区间两两组合构成情感分析元组候选集Scandidates;对于每个观点二元组区块组合atj,otj∈Scandidates,计算其与事件结构图的注意力分数并生成证据向量,相关公式如下: 其中Wτ是计算情感类别τ时训练参数,表示事件结构图中情感类别τ下的观点二元组的视角词、观点词拼接后的累加和,表示待分类元组[ati,oti],η是调节视角词和观点词注意力计算的超参数,表示拼接,k表示该情感类别下观点二元组总数,τ′表示情感类别集合SE下单个情感,ατ为候选元组与事件结构图情感类别τ的注意力分数,βj为候选元组与情感类别下单个元组的注意力分数,ατ′表示二元组与情感类别τ′注意力分数,Wa表示待学习视角词注意力参数,Wo表示待学习观点词注意力参数,K表示情感类别τ下元组总数,j′表示情感类别τ下单个元组,βj′表示情感类别τ下元组j′的注意力分数;最终得到证据向量E,计算公式为: E=∑t∈SEEτ·ατ 3.3进行元组合法性判断和情感计算,将候选元组与证据向量进行拼接,通过前馈神经网络进行标签r∈R∪null概率计算,R为预定义情感类别,null表示元组元素之间无任何情感联系。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国科学院软件研究所,其通讯地址为:100190 北京市海淀区中关村南四街4号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。