桂林电子科技大学强保华获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉桂林电子科技大学申请的专利一种基于字词特征和指针网络的中文事件抽取方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119514534B 。
龙图腾网通过国家知识产权局官网在2026-01-30发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411608235.9,技术领域涉及:G06F40/284;该发明授权一种基于字词特征和指针网络的中文事件抽取方法及系统是由强保华;柳煜文;徐正丽;谢元设计研发完成,并于2024-11-12向国家知识产权局提交的专利申请。
本一种基于字词特征和指针网络的中文事件抽取方法及系统在说明书摘要公布了:本发明提供了一种基于字词特征和指针网络的中文事件抽取方法及系统,所述方法包括如下步骤:将原始中文序列输入到BERT模型中,进行切分并编码转换成高维向量以实现分字处理,并采用jieba分词工具对文本进行分词处理;将字符级向量和词级别向量分别输入到BiLSTM网络中进行字词特征提取,通过注意力机制进行字词特征融合;利用双序列指针网络分别识别触发词和论元的起始位置,实现从文本中抽取。本发明的中文事件抽取方法在于解决中文事件抽取中存在的语义表征不充分、角色重叠和论元嵌套等问题,提高事件抽取模型的准确率和泛化能力。
本发明授权一种基于字词特征和指针网络的中文事件抽取方法及系统在权利要求书中公布了:1.一种基于字词特征和指针网络的中文事件抽取方法,其特征在于,包括如下步骤: 将原始中文序列输入到BERT模型中,进行切分并编码转换成高维向量以实现分字处理,并采用jieba分词工具对文本进行分词处理; 将字符级向量和词级别向量分别输入到BiLSTM网络中进行字词特征提取,通过注意力机制进行字词特征融合; 利用双序列指针网络分别识别触发词和论元的起始位置,实现从文本中抽取; 所述融合的方法包括如下步骤:用向前的LSTM网络计算第i个字符左边部分的状态同时采用一个反向的LSTM网络计算第i个字符右边部分的状态则hi就是和两个隐向量拼接后的隐向量序列,H表示从1到i的隐向量序列合并的结果,即为BiLSTM的输出结果,具体公式如下: H=[h1,h2,…,hn] 其中ri表示输入的文本嵌入; 假设进行词嵌入编码后的向量为V=[v1,v2,…,vn],通过如下公式计算注意力权重: [a1,a2,…,an]=softmaxlinemaxV 算出每个词的重要程度,将每个词的向量和对应的权重相乘并相加,可用如下公式表示: 得到加权后的词向量Vattn; 将加权后的词嵌入向量与字符向量进行拼接,得到融合后的字词向量表示,记为H=[h1,h2,…,hn],其中hn是第n个字符的融合向量; 所述双序列指针网络由编码器、解码器与注意力机制构成,编码器为BiLSTM,将输入序列转化为隐状态向量;解码器为LSTM,每一步生成一个指向输入序列中某位置的概率分布; 利用双序列指针网络分别识别触发词和论元的起始位置,实现从文本中抽取的方法包括如下步骤: 针对原始数据集中的标注如下: L=E,Ti_s,Ti_e,R,Ar_s,Ar_e 其中,L表示一个端到端的标签,E代表事件类型,Ti_s和Ti_e分别表示触发词的起始位置和结束位置,R表示论元角色,Ar_s和Ar_e分别表示论元起始位置和结束位置,对此将其定义如下: 其中,C为单个事件文本对应得到的全部标签集。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人桂林电子科技大学,其通讯地址为:541004 广西壮族自治区桂林市金鸡路1号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励