东北大学刘莹获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉东北大学申请的专利一种针对金融领域中医疗行业新闻事件的抽取方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115203551B 。
龙图腾网通过国家知识产权局官网在2026-01-30发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210829394.6,技术领域涉及:G06F16/9535;该发明授权一种针对金融领域中医疗行业新闻事件的抽取方法是由刘莹;姜雨杏;李思铭;陈炯廷;张斌;王广谱;何立洋设计研发完成,并于2022-07-15向国家知识产权局提交的专利申请。
本一种针对金融领域中医疗行业新闻事件的抽取方法在说明书摘要公布了:本发明提供一种针对金融领域中医疗行业新闻事件的抽取方法,涉及信息智能化技术领域。该方法用网络爬虫爬取公开医疗新闻作为数据源,人工总结金融领域医疗新闻事件类型模板并定义关键字,通过关键字定位技术获取待抽取语句数据集,对待抽取语句数据集中的语句进行特征学习,利用融合模式匹配与卷积神经网络的方法进行事件抽取。该方法通过上述步骤完成金融领域医疗行业新闻事件的抽取,以帮助相关从业者对于医疗行业公司、相关医药制品等在金融市场上的发展趋势做分析和预测。
本发明授权一种针对金融领域中医疗行业新闻事件的抽取方法在权利要求书中公布了:1.一种针对金融领域中医疗行业新闻事件的抽取方法,其特征在于:该方法用网络爬虫爬取公开医疗新闻作为数据源,人工总结金融领域医疗新闻事件类型模板并定义关键字,通过关键字定位技术获取待抽取语句数据集,对待抽取语句数据集中的语句进行特征学习,利用融合模式匹配与卷积神经网络的方法进行事件抽取; 该方法的具体步骤为: S1:通过网络爬虫技术获取网站上公开的医疗新闻文本; S2:通过人工总结归纳医疗新闻事件类型模板,人工定义关键字,得到关键字集; S3:构建模式匹配使用的关键字正则表达式,供关键字定位使用; S4:利用关键字定位技术,定位医疗新闻中包含关键字的语句,得到待抽取语句数据集;具体方法如下: S41:文本初始化,将新闻文本按句号分割放入列表S中; S42:文本预处理,去除换行符、空格以及图片; S43:获取每个关键字的正则表达式模板集合M;其中,关键字“医疗名词专有类”对应的正则表达式模板包括“.*专利.*”、“.*药品.*”、“.*研究.*”、“.*制剂.*”、“.*产品.*”、“.*治疗.*”、“.*案例.*”;关键字“公司类”对应的正则表达式模板包括“.*公司.*”、“.*企业.*”;关键字“相关机构类”对应的正则表达式模板包括“.*保障局.*”、“.*药监局.*”、“.*监管局.*”;关键字“政策类”对应的正则表达式模板包括“.*管理局.*”、“.*卫健委.*”、“.*政策.*”、“.*报告.*”、“.*通知.*”、“.*公告.*”; S44:遍历句子列表S中的每一个句子si与正则表达式模板集合M中的每一个模板mi; S45:若si与mi匹配,取出该句子放入待抽取语句数据集; S5:使用Word2vec对待抽取语句数据集中的语句进行特征学习,分别学习字级别的特征向量表示fchar和词级别的特征向量表示fword; S6:由于触发词分类任务和论元抽取任务对字向量和词向量的需求度不同,针对不同任务分别给字向量和词向量分配不同的权重进行特征融合,得到字权重大的特征表示CF和词权重大的特征表示WF; S7:使用字权重大的特征表示CF进行触发词匹配,该过程使用动态多池化卷积神经网络,若不存在触发词,则返回步骤S6选择下一条语句进行触发词匹配;若存在触发词,则使用模式匹配的方式对匹配到的触发词进行限定优化;具体方法如下: S71:将特征融合后字权重大的向量特征CF和相对于候选触发词位置的位置向量特征PF拼接,作为每一个词的词级别的特征; S72:利用卷积神经网络,来捕获多个局部语义特征; S73:对捕获的语义特征进行动态多池化操作,得到句子级别的特征向量; S74:将学习到的句子级别的特征向量输入到分类器中,通过softmax计算每个词匹配不同事件类型的概率,若不存在触发词,则返回步骤S6选择下一条语句进行触发词匹配,若存在触发词,取出概率最大的触发词进行下一步操作; S75:利用模式匹配限定优化抽取结果,以保证抽取过程中分词的正确性; S8:使用词权重大的特征表示WF进行下一步的论元抽取任务,该过程使用动态多池化卷积神经网络,抽取到论元后,使用模式匹配的正则表达式对抽取结果进行限定优化;具体方法如下: S81:将特征融合后词权重大的向量特征WF和相对于候选触发词位置的位置向量特征PF以及触发词所对应的事件类型向量特征EF拼接,作为每一个词的词级别的特征; S82:利用卷积神经网络,来捕获多个局部语义特征; S83:对捕获的语义特征进行动态多池化操作,得到句子级别的特征向量; S84:将学习到的句子级别的特征向量输入到分类器中,通过softmax计算每个词匹配不同论元角色的概率; S85:将抽取到的各个事件论元角色通过模式匹配中的正则表达式限定优化抽取结果,以保证抽取过程中分词的正确性,最终得到抽取结果。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人东北大学,其通讯地址为:110819 辽宁省沈阳市和平区文化路三号巷11号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励