山西大学杨陟卓获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉山西大学申请的专利一种融合CPT和最优化模型的考试阅读理解答案句概括方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115329960B 。
龙图腾网通过国家知识产权局官网在2025-10-17发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210962724.9,技术领域涉及:G06N5/025;该发明授权一种融合CPT和最优化模型的考试阅读理解答案句概括方法是由杨陟卓;蔡志宇;张虎;李茹设计研发完成,并于2022-08-11向国家知识产权局提交的专利申请。
本一种融合CPT和最优化模型的考试阅读理解答案句概括方法在说明书摘要公布了:本发明属于自然语言处理技术领域,公开了一种融合CPT和最优化模型的考试阅读理解答案句概括方法。本发明基于CPT模型对背景材料答案句进行概括总结,并综合使用语义权威度、问题匹配度、依存句法、句子长度等多种因素优化CPT模型输出的文本,生成信息准确、与问题匹配度高、句法结构完整且对答案要点进行归纳概括的答案句,提升了问答型阅读理解系统的概括总结能力。本申请的成果可应用到教育考试辅导平台中,为科技教育提供有效的技术解决方案。
本发明授权一种融合CPT和最优化模型的考试阅读理解答案句概括方法在权利要求书中公布了:1.一种融合CPT和最优化模型的考试阅读理解答案句概括方法,其特征在于:包括以下步骤: 步骤S1,构建概括总结语料库; 步骤S2,使用概括总结语料库对CPT模型进行训练和微调; 步骤S3,将背景材料答案句输入步骤2训练和微调后的CPT模型进行概括总结; 步骤S4,综合语义权威度、问题匹配度和句法结构重要度计算背景材料答案句中词语的可信度; 步骤S5,利用最优化模型优化CPT模型输出的文本,重新生成新的答案句,完成考试阅读理解答案句的概括; 所述步骤S4中综合语义权威度、问题匹配度和句法结构重要度计算背景材料答案句中词语的可信度具体包括以下步骤: 步骤S4.1,根据步骤3CPT模型生成的文本计算词语的语义权威度,CPT模型生成的概括答案句文本表达了原句,即背景材料答案句的主要含义,如果原句中的词语在CPT模型生成的文本中,将词语的语义权威度设为1,否则设置为0; 步骤S4.2,结合Word2Vec和HowNet计算词语与问句的匹配度,词语与问句的匹配度有利于召回原句中与问句更相关的词语,计算公式如下所示: 2 3 其中表示问句去停用词后的词语列表,表示列表中的词语,表示利用Word2Vec计算和的词向量余弦相似度,和分别表示和的词向量,表示通过HowNet计算和的相似度,和为需要设置的正参数,; 步骤S4.3,根据词语在依存句法分析树中的深度计算词语的句法结构重要度;越接近树根节点的词语成为句子主要成分的概率越大,远离根节点、深度越大的词语越有可能对原句的意义没有影响,计算公式如下所示: 4 其中,表示词语在依存句法分析树中的深度,规定树根节点的深度为0,根节点的直接子节点深度为1,依此类推; 步骤S4.4,结合语义权威度、问句匹配度和句法结构重要度三种因素计算词语的可信度: 5 其中、和为需要设置的正参数; 所述步骤S5中利用最优化模型优化CPT模型输出的文本,重新生成新的答案句包括以下步骤: 步骤S5.1,通过词语可信度构造最优化模型目标函数,用于权威信息和冗余词语的选择,保证生成答案句信息的正确性: 6 其中,表示背景材料答案句中词语的个数,表示句中第个词语是否应被删除或保留的标签,如果,词语被保留,如果,词语被删除,表示词语的可信度; 步骤S5.2,引入句法结构完整性、语义正确性以及连贯性约束保证生成答案句的通畅性,同时引入句子长度约束控制生成答案句的长度; 1句法结构完整性约束 在优化的答案句中,如果子节点词被保留,那么它的父节点词也应被保留: 7 其中,是的父节点词,和分别是其对应的标签; 对于某些依存关系,如主谓关系,如果父节点词,即谓语被保留,那么它的子节点词,即主语也应被保留: 8 其中,表示在优化的答案句中,如果父节点词被保留,则子节点词常被保留的一组依存关系:{SBV,VOB,IOB,FOB,POB,ATT,DBL,CMP,WP},根据考试阅读理解答案句概括任务的特性构建;表示子节点词语与其父节点词语的依存关系; 2语义正确性约束 当子节点词和父节点词为并列关系,且父节点词不是句子的核心词,如果父节点词被保留,则子节点词也应被保留,否则答案句表达的语义不完整: 9 其中,表示与其父节点词的依存关系,COO表示子节点词和父节点词为并列关系;HED表示父节点词不是句子的核心词; 否定词影响答案句的语义,当子节点词和父节点词为状中关系,且子节点词包含否定词,如果父节点词被保留,则子节点词也应被保留: 10 其中,ADV表示子节点词和父节点词为状中关系,表示否定词列表no_advlist{不,没,未,别,勿,否,莫,无}中的元素; 3连贯性约束 并列关系连词“和、与、跟、及、以及”可以保证优化答案句的连通性,当子节点词和父节点词为左附加关系,且子节点词是并列关系连词,如果父节点词被保留,则子节点词也应被保留: 11 其中,LAD表示子节点词和父节点词为左附加关系,表示一组并列关系连词:coolist{和,与,跟,及,以及}; 当子节点词和父节点词为右附加关系,且子节点词是“的”或“了”,如果父节点词被保留,则子节点词也应被保留: 12 其中,RAD表示子节点词和父节点词为右附加关系; 4句子长度约束 因为要尽力压缩句子以保证优化后的答案句比原句更简短,但如果优化答案句的压缩率过大,会丢失原句的主要信息,所以需引入句子长度约束控制优化答案句的最大和最小长度: 13 其中,表示原句中词语的个数,和需要设置的正参数,,; 步骤S5.3,在句法结构完整性、语义正确性、连贯性和句子长度的约束下,最大化目标函数,将背景材料答案句的词语序列转化为标签序列;如果,表示词语被保留;如果,表示词语被删除,最后生成与问题匹配度高、句法结构完整且对答案要点进行归纳概括的答案句。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人山西大学,其通讯地址为:030006 山西省太原市坞城路92号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励