Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
专利交易 商标交易 积分商城 国际服务 IP管家助手 科技果 科技人才 会员权益 需求市场 关于龙图腾 更多
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 同济大学张冬冬获国家专利权

同济大学张冬冬获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉同济大学申请的专利一种基于改进SwinTextSpotter v2的厂站接线图文本鲁棒泛化检测识别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119992563B

龙图腾网通过国家知识产权局官网在2026-05-08发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510068464.4,技术领域涉及:G06V30/19;该发明授权一种基于改进SwinTextSpotter v2的厂站接线图文本鲁棒泛化检测识别方法是由张冬冬;赵宇倩;程大伟设计研发完成,并于2025-01-16向国家知识产权局提交的专利申请。

一种基于改进SwinTextSpotter v2的厂站接线图文本鲁棒泛化检测识别方法在说明书摘要公布了:本发明属于智能电网和计算机视觉领域,特别涉及一种基于改进SwinTextSpotterv2的厂站接线图文本鲁棒泛化检测识别方法。包括如下步骤:步骤1:将输入图像送入基于多模态学习的文本检测识别网络进行训练和预测,通过共享特征提取主干网络,得到共享特征图,进一步送入文本检测模块得到文本检测结果和文本特征图;步骤2:将文本特征图送入视觉特征提取与预测模块得到特征序列,随后将预测的特征序列与字符结构特征提取与预测模块所得到的规范表示进行匹配,得到识别结果;等等。本发明鲁棒地提升了模型对于不规则文本和汉字文本的检测识别精度,提升了对多种类接线图文本检测与识别的泛化性能。

本发明授权一种基于改进SwinTextSpotter v2的厂站接线图文本鲁棒泛化检测识别方法在权利要求书中公布了:1.一种基于改进SwinTextSpotterv2的厂站接线图文本鲁棒泛化检测识别方法,其特征在于,包括如下步骤: 步骤1:将输入图像送入基于多模态学习的文本检测识别网络进行训练和预测,通过共享特征提取主干网络,得到共享特征图,进一步送入文本检测模块得到文本检测结果和文本特征图; 步骤2:将文本特征图送入视觉特征提取与预测模块得到特征序列,随后将预测的特征序列与字符结构特征提取与预测模块所得到的规范表示进行匹配,得到识别结果; 步骤3:将文本识别结果送入微调后处理模块,基于电网先验知识对部分识别结果进行微调,得到最终的文本识别结果; 步骤4:将文本检测结果和文本识别结果与相应真值计算得到检测与识别损失; 步骤5:根据损失,对整个网络模型进行联合优化; 步骤6:将通用场景文本数据集和电网厂站接线图纸数据集各自分为训练集和测试集,使用基于数据挖掘的训练集筛选策略对通用场景训练集进行筛选用作模型预训练,模型微调训练的训练集则为厂站接线图纸训练集,预训练和微调训练均循环执行步骤1-5至网络收敛,保存模型文件; 步骤7:使用新的厂站接线图纸数据集,构建基于文本区域掩码生成的特征提取双流网络进行特征提取,采取基于知识蒸馏的多种类接线图文本检测识别增量学习策略对当前模型进行增量学习; 步骤8:将测试图纸输入通过步骤1-7设计和训练得到的模型中,得到检测和识别结果; 步骤2中: 所述视觉特征提取与预测模块为基于多级注意力的视觉特征提取与预测模块,通过局部注意力和全局注意力分支,提取不同尺度感受野特征,空洞卷积的引入能进一步捕捉远距离像素关系,提高对邻域和全局特征的拟合能力,借助联合优化的特性,通过识别损失优化检测分支,达到修正文本检测分割结果的目的;在文本识别编解码器中增加等比例上采样,降低细小字符特征在序列化过程中的损失,提高细小字符的召回率; 所述字符结构特征提取与预测模块为基于CCR-CLIP的字符结构特征提取与预测模块,构造图像编码器和字符编码器并基于对比损失对模块实施预训练,将字符结构特征引入视觉模型中,从多模态学习的角度提高模型对中文字符的识别能力; 为了提升对多模态预测信息的拟合效果,设计了一种基于对比学习的多模态预测融合模块,将视觉分支的预测和字符结构特征分支的字符规范表示通过两个线性层后相乘,通过一系列卷积结构和线性层提高复杂模型在复杂场景下的文本识别精度; 所述基于多级注意力的视觉特征提取与预测模块包括多级注意力分支、识别转换模块和基于等比例上采样的文本识别编解码器三个子模块;其中, 多级注意力分支包括局部注意力和全局注意力,局部注意力分支采用残差空洞卷积结构和窗口自注意力机制,关注图像局部细节特征;空洞卷积为模型在每一层卷积层中构建多尺度的感受野,有利于模型提取不同粒度的纹理特征,残差结构则在反向传播的过程中学习并保存更多细微的空间信息,基于此,残差空洞卷积结构使不规则文本区域的特征能更准确地被提取出来,文本内部的不规则字符也能在后续的注意力机制中被赋予更合理准确的权重;具体为: 将RoI特征图送入输入残差空洞卷积结构,如下式: 其中,由一个卷积核大小为5×5,扩张率为2的空洞卷积层和一个层构成;接下来,将拟合的特征馈送到窗口自注意力中捕获局部依赖性,如下式: 其中,分别表示自注意力机制中的查询、键、值矩阵,是键值矩阵的维度,是一个窗口中的采样点个数;是相对位置偏差,通过的引入来实现对自注意力权重矩阵进行相对位置编码,从而构造图像窗口内的局部依赖关系;最后,将得到的窗口自注意力拟合结果通过前馈神经网络得到特征的非线性变换,使网络能够捕获更高阶的图像特征;全局注意力分支采用空洞卷积和多头自注意力机制,关注图像的全局轮廓特征;采用空洞卷积提高卷积感受野,得到拟合邻域空间信息的特征图,将该特征图作为查询矩阵,经过全局平均池化的特征图作为键、值矩阵,通过多头自注意力实现全局依赖性的捕获,如下式: 其中,为全局平均池化层,为多头自注意力机制,取8;通过上述结构,经空洞卷积处理的输入特征图像的每个位置通过与全局特征进行交互,形成自注意力输出,在每个位置与整体图像全局信息进行对比,以提取长距离依赖和全局上下文关系;通过多头设置,这一结构从不同子空间中捕捉到丰富的上下文信息,提高了网络在复杂场景下的特征表达能力和全局特征拟合效果; 所述识别转换模块为SwinTextSpotterv2网络原始结构,用于生成文本区域紧密掩码,实现文本检测和识别两阶段联合优化; 基于等比例上采样的文本识别编解码器总体沿用SwinTextSpotterv2的架构;在原始SwinTextSpotterv2的文本识别编解码器架构基础上,在序列编码中引入一个双线性插值上采样层,将文本特征图升维成,使图像高度上的细节更为丰富,像素点更为平滑,这样在下采样时保留更多的高频信息。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人同济大学,其通讯地址为:200092 上海市杨浦区上海市四平路1239号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。