厦门理工学院江楠峰获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉厦门理工学院申请的专利基于深度引导的文档图像矫正方法、装置、设备及介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121767245B 。
龙图腾网通过国家知识产权局官网在2026-05-12发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202610248951.3,技术领域涉及:G06T5/80;该发明授权基于深度引导的文档图像矫正方法、装置、设备及介质是由江楠峰;曾健烘;周欣玥;王驰明;陈思;吴芸;王大寒;朱顺痣设计研发完成,并于2026-03-03向国家知识产权局提交的专利申请。
本基于深度引导的文档图像矫正方法、装置、设备及介质在说明书摘要公布了:本发明提供了基于深度引导的文档图像矫正方法、装置、设备及介质,涉及文档图像矫正技术领域,其包括:获取待矫正文档的彩色图像及其深度图像;将彩色图像与位置提示图拼接形成多通道输入张量;将多通道输入张量输入至矫正神经网络模型,得到稠密位移场;其中,矫正神经网络模型包含多个级联的几何注意力块,每个几何注意力块被配置为:基于深度图像生成旋转位置编码和深度感知的分解注意力掩码,并利用编码和掩码对特征图执行行列分解的几何自注意力计算;最后根据位移场对彩色图像进行采样,生成矫正后的文档图像。通过深度信息引导几何建模,并采用行列分解注意力机制,显著复杂变形矫正精度,大幅降低计算复杂度,兼具高效性与鲁棒性。
本发明授权基于深度引导的文档图像矫正方法、装置、设备及介质在权利要求书中公布了:1.一种基于深度引导的文档图像矫正方法,其特征在于,包括: 获取待矫正文档的彩色图像及其对应的深度图像,基于彩色图像构造位置提示图,并将彩色图像与位置提示图进行通道拼接,得到多通道输入张量,其中,所述位置提示图是由彩色图像中每个像素的归一化的二维坐标构成的; 将所述多通道输入张量和深度图像输入预训练好的矫正神经网络模型中,得到一个两通道的稠密位移场,其中,所述矫正神经网络模型包括多个级联的几何注意力块,所述几何注意力块配置为根据深度图像生成旋转位置编码和深度感知的分解注意力掩码,并利用旋转位置编码和深度感知的分解注意力掩码对多通道输入张量进行分解的几何自注意力计算; 根据所述稠密位移场,对彩色图像进行双线性采样处理,生成矫正后的文档图像; 所述矫正神经网络模型采用编码器-解码器架构,包括编码器、瓶颈层和解码器;其中,所述编码器包括多个依次连接的第一几何注意力块和下采样层,用于对输入的特征进行多层次编码;所述解码器包括多个依次连接的上采样层和第二几何注意力块,且所述解码器的第二几何注意力块通过跳跃连接与编码器中对应层次的特征相融合,用于逐步恢复高分辨率特征并输出稠密位移场; 根据深度图像生成旋转位置编码和深度感知的分解注意力掩码,具体为: 对所述深度图像进行归一化处理,并基于预设的频率向量和像素的绝对位置,计算像素对应的正弦分量和余弦分量,得到旋转位置编码; 计算归一化处理后的深度图像中每一行内的所有像素点之间的深度值差异,将其乘以预设的相关衰减系数,生成行方向的第一深度衰减掩码; 计算归一化处理后的深度图像中每一列内的所有像素点之间的深度值差异,将其乘以预设的相关衰减系数,生成列方向的第二深度衰减掩码; 采用曼哈顿距离计算深度图像中所有图像块之间的空间距离,得到空间距离矩阵,通过融合操作构建空间距离矩阵和深度矩阵之间的桥梁,得到基于绝对像素距离的衰减系数,其包括行方向绝对位置衰减参数与列方向绝对位置衰减参数; 将所述第一深度衰减掩码与行方向绝对位置衰减参数进行加权融合处理,生成行注意力掩码; 将所述二深度衰减掩码与列方向绝对位置衰减参数进行加权融合处理,生成列注意力掩码; 根据行注意力掩码和列注意力掩码,得到深度感知的分解注意力掩码。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人厦门理工学院,其通讯地址为:361024 福建省厦门市集美区理工路600号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励