Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 浙江大学周晟获国家专利权

浙江大学周晟获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉浙江大学申请的专利一种基于双次识别定位增强的移动应用无障碍字幕识别方法和装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119763089B

龙图腾网通过国家知识产权局官网在2025-11-18发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411808250.8,技术领域涉及:G06V20/62;该发明授权一种基于双次识别定位增强的移动应用无障碍字幕识别方法和装置是由周晟;诸薪俊;卜佳俊;沈铭;顾铭设计研发完成,并于2024-12-10向国家知识产权局提交的专利申请。

一种基于双次识别定位增强的移动应用无障碍字幕识别方法和装置在说明书摘要公布了:一种基于双次识别定位增强的移动应用无障碍字幕识别方法和装置,其方法包括,通过自动化遍历脚本自动采集移动应用无障碍字幕数据集,构建训练和测试数据集,并在训练测试过程中记录错误案例;进行图像预处理优化;基于优化后的模型在训练测试中产生的错误案例,采取去除下划线及应用基于像素列连续性的切分算法策略;根据测试结果中出现的未识别到字符情况,修改处理流程,仅调用文字内容识别模块,并基于YOLO训练一个移动应用无障碍字幕文本位置目标检测模型基于YOLO再次训练一个字幕消息框位置检测模型,通过先定位消息框位置,再定位文本位置的二次识别方法。本发明在背景干扰、字幕过长及多行字幕情况下,展现出较高的鲁棒性和准确性。

本发明授权一种基于双次识别定位增强的移动应用无障碍字幕识别方法和装置在权利要求书中公布了:1.一种基于双次识别定位增强的移动应用无障碍字幕识别方法,其特征在于,包括以下步骤: S101:通过自动化遍历脚本获取移动应用无障碍字幕数据集,用于训练和测试; S102:对于所采集的数据集进行图像预处理,包括色块填充、图像二值化处理以及图片放大,以提升对字幕内容的识别精度; S103:进一步对于数据集进行图像预处理,包括截去图片中的下划线,并应用基于像素列连续性的切分算法,以减少长字幕以及多行字幕未识别或误识别的现象;具体包括: S1031:将图片中下划线的部分截去; S1032:将图像拆分为左右两部分,相当于将长字幕分割为两部分,分别进行识别后再将识别结果拼接在一起;具体分割位置为从中间向左,检测多个像素列由非零值变为零值的过渡列,计算相邻列之间的距离,并根据间距最大的列进行划分,同时对最短间距进行限制; S104:修改PaddleOCR源码中的pipeline,仅调用文字识别模块; S105:利用YOLO训练无障碍字幕文本位置检测模型,以替代PaddleOCR的文字位置检测模块; S106:根据无障碍字幕背景干扰的特点,利用YOLO训练无障碍字幕消息框位置检测模型,采用双次目标识别的方式优化无障碍字幕位置检测模型;具体包括: S1061:测量字幕文字的宽度、高度、文字间隔及字幕弹框的起始高度,基于上述信息和字幕文本,计算消息框区域的位置,并将四点位置信息转换为YOLO标签格式,用于后续的YOLO目标检测模型训练; S1062:采用双次目标识别方式,首先识别消息框的位置,再识别文本块在消息框中的位置,利用PaddleOCR的文字识别模块识别文本块中的文字,并按高度顺序拼接识别结果; S107:将无障碍字幕图片输入到字幕消息框位置检测模型,获取字幕消息框位置信息后,将其输入无障碍字幕文本位置检测模型,获取字幕文本位置信息后,再输入至PaddleOCR的文字识别模块,从而获得无障碍字幕识别的最终识别结果。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人浙江大学,其通讯地址为:310058 浙江省杭州市西湖区余杭塘路866号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。