浙江大学医学院附属邵逸夫医院;浙江大学刘华锋获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉浙江大学医学院附属邵逸夫医院;浙江大学申请的专利基于千问大模型指导主干网络进行图像分割的方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120318522B 。
龙图腾网通过国家知识产权局官网在2025-09-26发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510795227.8,技术领域涉及:G06V10/26;该发明授权基于千问大模型指导主干网络进行图像分割的方法是由刘华锋;林佳骏;胡红杰设计研发完成,并于2025-06-15向国家知识产权局提交的专利申请。
本基于千问大模型指导主干网络进行图像分割的方法在说明书摘要公布了:本发明公开了基于千问大模型指导主干网络进行图像分割的方法,包括:将训练集中的文档图片输入到UNet主干分割网络中,得到特征图;将文档图片和人工设计的提示输入千问2多模态大模型中,获得其隐藏层的特征信息;将特征信息放入可变形代理注意力机制中进行融合,得到语义与视觉特征互相融合的更加完整的信息;将可学习的查询向量和融合信息放入解码器层中等步骤,本发明加快模型的收敛速度,使模型训练更加稳定。不仅可以减少计算开销,降低显存使用,同时还能加强代理量获取的灵活性,让模型更加自适应地学习到合理、有用的知识,得到更加灵活的注意力,有效地通过千问的指导,提高了主干分割网络的性能,对文档图片进行了较为清晰地分割。
本发明授权基于千问大模型指导主干网络进行图像分割的方法在权利要求书中公布了:1.一种基于千问大模型指导主干网络进行图像分割的方法,其特征在于,包括: 1)构建整体模型,所述的整体模型包括千问2多模态大模型、UNet主干分割网络、融合模块、解码模块; 所述的千问2多模态大模型用于获取文档图片和提示,输出视觉特征信息和语义特征信息发送给融合模块; 所述的UNet主干分割网络用于获取文档图片,产生粗粒度特征图,用于最后的预测; 所述的融合模块用于接收千问2多模态大模型输出的视觉特征信息和语义特征信息,输出高级融合特征发送给解码模块; 所述的解码模块用于接收可学习查询向量和高级融合特征,输出学习后的查询向量,再将学习后的查询向量与粗粒度特征图产生预测掩膜; 2)获取训练集中的文档图片,通过UNet主干分割网络得到特征图,同时获取文档图片和提示,通过千问2多模态大模型获得其隐藏层的特征信息,所述的特征信息包括视觉特征信息和语义特征信息; 3)所述的隐藏层的特征信息通过可变形代理注意力机制进行融合,得到语义特征信息与视觉特征信息互相融合的更加完整的高级融合特征; 4)所述的可学习的查询向量和步骤3)得到的更加完整的高级融合特征通过整体模型的解码模块,可学习的查询向量学习高级融合特征中的知识,得到学习后的查询向量; 5)将学习后的查询向量与步骤2)中UNet主干分割网络输出的特征图相乘,得到最终的预测掩膜; 所述的步骤3)中的高级融合特征,是以视觉特征信息为查询向量,语义特征信息作为键值向量,输入到可变形代理注意力机制中进行交互得到的值,且融合过程中有多层可变形代理注意力机制,即融合部分使用了多层堆叠的结构,视觉特征信息被语义特征信息多次交互,最终得到高级融合特征,所述的高级融合特征的尺寸与视觉特征信息的尺寸相同。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人浙江大学医学院附属邵逸夫医院;浙江大学,其通讯地址为:310016 浙江省杭州市上城区庆春东路3号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。