上海人工智能创新中心段浩东获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉上海人工智能创新中心申请的专利一种基于模型解耦的视觉语言推理方法、装置和存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN118709785B 。
龙图腾网通过国家知识产权局官网在2025-08-19发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202410851982.9,技术领域涉及:G06N5/04;该发明授权一种基于模型解耦的视觉语言推理方法、装置和存储介质是由段浩东;乔宇轩;林达华;陈恺设计研发完成,并于2024-06-28向国家知识产权局提交的专利申请。
本一种基于模型解耦的视觉语言推理方法、装置和存储介质在说明书摘要公布了:本发明涉及一种基于模型解耦的视觉语言推理方法、装置和存储介质,方法包括:获取待推理的问题描述和视觉图像,并载入预先构建并训练好的视觉语言推理框架中,获得推理结果;所述视觉语言推理框架包括感知模块和推理模块,所述感知模块用于对所述视觉图像进行文本形式的提取和表达,获得文本信息;所述推理模块用于根据所述问题描述和感知模块输出的文本信息进行文本推理,生成回答结果。与现有技术相比,本发明可以显示地解耦模型的感知能力与推理能力,基于该本框架的评估更接近模型的真实能力,利于优化迭代,使得模型取得更好的推理效果。
本发明授权一种基于模型解耦的视觉语言推理方法、装置和存储介质在权利要求书中公布了:1.一种基于模型解耦的视觉语言推理方法,其特征在于,包括以下步骤: 获取待推理的问题描述和视觉图像,并载入预先构建并训练好的视觉语言推理框架中,获得推理结果;所述视觉语言推理框架包括感知模块和推理模块,所述感知模块用于对所述视觉图像进行文本形式的提取和表达,获得文本信息;所述推理模块用于根据所述问题描述和感知模块输出的文本信息进行文本推理,生成回答结果; 所述感知模块在指令的引导下对视觉图像进行文本形式的提取和表达,所述指令包括通用指令和或问题相关指令; 所述推理模块将所述问题描述和感知模块输出的文本信息,经过推理模板整合为推理模型的输入,从而进行文本推理,生成回答结果; 所述视觉语言推理框架中感知模块和推理模块均采用一种或多种网络模型的组合进行视觉感知或文本推理。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人上海人工智能创新中心,其通讯地址为:200232 上海市徐汇区云锦路701号37、38层;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。