恭喜浙江大学庄越挺获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜浙江大学申请的专利基于多模态大模型的文本到图像生成模型评估方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120071055B 。
龙图腾网通过国家知识产权局官网在2025-07-04发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510546309.9,技术领域涉及:G06V10/776;该发明授权基于多模态大模型的文本到图像生成模型评估方法及系统是由庄越挺;苗嘉旭;孟楚天;马凡;张弛;杨易设计研发完成,并于2025-04-28向国家知识产权局提交的专利申请。
本基于多模态大模型的文本到图像生成模型评估方法及系统在说明书摘要公布了:本发明公开了一种基于多模态大模型的文本到图像生成模型评估方法与系统。本发明包括多层次图像信息提取与图像特征矩阵构建、分层文本提示生成与优化、生成图像批量化生成、交互式图像对比与评分、多维反馈与提示修订多个步骤,通过重复执行这些步骤流程动态调整生成策略,直至满足预设停止条件。最终,根据参考图像与最优生成图像的多维视觉评估结果,全面分析目标生成模型的性能表现。本发明的评估方法通过图像再生成任务,使生成模型能够基于参考图像的内容和风格进行精准生成,克服了现有评估方法在跨模态信息对齐方面的不足,具有较高的应用价值。
本发明授权基于多模态大模型的文本到图像生成模型评估方法及系统在权利要求书中公布了:1.一种基于多模态大模型的文本到图像生成模型评估方法,其特征在于,包括: S1、利用多模态大语言模型对参考图像进行多层次分析,首先提取参考图像中整体宏观的全局特征,然后根据全局特征筛选出参考图像中的关键对象,对两两关键对象之间的交互关系进行识别和重要度评分从而筛选出重要交互关系,针对每个重要交互关系对应的两个关键对象生成交互关系描述,最后进一步抽取每个关键对象在参考图像中显示的细粒度特征信息构建关键对象信息表,并将所述交互关系描述合并至关键对象信息表中,以所述全局特征和所述关键对象信息表作为多层次分析最终输出的图像特征矩阵信息; S2、基于图像特征矩阵信息生成初始文本提示,并对初始文本提示进行同义扩展和语义增强,生成多样化文本提示集; S3、利用所述多样化文本提示集驱动待评估的文本到图像生成模型进行图像生成,得到生成图像集合; S4、通过计算生成图像集合中每张生成图像与参考图像之间的语义相似度、视觉相似度和结构相似度,以结合三个相似度的综合评分来评估每张生成图像的质量,并选出综合评分最高的最优生成图像及对应的最优文本提示; S5、利用多模态大语言模型分析最优生成图像与参考图像在语义、视觉和结构方面的差异,基于差异分析结果对所述最优文本提示进行反馈改进后将其作为新的初始文本提示; S6、不断迭代执行S2~S5,直至满足预设停止条件,获得最终的多维视觉评估与量化分析结果。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人浙江大学,其通讯地址为:310058 浙江省杭州市西湖区余杭塘路866号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。