广东工业大学秦景辉获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉广东工业大学申请的专利一种利用对齐的多模态特征进行几何问题推理方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119721234B 。
龙图腾网通过国家知识产权局官网在2026-03-20发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411494117.X,技术领域涉及:G06N5/04;该发明授权一种利用对齐的多模态特征进行几何问题推理方法及系统是由秦景辉;邝洪晖;杨志景设计研发完成,并于2024-10-24向国家知识产权局提交的专利申请。
本一种利用对齐的多模态特征进行几何问题推理方法及系统在说明书摘要公布了:本发明涉及自然语言处理和机器学习领域,公开了一种利用对齐的多模态特征进行几何问题推理方法及系统,包括以下具体步骤:初始化几何问题的训练数据集以及基于预训练的中文CLIP模型的几何问题推理模型;将多模态数据输入几何问题推理模型中进行训练,训练流程中引入动态词表,得到训练好的几何问题推理模型;获取待推理的几何问题并将其输入训练好的几何问题推理模型中,得到几何问题推理结果。本发明解决了现有技术存在的无法充分利用跨模态语义表示对几何问题进行求解的问题,且具有能够产生更精确的推理结果的特点。
本发明授权一种利用对齐的多模态特征进行几何问题推理方法及系统在权利要求书中公布了:1.一种利用对齐的多模态特征进行几何问题推理的方法,其特征在于:包括以下具体步骤: S1、初始化几何问题的训练数据集并构建基于预训练的中文CLIP模型的几何问题推理模型;所述的几何问题推理模型包括基于ChineseCLIP框架的编码器、跨模态融合块、解码器;其中编码器包括基于BERT模型的文本编码器、基于VIT-B16模型的图像编码器;其中,图像编码器去除了VIT-B16模型的倒数第二层的LayerNorm以及最后一层的特征映射; S2、将多模态数据输入几何问题推理模型中进行训练,训练流程具体为: S201、预处理训练数据集,得到多模态数据; S202、对多模态数据进行特征提取; S203、通过对比学习统一图像和文本特征的维度; S204、将统一维度后的图像和文本特征进行对齐和融合,其具体步骤为: 将文本特征和图像特征输入跨模态融合块; 文本特征经过一个由6层self-attention网络和前馈网络堆叠的模块,每一层都会进行残差连接,以进行上下文对齐以及捕捉文本中的语义关系,得到对齐的文本特征: 其中,Norm·是归一化操作; 将文本特征作为引导信息,输入到另一个由6层self-attention网络、cross-attention网络和前馈网络堆叠的模块,对图像特征进行对齐,得到对齐后的图片特征,其中包含了丰富的问题文本以及图像的信息: 使用一个存储经过对齐之后的文本特征,其中,HS为hiddensize,DS为训练集的大小;当Buffer第一次存储到最大长度之后以一定的概率p来进行模态特征对齐; 将图像特征和Buffer中的所有文本特征进行加权组合来获得图像特征在文本特征空间中的融合特征: 将和进行残差连接,并且使用可学习的向量来平衡映射后的输出和输入特征,该向量用0来初始化,以确保输入特征不会因为的加入而被大幅修改: S205、引入动态词表对融合特征进行解码,得到注释程序; S206、根据生成的注释程序求得推理结果; S207、根据推理结果对模型进行迭代优化,得到训练好的几何问题推理模型; S3、获取待推理的几何问题并将其输入训练好的几何问题推理模型中,得到几何问题推理结果。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人广东工业大学,其通讯地址为:510080 广东省广州市越秀区东风东路729号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励