哈尔滨工业大学姚鸿勋获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉哈尔滨工业大学申请的专利一种基于多基础大模型的开放词表分割方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN118799876B 。
龙图腾网通过国家知识产权局官网在2025-11-11发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202410771714.6,技术领域涉及:G06V30/148;该发明授权一种基于多基础大模型的开放词表分割方法是由姚鸿勋;陈希;张慧琮设计研发完成,并于2024-06-15向国家知识产权局提交的专利申请。
本一种基于多基础大模型的开放词表分割方法在说明书摘要公布了:本发明公开了一种基于多基础大模型的开放词表分割方法,所述方法包括如下步骤:步骤一、建立CLIP和SAM图像特征上的两种交互方式后在全景分割训练集样本上进行训练,得到开放词表分割模型;步骤二、测试阶段采用SAM均匀采样点提示生成的掩码预测对最后的开放词表分割结果进行修正。本发明使用CLIP作为图像编码的主要网络,使用SAM作为辅助模型提供细粒度特征理解能力,通过基础模型特征之间的交互增加开放词表分割模型对生成掩码提案的泛化性,以使预训练的基础模型应用到下游细粒度语义理解和识别任务。本发明将SAM的特征注入Transformer解码器内部和CLIP的特征进行交互和学习,使得掩码查询的结果更加精确。
本发明授权一种基于多基础大模型的开放词表分割方法在权利要求书中公布了:1.一种基于多基础大模型的开放词表分割方法,其特征在于所述方法包括如下步骤: 步骤一、建立CLIP和SAM图像特征上的两种交互方式后在全景分割训练集样本上进行训练,得到开放词表分割模型,具体步骤如下: 步骤一一、构建交互框架,所述交互框架使用CLIP图像编码器作为Mask2Former的主干图像编码器,SAM图像编码器作为Mask2Former的辅助图像编码器; 步骤一二、构建融合模块,所述融合模块包括特征注入器和查询注入器,对于Transformer解码器的第层,特征注入器包含一层多头交叉注意力层,CLIP对应层的特征作为查询,SAM特征作为键和值,输出特征;查询注入器包含掩码池化层和特征映射层,特征映射层包含一层LayerNorm层和一层线性映射层,最后输出SAM在该层的掩码查询; 步骤一三、训练时每个训练图像样本经过CLIP图像编码器以及像素解码器获得多层CLIP图像特征,经过SAM图像编码器以及像素解码器获得SAM图像特征; 步骤一四、多层CLIP图像特征和SAM图像特征在Transformer解码器内部层进行交叉注意力的交互; 步骤一五、初始化Mask2Former的个掩码查询向量,经Transformer解码器时在内部层的输出获得中间层的掩码预测,用该掩码预测去池化SAM图像特征获得个SAM查询向量,和经过该层的原掩码查询向量相加; 步骤一六、个SAM查询向量在解码器内部和多层CLIP图像特征进行交互,Transformer解码器每层的最后通过映射获得掩码预测,并计算和CLIP文本编码器输出的训练类别文本向量的余弦相似度分数,作为类别预测;用匈牙利匹配算法给每个查询向量匹配对应的标签; 步骤一七、对于每层的掩码预测和掩码标签计算Dice损失和Sigmoid交叉熵损失,类别预测和类别标签计算交叉熵损失,训练过程中最小化总损失,利用反向传播算法对个查询向量、Transformer解码器和像素解码器的参数进行优化,得到优化后的查询向量和训练后的开放词表分割模型; 步骤二、测试阶段采用SAM均匀采样点提示生成的掩码预测对最后的开放词表分割结果进行修正,具体步骤如下: 步骤二一、将测试数据送入训练好的开放词表分割模型,得到所有掩码查询向量的掩码预测集合和类别预测集合; 步骤二二、将掩码预测二值化后池化CLIP多层特征中最大的特征图,和CLIP编码的文本特征计算相似度分数,得到CLIP对掩码的类别预测; 步骤二三、在测试图像上按照网格点均匀采点,经由SAM提示编码器获得提示向量,和SAM图像特征在掩码解码器中进行交互,获得SAM的掩码预测集合,代表SAM预测的结果数量; 步骤二四、用SAM的掩码预测二值化后池化CLIP的图像特征,和CLIP编码的文本特征计算相似度分数,得到SAM的类别预测集合; 步骤二五、基于开放词表分割模型、CLIP和SAM的最终掩码预测集合和类别预测集合,获得最终的开放词表分割结果。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人哈尔滨工业大学,其通讯地址为:150001 黑龙江省哈尔滨市南岗区西大直街92号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励