陕西丝路数智领航科技有限公司雷博获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉陕西丝路数智领航科技有限公司申请的专利融合语义语法树与反射率感知的头盔佩戴多模态检测方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120510491B 。
龙图腾网通过国家知识产权局官网在2026-01-30发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510655543.5,技术领域涉及:G06V10/82;该发明授权融合语义语法树与反射率感知的头盔佩戴多模态检测方法是由雷博;王彬彬;许志锋;万靖宇;伍班鑫;孙晓宇;丁雷;张涛设计研发完成,并于2025-05-21向国家知识产权局提交的专利申请。
本融合语义语法树与反射率感知的头盔佩戴多模态检测方法在说明书摘要公布了:本发明公开了融合语义语法树与反射率感知的头盔佩戴多模态检测方法,S1:输入阶段:接收图像和文本对输入作为检测目标;S2:HelmetGuard‑DINO模型处理阶段:输入的图像进入由SwinTransformer构成的图像主干网络;通过分层结构输出4级特征图;在C5阶段引入动态卷积核,利用文本嵌入动态调整卷积权重;文本编码器处理:基于12层BERT模型构建的文本编码器对输入文本进行处理;特征增强层融合:运用双向跨模态注意力机制计算视觉到语言的注意力权重;提高检测精度:通过CBAM注意力模块对特征的增强作用,使模型能够更精准地聚焦于目标区域,突出关键特征,抑制背景噪声,从而有效提高了检测精度;增强召回率:CBAM模块的引入,尤其在特征金字塔网络中的应用,提升对小目标的召回率。
本发明授权融合语义语法树与反射率感知的头盔佩戴多模态检测方法在权利要求书中公布了:1.融合语义语法树与反射率感知的头盔佩戴多模态检测方法,其特征在于:具体步骤包括:S1:输入阶段:接收图像和文本对输入作为检测目标; S2:HelmetGuard-DINO模型处理阶段: 图像主干网络处理:输入的图像进入由SwinTransformer构成的图像主干网络;在SwinTransformer的PatchMerging层后插入时空去模糊单元,通过3D卷积学习骑行运动轨迹特征: ; 其中为当前帧特征,相邻帧特征通过视频缓冲区动态缓存,有效抑制因骑行速度导致的运动模糊;Conv3D为3D卷积:在视频或连续帧序列3D体积:时间Tx高度Hx宽度W上滑动,提取时空特征;卷积核本身也是三维的depthxheightxwidth,在时间维度上也有延伸; LSTM是一种特殊的循环神经网络,其核心是解决标准RNN在处理长序列时遇到的“长期依赖遗忘”问题;它通过精妙的“门控机制”和“细胞状态”来实现;细胞状态:它贯穿整个时间线,负责在序列中远距离地携带信息;它的改变是缓慢且受控的; 门控机制:控制信息流入、保留和流出的“开关”,由Sigmoid函数和逐点乘法实现; 遗忘门:决定从细胞状态中丢弃哪些旧信息; 输入门:决定将哪些新信息存入细胞状态; 输出门:基于当前的输入和细胞状态,决定输出什么信息给下一个时间步和作为当前隐状态; 该网络通过分层结构输出4级特征图;在C4阶段增加反射率感知分支,利用HSV色彩空间的饱和度通道S和亮度通道V生成高反光区域掩膜: ; ; 其中为可学习头盔反光模板;F是需要被"修复"或"增强"的原始特征;MLP是多层感知机的简称,它是最经典、最基础的一种人工神经网络结构;其核心构成是: 全连接层:层中的每个神经元都与上一层的所有神经元相连; 非线性激活函数:嵌套在层与层之间,使网络能够学习和模拟复杂的非线性关系;在C5阶段引入动态卷积核,利用文本嵌入动态调整卷积权重,以此提升对不同场景和目标的特征提取能力; 具体过程:对于特征图上每一个空间位置i,j的二维向量[s,v],MLP都会独立地对其进行处理;进行如下计算: 第一层:将2维输入映射到更高维度,引入非线性,学习S和V之间的初级交互特征; 中间层:进一步组合这些特征,形成更高级的表示,识别“亮但饱和”可能不是反光,而“亮且不饱和”很可能是反光; 输出层:将高维特征映射到一个单值标量,代表该像素点是“高反光区域”的原始得分; 输出与激活:σ... σ指Sigmoid激活函数;它将MLP输出的原始得分压缩到0,1区间; 最终得到的Mreflect是一个与输入图像同空间尺寸[H,W]的掩膜,其中每个像素的值表示该位置属于高反光区域的概率;值越接近1,反光可能性越大; 文本编码器处理:基于12层BERT模型构建的文本编码器对输入文本进行处理;合规性语法树嵌入: 将安全标准文本解析为语法树结构,通过图神经网络GNN生成规则嵌入向量,与原始文本特征融合: ; 为动态权重系数,通过注意力机制学习;LayerNorm是“层归一化”的简称,它是在单个样本的特征维度上,将数据重新调整为均值为0、方差为1的标准分布; -危险行为关键词强化: 构建骑行危险行为词库,在BERT的Self-Attention层中注入关键词偏置: ; 为关键词位置偏置矩阵,由场景风险等级预测模块动态生成; QKT是BERT的Self-Attention层中最核心的计算,代表查询矩阵Q和键矩阵K的转置之间的矩阵乘法; 特征增强层融合:运用双向跨模态注意力机制,给定视觉特征V和文本特征L,其计算过程如下 ; 其中,Qv=VWq是视觉特征的查询投影,Wq是可学习权重矩阵;Kl=LWk是文本特征的键投影,Wk是可学习权重矩阵;Vl=LWv是文本特征的值投影,Wv是可学习权重矩阵;dk是键向量的维度,用于缩放点积结果,避免梯度消失;Softmax沿文本序列维度即Kl的序列长度归一化注意力权重; 计算视觉到语言的注意力权重;将图像主干网络提取的视觉特征与文本编码器输出的文本特征进行深度融合,形成具有语义一致性的跨模态表示; 语言引导查询选择:将文本特征映射为初始对象查询; 跨模态解码器处理:由6个级联的Transformer层组成的跨模态解码器,在每层同时处理视觉特征和语言特征;在解码过程中,计算每个预测框与文本描述的相似度得分,最终选择得分最高的预测作为REC任务输出;对于OD任务,则输出带有相应名词短语的目标框; S3:CBAM注意力模块处理阶段: 特征金字塔网络集成:将CBAM嵌入特征金字塔网络FPN的横向连接处,其数学表达为 ; 其中Mc和Ms分别代表通道与空间注意力映射,表示逐元素乘法,Fin为输入特征图,,其中C、H、W分别为通道数、高度和宽度; 与SwinTransformer协同:当CBAM与SwinTransformer结合时,Swin的窗口自注意力机制与CBAM的局部注意力形成互补;前者捕获长距离依赖关系,后者强化局部细节特征; 跨模态任务优化:在处理Image,Text对输入的跨模态任务时,跨模态CBAM变体在特征增强阶段引入文本嵌入向量作为注意力引导信号; S4:经过HelmetGuard-DINO模型与CBAM注意力模块的协同处理,最终输出目标检测结果。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人陕西丝路数智领航科技有限公司,其通讯地址为:710000 陕西省西安市西咸新区沣西新城先河之星4层414室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励