华中科技大学李长获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉华中科技大学申请的专利一种基于多模态大模型的风险内容识别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119339419B 。
龙图腾网通过国家知识产权局官网在2025-10-28发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411330377.3,技术领域涉及:G06V40/16;该发明授权一种基于多模态大模型的风险内容识别方法是由李长;万金鹏;张凯乐;王鹏杰;匡嚞玢;肖文清;管海粟;郑汉东;刘禹良设计研发完成,并于2024-09-24向国家知识产权局提交的专利申请。
本一种基于多模态大模型的风险内容识别方法在说明书摘要公布了:本发明涉及人工智能技术领域,提供了一种基于多模态大模型的风险内容识别方法。方法包括:识别音频中的伪造部分;对目标人脸图像提取底噪特征和高频特征输入图像分割模型,定位伪造区域;对目标人脸图像进行切块,将切块得到的局部区域图像和全局图像输入视觉编码器提取视觉特征;计算文本特征和全局图像特征对局部图像特征的注意力,丢弃注意力小的局部图像特征;将音频分割模型、图像分割模型的输出、图像特征和问题输入大语言模型中,总结出风险点。本发明通过整合多种数据来源,并基于多模态大模型进行风险识别,提高了识别的准确性和鲁棒性,还能够有效应对多种诈骗手段,解决了现有技术无法应对多个模态的数据和缺乏可解释性的问题。
本发明授权一种基于多模态大模型的风险内容识别方法在权利要求书中公布了:1.一种基于多模态大模型的风险内容识别方法,其特征在于,方法包括: 在步骤201中,将音频输入到音频分割模型LATDL中,音频分割模型LATDL用于将音频转化为文本,并识别出音频中伪造的部分,输出相应的音频对应的文本特征; 在步骤202中,对目标人脸图像进行预处理,提取底噪特征和高频特征,将其输入到图像分割模型ForgerySAM中,以定位目标人脸图像中的伪造区域; 在步骤203中,预先定义了一系列长宽比,包括1:1、1:2、1:3、2:3、3:4、1:12、2:1、3:1、3:2、4:3和12:1中的一种或多种; 在步骤204中,计算目标人脸图像的长宽比,从预定义的长宽比中选择最接近的一个,通过插值法调整目标人脸图像至预定义的分辨率,使其符合选择的长宽比,长宽为固定大小滑动窗口的倍数,使用滑动窗口对目标人脸图像进行切块,得到局部图像;同时,调整目标人脸图像分辨率至滑动窗口大小,得到全局图像; 在步骤205中,将切块得到的局部图像和全局图像输入视觉编码器,以提取视觉特征;其中,所述视觉特征包括局部图像特征和全局图像特征; 在步骤206中,将文本特征、局部图像特征和全局图像特征输入大语言模型,使大语言模型计算出文本特征和全局图像特征对局部图像特征的注意力,丢弃注意力小于预设值的局部图像特征,得到裁剪后的局部图像特征; 在步骤207中,将文本特征、裁剪后的局部图像特征和全局图像特征输入到大语言模型中,大语言模型总结出风险点,并提供风险分析和建议。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人华中科技大学,其通讯地址为:430074 湖北省武汉市洪山区珞喻路1037号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励