浪潮电子信息产业股份有限公司王申领获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉浪潮电子信息产业股份有限公司申请的专利一种数据过滤方法、装置、设备及介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN118467769B 。
龙图腾网通过国家知识产权局官网在2025-12-05发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202410444780.2,技术领域涉及:G06F16/535;该发明授权一种数据过滤方法、装置、设备及介质是由王申领;申强;罗建刚;吴韶华;赵旭东设计研发完成,并于2024-04-12向国家知识产权局提交的专利申请。
本一种数据过滤方法、装置、设备及介质在说明书摘要公布了:本发明公开了一种数据过滤方法、装置、设备及介质,涉及数据处理技术领域。通过训练图文对数据的图像数据和文本数据结合关键字信息进行匹配处理得到标注未完全匹配和完全匹配对应的数据,基于标注样本数据训练得到多模态样本质量识别模型,以进行初始图文对数据的识别,得到过滤后的图文对数据,避免传统的多模态大模型数据过滤过程采用人工标注方式进行过滤带来的效率降低和图文对数据质量降低的问题,本发明通过识别模型进行识别过滤,在一定程度上提高过滤效率。另外,对于匹配处理过程中存在的幻视模糊情况,本发明在训练识别模型时采用统一的关键字信息对图文对数据进行匹配处理的数据质量把控,提高图文对数据的质量。
本发明授权一种数据过滤方法、装置、设备及介质在权利要求书中公布了:1.一种数据过滤方法,其特征在于,包括: 获取待过滤的图文对数据; 调用多模态样本质量识别模型,将所述待过滤的图文对数据作为所述多模态样本质量识别模型的输入数据; 获取所述多模态样本质量识别模型的输出数据,并作为过滤后的图文对数据; 其中,所述多模态样本质量识别模型基于标注样本数据对多模态大模型训练得到;所述标注样本数据的标注过程,具体包括:获取训练图文对数据对应的图像数据和文本数据以及关键字信息;根据所述关键字信息对所述训练图文对数据对应的图像数据和文本数据进行匹配处理得到匹配处理结果;将所述匹配处理结果的未完全匹配数据和完全匹配数据进行标注得到标注样本数据;所述关键字信息为所述训练图文对数据对应的文本数据结合图像数据对应的特征信息; 对应地,将所述匹配处理结果的未完全匹配数据和完全匹配数据进行标注得到标注样本数据,包括: 在由所述关键字信息对所述训练图文对数据对应的图像数据和文本数据分别进行匹配处理得到对应的匹配处理结果中,若文本数据得到的匹配结果与图像数据得到的匹配结果完全匹配,则将完全匹配的图像数据和文本数据标注为正样本数据; 若文本数据得到的匹配结果与图像数据得到的匹配结果未完全匹配,则将未完全匹配的图像数据和文本数据标注为负样本数据; 将所述负样本数据和所述正样本数据作为所述标注样本数据; 在所述关键字信息包括各优先级对应的子关键字信息时,所述正样本数据和所述负样本数据的确定过程,包括: 将第一优先级对应的子关键字信息对所述训练图文对数据对应的图像数据和文本数据进行匹配处理得到第三匹配处理结果;以便于将完全匹配对应的图像数据和文本数据作为正样本数据; 将其余优先级对应的子关键字信息对所述训练图文对数据对应的图像数据和文本数据进行匹配处理得到第四匹配处理结果;以便于将第四匹配处理结果对应的完全匹配和未完全匹配、与第三匹配处理结果中未完全匹配对应的图像数据和文本数据作为负样本数据。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人浪潮电子信息产业股份有限公司,其通讯地址为:250000 山东省济南市高新区草山岭南路801号9层东侧;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励