Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 数据堂(北京)科技股份有限公司齐红威获国家专利权

数据堂(北京)科技股份有限公司齐红威获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉数据堂(北京)科技股份有限公司申请的专利多模态大模型数据清洗治理方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120336725B

龙图腾网通过国家知识产权局官网在2025-09-02发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510820032.4,技术领域涉及:G06F18/10;该发明授权多模态大模型数据清洗治理方法及系统是由齐红威;何鸿凌;丰强泽;王大亮;高禹;郑继龙设计研发完成,并于2025-06-19向国家知识产权局提交的专利申请。

多模态大模型数据清洗治理方法及系统在说明书摘要公布了:本申请涉及数据清洗技术领域,其具体地公开了一种多模态大模型数据清洗治理方法及系统,其对原始多模态数据集进行基础的格式过滤后,通过单模态质量评估机制量化评估多模态数据集中的图像清晰度和文本流畅性,以筛选出质量合格的图像和文本数据样本。接着,进一步引入语义级对齐评估机制,对数据集中每一组对应的图像样本和图像文本描述进行语义级交互响应分析,以量化评估图像样本与文本描述之间的语义对齐程度,筛选出高度语义对齐的图像‑文本数据对。该方法通过对多模态数据集进行多层次的清洗治理,能够确保多模态训练样本质量达标,并且在跨模态语义层面实现高度对齐,从而提升多模态大模型在跨模态理解与生成任务中的准确性和鲁棒性。

本发明授权多模态大模型数据清洗治理方法及系统在权利要求书中公布了:1.一种多模态大模型数据清洗治理方法,其特征在于,包括: 获取原始多模态数据集; 对所述原始多模态数据集进行初始数据清洗后从中提取待精选多模态数据样本,所述待精选多模态数据样本包括待精选图像数据和与所述待精选图像数据对应的待精选文本描述; 对所述待精选图像数据进行视觉特征提取以得到待精选图像视觉特征编码向量; 对所述待精选文本描述进行语义特征提取以得到待精选文本描述语义特征编码向量; 对所述待精选图像视觉特征编码向量和所述待精选文本描述语义特征编码向量进行语义级细粒度对齐编码以得到待精选图像-文本语义级细粒度交互响应编码向量; 基于所述待精选图像-文本语义级细粒度交互响应编码向量,确定是否过滤所述待精选多模态数据样本; 对所述待精选图像视觉特征编码向量和所述待精选文本描述语义特征编码向量进行语义级细粒度对齐编码以得到待精选图像-文本语义级细粒度交互响应编码向量,包括: 对所述待精选图像视觉特征编码向量和所述待精选文本描述语义特征编码向量进行基于特征值大小的有序化排列以得到待精选图像视觉特征有序化排列编码向量和待精选文本描述语义特征有序化排列编码向量; 对所述待精选图像视觉特征有序化排列编码向量和所述待精选文本描述语义特征有序化排列编码向量进行等粒度特征切分以得到待精选图像局部视觉特征有序编码向量的序列和待精选文本描述局部语义特征有序编码向量的序列; 将所述待精选图像局部视觉特征有序编码向量的序列和所述待精选文本描述局部语义特征有序编码向量的序列中每组对应的待精选图像局部视觉特征有序编码向量和待精选文本描述局部语义特征有序编码向量输入语义级转移交互响应推理单元以得到待精选图像-文本描述局部语义交互响应编码矩阵的序列; 对所述待精选图像-文本描述局部语义交互响应编码矩阵的序列进行语义传递编码以得到所述待精选图像-文本语义级细粒度交互响应编码向量。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人数据堂(北京)科技股份有限公司,其通讯地址为:100080 北京市海淀区宝盛南路1号院11号楼1层101-01;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。