中国标准化研究院刘霞获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中国标准化研究院申请的专利一种基于多模态特征的数据聚合方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120372555B 。
龙图腾网通过国家知识产权局官网在2025-12-23发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510576972.3,技术领域涉及:G06F18/25;该发明授权一种基于多模态特征的数据聚合方法是由刘霞;房祥静;陈倩雯;许丽丹;王坤然;张婧姝;孟翠竹;张宁设计研发完成,并于2025-05-06向国家知识产权局提交的专利申请。
本一种基于多模态特征的数据聚合方法在说明书摘要公布了:本发明公开了一种基于多模态特征的数据聚合方法,包括:采集多模态数据经预处理,按模态提取特征并划分为高、中、低维度数据,针对高维数据,利用球树算法定位近邻点;中维数据基于分布密度动态调整邻域范围;低维数据通过欧氏距离计算邻域,再借助局部线性嵌入映射至低维空间,随后遍历低维数据,统计离散型数据取值频率与连续型数据概率密度,结合信息熵计算边际概率,以此确定数据聚合权重,最终按高、中、低层级顺序拼接降维后的特征,对各层级块内进行概率归一化,生成聚合综合特征。该方法通过多维度差异化处理、基于数据分布的权重计算,实现多模态特征的聚合,提升特征互补性与精准性。
本发明授权一种基于多模态特征的数据聚合方法在权利要求书中公布了:1.一种基于多模态特征的数据聚合方法,其特征在于,包括以下步骤: 采集多模态数据,对多模态数据进行预处理获得维度数据,所述维度数据包括高维、中维和低维数据; 对高维数据通过球树算法定位数据点的近邻点,根据中维数据的分布密度动态调整邻域范围,针对低维数据通过欧氏距离计算邻域,基于邻域通过局部线性嵌入将维度数据映射到低维空间; 基于低维空间的维度数据进行遍历,统计离散型数据的取值频率,获得连续型数据的概率密度,结合取值频率和概率密度获得边际概率; 使用边际概率确定维度数据在数据聚合中的权重,将降维后的维度数据特征依据权重进行拼接,得到聚合后的综合特征; 所述采集多模态数据,对多模态数据进行预处理获得维度数据的方法,包括: 采集多模态数据,对不同模态的数据进行清洗、去噪,计算不同模态的数据的均值对缺失值进行填充,运用四分位距方法修正异常值; 依据多模态数据的模态进行划分,获得文本数据、数值数据、音频数据、图像数据和视频数据,对文本数据通过词向量模型获取词向量维度,根据数值数据的数值列获取数值维度,提取音频数据的频谱特征和时域特征合并成音频维度信息,对图像数据通过分辨率和颜色通道数确定基础维度,基于视频数据关键帧的图像数据和帧率时长获得视频时空维度信息,获取各模态维度信息的维度数,统计所有模态维度数从高到低排序,前20%划分为高维区间,中间60%为中维区间,后20%为低维区间,将不同维度的模态数据放入维度区间获得维度数据集; 获取维度数据集中不同模态数据的最值差、均值和标准差,使用最值差、均值和标准差确定缩放阈值,基于缩放阈值对维度数据进行缩放; 所述使用最值差、均值和标准差确定缩放阈值,基于缩放阈值将对应模态数据进行缩放的方法,包括: 获取维度数据集中不同模态数据的最值差、均值和标准差,计算最值差、均值、标准差对数据特征描述的信息熵,对信息熵归一化后获得最值差、均值和标准差的动态阈值权重系数,基于历史阈值、当前数据窗口均值、最值差计算数据差异度,通过差异度获得缩放阈值,所述缩放阈值计算公式为: 其中为当前新输入的数据点,n为当前数据点的总数,为前n−1个数据点的累积均值,为前n−1个数据点的累积方差,为数据窗口内的最大值,为数据窗口内的最小值,为历史阈值,为最大最小差值、均值和标准差对阈值的权重系数,为衰减系数; 基于缩放阈值将对应模态数据进行缩放; 所述基于邻域通过局部线性嵌入将维度数据映射到低维空间的方法,包括: 基于不同维度数据的邻域集合分别进行局部线性嵌入,对邻域集合的每个数据点,使用其邻域内的其他数据点进行线性重构,构建重构误差函数,对误差函数添加约束条件其中为邻域点对数据点的重构权重,求解误差函数获得最优重构权重; 使用最优重构权重构建不同邻域集合的低维嵌入目标函数,所述目标函数公式为: 其中为低维嵌入坐标矩阵,是第i个数据点的低维坐标,为数据点总数,K为邻域大小,邻域点j对数据点i的最优重构权重,邻域点j对数据点i的低维坐标; 将目标函数转化为Gram矩阵形式,计算Gram矩阵的特征值和特征向量,保留最小的2-3个非零特征值对应的特征向量,得到三个维度数据集在低维空间的映射坐标,将维度数据映射到低维空间,将三类低维特征按从高至低顺序拼接,形成统一的低维特征向量; 所述结合取值频率和概率密度获得边际概率的方法,包括: 对低维空间中的低维特征向量的离散型数据进行遍历,统计每个离散值的出现次数,计算其取值频率; 对连续型数据遍历所有数据点计算核函数值,对所有核函数值加权求和,得到概率密度估计值,所述概率密度估计值计算公式为: 其中为概率密度估计值,为样本数据点的总数,为数据的维度,为核密度估计的关键超参数,为目标数据点,为第个样本对象; 将所有数据点对应的概率密度估计值结果整合,形成连续型数据的概率密度函数,根据概率密度函数获得概率密度,对概率密度进行归一化; 计算离散数据与连续数据的信息熵,使用离散数据的信息熵除以离散数据与连续数据的信息熵总和获得信息权重,使用信息权重乘以离散数据的取值频率,将连续数据的密度概率乘以信息权重的反权重,对两个结果相加获得边际概率。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国标准化研究院,其通讯地址为:100080 北京市海淀区知春路4号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励