江苏师范大学董永权获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉江苏师范大学申请的专利一种基于属性融合的多真值发现方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114881099B 。
龙图腾网通过国家知识产权局官网在2025-08-19发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210223818.4,技术领域涉及:G06F18/2415;该发明授权一种基于属性融合的多真值发现方法是由董永权;杨昊霖;张功杰设计研发完成,并于2022-03-07向国家知识产权局提交的专利申请。
本一种基于属性融合的多真值发现方法在说明书摘要公布了:本发明公开了一种基于属性融合的多真值发现方法,是无监督的多真值发现方法,考虑辅助属性对多真值发现的影响,将辅助属性得到的数据源专业度、共识度和多真值属性值的活跃度融合得到数据源对属性值的支持度,将多真值发现问题转化为分类问题,使用神经网络自动学习数据源与属性值之间的底层数据特征,从而最终预测出多个真值,能够提升多真值发现方法在数据集成领域实验结果的准确性,面对多源嘈杂、冲突的数据环境时能够自动识别、判断、推理出完整的真值或接近真值的数据,从而辅助使用者进行决策,提高决策效率和质量。
本发明授权一种基于属性融合的多真值发现方法在权利要求书中公布了:1.一种基于属性融合的多真值发现方法,其特征在于,具体包括以下步骤: 步骤1:利用离散辅助属性计算数据源专业度; 步骤1-1:统计数据集中数据源si提供的属于集合的对象数量,其中,表示数据源si关于对象o在离散辅助属性D上提供的值集,Nd,si表示数据源si提供的属于种类d的对象数量; 步骤1-2:统计数据集中属于集合的对象数量,其中,Nd表示数据集中所有数据源集合提供的属于种类d的对象数量; 步骤1-3:计算数据源si在离散辅助属性D上对象o所属种类的贡献率 步骤1-4:计算数据源si在离散辅助属性D上关于对象o的专业度 步骤2:利用连续辅助属性计算数据源共识度; 步骤2-1:根据数据源关于对象o在连续辅助属性C提供的连续值计算对象o的自适应桶距To C; 步骤2-2:根据自适应桶距得到 共个等段区间,其中,表示数据源集合关于对象o在连续辅助属性C上提供的值集,表示值集中的最大值,表示值集中的最小值,表示数据源si关于对象o在连续辅助属性C上提供值集的长度,统计辅助属性连续值所属区间内值的数量,将个区间内值的数量从低到高依次记为 步骤2-3:计算数据源si在对象o上共识度 其中, 表示数据源si关于对象o在连续辅助属性C上提供的连续值; 步骤3:利用多真值属性计算多真值属性值活跃度; 步骤3-1:对于多真值属性值计算其活跃度γv, 其中,表示数据源si关于对象o提供的多真值属性值集,表示关于对象o提供多真值属性值v的所有数据源组成的集合,表示所有属性值出现频次和; 步骤4:使用迭代方法获取真值伪标签和数据源初始可靠度; 步骤4-1:将数据源si关于对象o在多真值属性上提供的值集中的值作为数据源si提供的一条联合值; 步骤4-2:按照步骤4-1的处理调用单真值发现方法计算数据源提供的联合值成为真值的概率和数据源初始可靠度τs; 步骤4-3:将关于对象o的成为真值概率最大的联合值拆分成单值,并将这些单值作为真值,得到属性值的伪标签; 步骤5:将数据源的专业度、共识度与多真值属性值的活跃度融合得到数据源对属性值的支持度,计算数据源si对多真值属性值v的支持度 步骤6:为每个属性值构建源-值向量; 真值属性值集中每个属性值对应一个源-值向量,向量的长度对应所有数据源的数量向量每个位置的值是该位置对应数据源si对多真值属性值v的支持度为多真值属性值v构建源-值向量其中,表示所有数据源的集合; 步骤7:使用神经网络捕获数据源和属性值的关系,预测属性值成为真值的概率; 步骤7-1:使用三层神经网络模型学习数据源和多真值属性值之间的关系,第一层是包含125个结点的全连接层,第二层是包含65个结点的全连接层,前两层使用ReLU函数作为激活函数,在第一层和第二层后使用dropout层,在第三层输出层包含一个结点,使用sigmoid作为激活函数; 步骤7-2:训练每层的权值矩阵,通过正向传播得到模型的输出,经过sigmoid函数得到每个多真值属性值为真的概率,使用二分类交叉熵损失函数衡量预测值和真实值之间的误差: 其中,N是样本数量,yi是训练集中的第i个样本的标签,pi是上述神经网络模型第i个样本的输出; 每一层的权值矩阵和偏置矩阵沿着梯度下降,直至模型训练完成、参数收敛; 步骤7-3:将数据按照训练集:测试集=1:9的比例进行划分,通过步骤4为训练集获得真值伪标签,然后训练模型直至参数收敛; 步骤8:通过与设定的阈值相比较得到属性值的真实标签,获得对象的多个真值; 步骤8-1:将测试集向量输入已完成训练的模型,并输出测试集中每个属性值成为真值的概率; 步骤8-2:当属性值的概率大于阈值K时判定该值为真,反之则判定该值为假,得到对象的多个真值。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人江苏师范大学,其通讯地址为:221116 江苏省徐州市铜山新区上海路101号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。