Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
专利交易 商标交易 积分商城 国际服务 IP管家助手 科技果 科技人才 会员权益 需求市场 关于龙图腾 更多
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 杭州数政科技有限公司周志凯获国家专利权

杭州数政科技有限公司周志凯获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉杭州数政科技有限公司申请的专利一种多链路业务数据溯源技术获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114491045B

龙图腾网通过国家知识产权局官网在2026-03-20发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210130561.8,技术领域涉及:G06F16/35;该发明授权一种多链路业务数据溯源技术是由周志凯;张嘎;钟君凯;王雯设计研发完成,并于2022-02-11向国家知识产权局提交的专利申请。

一种多链路业务数据溯源技术在说明书摘要公布了:本发明公开了一种多链路业务数据溯源技术,包括:数据采集模块用于采集元数据和业务表数;自然语言处理模块用于将机器无法识别的自然语言文本转化为数值数据;数源标准化模块用于对数据采集模块和自然语言处理模块的数源单位进行统一标准化,并生成标准数源单位成果库和标准业务场景成果库;深度学习算法模块被配置为基于数源单位聚类结果与场景聚类结果,对业务表数据进行学习训练,完成字段级的数据溯源工作;所述数据存储模块用于存储数源标准化模块和深度学习算法模块产生的数据。本发明只需要完成表结构的采集,无需针对各个引擎和工具开发血缘解析模块,就可以完成模型的特征构造与数源建模工作。

本发明授权一种多链路业务数据溯源技术在权利要求书中公布了:1.一种多链路业务数据溯源技术,其特征在于,包括: 数据采集模块,所述数据采集模块用于采集元数据和业务表数据; 自然语言处理模块,所述自然语言处理模块用于将机器无法识别的自然语言文本转化为数值数据; 数源标准化模块,所述数源标准化模块用于对数据采集模块和自然语言处理模块的数源单位进行统一标准化,并生成标准数源单位成果库和标准业务场景成果库; 深度学习算法模块,所述深度学习算法模块被配置为:基于数源单位聚类结果与场景聚类结果,对业务表数据进行学习训练,完成字段级的数据溯源工作;以及 数据存储模块,所述数据存储模块用于存储数源标准化模块和深度学习算法模块产生的数据;所述深度学习算法模块包括自然语言处理、卷积神经网络、词向量相似度与拓词算法、半监督神经网络标签训练、梯度神经网络和多分类算法共六个子模块,所述深度学习算法模块的工作方法包括: 利用Gensim生成字段的词向量; 利用卷积神经网络对这部分词向量进行池化,形成张量数据库; 在与标准数源单位成果库和标准业务场景成果库,及外部传入的标签库,一同导入半监督学习的梯度神经网络,基于对分类误差的损失,进行半监督训练; 利用Softmax层完成对字段数据数源单位的分类工作; 卷积神经网络使用卷积神经网络进行池化工作,池化工作为将输入的张量矩阵划分为若干个矩形区域,对每个子区域输出最大值,从而达到特征压缩的效果;单层自编码网络的前向传导公式为: 表示输入数据,表示隐藏层神经元,函数为编码映射函数,函数表示解码映射函数; 阶梯网络在自编码网络的基础上,对编码的每一层使用横线连接的方式连接到解码层,阶梯网络同时在每一层引入噪声,阶梯网络的损失函数为每一层损失函数C的加总; 给定N个有标签的样本数据,以及M个无标签的样本数据,有标签的样本数据个数远小于无标签数据,模型目标是学习出一个函数用来判别数据标签的概率分别,在阶梯网络中,这个函数是一个深度降噪自编码器,噪声加入所有的隐藏层,然后最后的损失函数是有标签样本数据的交叉熵损失函数与无标签样本数据各层噪声解码器重构后的欧式误差损失函数的加总: ; 且半监督梯度神经网络被配置为: 编码层的最高层接入有监督的损失函数,在训练过程中把无监督和有监督的损失函数相加作为总损失,并进行梯度下降训练; 所述自然语言处理模块的操作方法为: 对文本的预处理; 使用开源库Jieba库、Gensim库,加载预训练语料库,完成对文本的分词及向量化工作; 使用LDA算法生成文本主题词,使用这些主题词以Apriori完成主题词关联度计算,并使用这种关联关系,以DBSCAN算法完成对原本无需人工特征标注的文本语料的聚类工作,最终生成结果语料;其预处理包括并不限于去重、去特殊符号、简繁体转换;其中数源标准化模块的工作方法包括: 对接各业务系统的数据; 在完成元数据归集后,对数据进行基础的数据清洗、标准化工作; 将数据导入自然语言处理模块; 最终生成两个成果库,分别为标准数源单位成果库和标准业务场景成果库; 半监督学习的梯度神经网络采用伪标签算法,所述伪标签算法的操作方法为: 运用训练出的模型给予无标签的数据一个伪标签;其训练方法为用训练中的模型对无标签数据进行预测,以概率最高的类别作为无标签数据的伪标签; 运用熵正则化思想,将无监督数据转为目标函数的正则项;将拥有伪标签的无标签数据视为有标签的数据,然后用交叉熵来评估误差大小; 狄利克雷分布是多项式分布的共轭先验概率分布,在模型中一篇文档生成的方式如下: 1从狄利克雷分布中取样生成文档的主题分布; 2从主题的多项式分布中取样生成文档第个词的主题; 3从狄利克雷分布中取样生成主题的词语分布; 4从词语的多项式分布中采样最终生成词语; 因此整个模型中所有可见变量以及隐藏变量的联合分布是 最终一篇文档的单词分布的最大似然估计可以通过将上式的隐藏变量进行积分和对其进行求和得到 根据的最大似然估计,得到文档的主题词; Apriori算法采用了迭代的方法,其算法流程如下展示: 输入:数据集合D,支持度阈值; 输出:最大的频繁k项集; 1扫描整个数据集,得到所有出现过的数据,作为候选频繁1项集;k=1,频繁0项集为空集; 2挖掘频繁k项集: a扫描数据计算候选频繁k项集的支持度; b去除候选频繁k项集中支持度低于阈值的数据集,得到频繁k项集;如果得到的频繁k项集为空,则直接返回频繁k-1项集的集合作为算法结果,算法结束;如果得到的频繁k项集只有一项,则直接返回频繁k项集的集合作为算法结果,算法结束; c基于频繁k项集,连接生成候选频繁k+1项集; 3令k=k+1,转入步骤2; DBSCAN算法中将样本空间里需要被聚类的点分为核心点,密度可达点和局外点,这不同的三类点,并进行聚类: 1DBSCAN模型需要两个基本参数:最大邻域和形成高密度区域所需要的最少点数; 2如果一个点在距离范围内有个点,则点被称为核心点; 3核心点范围内的点被称为由直接可达的,即密度可达点; 4如果存在一条道路,有和,且每个都是由直接可达的,其中,道路上除了q以外所有点都一定是核心点,则称是由可达的; 5所有不由任何点可达的点都被称为局外点; 如果是核心点,则它与所有由它可达的点形成一个聚类,其中,所有由它可达的点包括核心点和非核心点,每个聚类拥有最少一个核心点,非核心点也可以是聚类的一部分,但它是在聚类的“边缘”位置,因为它不能达至更多的点;在DBSCAN算法模型中的每个聚类都符合两个性质: 6同一个聚类里的每两个点都是互相连结的; 7如果点可由聚类里的点可达,那么在所属的聚类里。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人杭州数政科技有限公司,其通讯地址为:310012 浙江省杭州市西湖区教工路198号7幢503;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。