国网信通亿力科技有限责任公司谢宏宇获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉国网信通亿力科技有限责任公司申请的专利一种基于字段语义识别的表关联关系自动判别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116662346B 。
龙图腾网通过国家知识产权局官网在2025-12-19发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310696247.0,技术领域涉及:G06F16/22;该发明授权一种基于字段语义识别的表关联关系自动判别方法是由谢宏宇;董璐;许熠;陈伟;苏志勇;陈思泓;章剑涛;黄燕珊;高树泽设计研发完成,并于2023-06-13向国家知识产权局提交的专利申请。
本一种基于字段语义识别的表关联关系自动判别方法在说明书摘要公布了:本发明涉及数据处理技术领域,公开了一种基于字段语义识别的表关联关系自动判别方法,包括以下步骤:步骤S1:从数据库中获取表元数据信息和字段元数据信息;步骤S2:对字段划分为五个类型组;步骤S3:生成字段关系候选集;步骤S4:根据字段关系中两字段间的可信关系标记判别字段关系对的数量关系;步骤S5:计算字段关系对中两字段的采样匹配度;步骤S6:判断字段关系对是否属于真实关联关系对;步骤S7:提取属于真实关联关系对的字段关系对,基于字段关系对从关联关系表之间查询字段关联关系;本发明能够自动;本发明能够在主表或从表在缺失键位标志信息的情况下,自动寻找对应的关联关系表。
本发明授权一种基于字段语义识别的表关联关系自动判别方法在权利要求书中公布了:1.一种基于字段语义识别的表关联关系自动判别方法,其特征在于,包括以下步骤: 步骤S1:从数据库中获取表元数据信息和字段元数据信息; 步骤S2:对每个字段都定义字段特征并进行计算构成字段数据集,运用随机森林算法模型对字段数据集做分类识别并划分为五个类型组; 步骤S3:根据步骤S2得到的五组的字段数据集来生成字段关系候选集,字段关系候选集中的字段关系对满足以下条件:一个字段关系对的两个字段不重复且非同表; 一个字段关系对包括字段A和字段B,统计字段A的采样数据在字段B中的数据库里匹配的数据个数作为字段A的匹配个数,统计字段B的采样数据在字段A中的数据库里匹配的数据个数作为字段B的匹配个数; 统计字段A的采样数据在字段B中的数据库里匹配的数据中的不重复的数据的个数作为A字段的去重匹配个数;统计字段B的采样数据在字段A中的数据库里匹配的数据中的不重复的数据的个数作为B字段的去重匹配个数; 当字段A的匹配个数大于所设定的第一匹配阈值或者字段A的匹配个数大于或等于字段B的采样数据的个数,则认定字段A对字段B存在关系,打上可信关系标记; 当字段B的匹配个数大于所设定的第一匹配阈值或者字段B的匹配个数大于或等于字段A的采样数据的个数,则认定字段B对字段A存在关系,打上可信关系标记; 步骤S4:根据字段关系中两字段间的可信关系标记判别字段关系对的数量关系; 对所有字段关系对标记数量关系,分为一对一、一对多、多对多、无数量关系这四类,一对一关系需满足字段关系对的采样数据均是唯一值,且该字段关系对具备可信关系标记;一对多关系需满足字段关系对的采样数据其中一个具有唯一值属性,且具备可信关系标记;多对多关系需满足字段关系对的采样数据均无唯一值属性,且不具备可信关系标记;除以上三者外,其他字段关系对皆为无数量关系; 步骤S5:计算字段关系对中两字段的采样匹配度,见如下公式: ; 其中,与分别表示字段A和关联字段B的采样匹配度;与分别表示字段A和关联字段B的去重匹配个数;与分别表示字段A和关联字段B的采样数据个数; 步骤S6:结合字段关系对所属的数据类型组、可信关系标记以及采样匹配度判断字段关系对是否属于真实关联关系对; 步骤S7:提取属于真实关联关系对的字段关系对,基于字段关系对从关联关系表之间查询字段关联关系。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人国网信通亿力科技有限责任公司,其通讯地址为:361000 福建省厦门市软件园二期观日路36号402室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励