Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 山东奔跑吧贝壳文化传媒有限公司钟琳获国家专利权

山东奔跑吧贝壳文化传媒有限公司钟琳获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉山东奔跑吧贝壳文化传媒有限公司申请的专利一种基于人工智能的网络数据抓取与异常检测方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119862332B

龙图腾网通过国家知识产权局官网在2025-11-11发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411924511.2,技术领域涉及:G06F16/955;该发明授权一种基于人工智能的网络数据抓取与异常检测方法是由钟琳;高源;钟飞;时可欣设计研发完成,并于2024-12-25向国家知识产权局提交的专利申请。

一种基于人工智能的网络数据抓取与异常检测方法在说明书摘要公布了:本发明属于网络数据处理技术领域,尤其涉及一种基于人工智能的网络数据抓取与异常检测方法。针对现有技术在网络数据处理方面的不足,本发明先筛选初始URL列表去除无效低价值URL,再用融合CNN与RNN优势的模型识别网页数据区域,以动态XPath算法生成提取路径,接着用多粒度哈希算法计算指纹对比差异,最后结合改进DBN和IF算法检测数据异常。本发明能适应复杂网页结构变化,准确抓取数据,精确识别数据更新或新增,有效检测异常模式,提高数据处理效率、准确性与安全性,为网络数据处理提供可靠解决方案。

本发明授权一种基于人工智能的网络数据抓取与异常检测方法在权利要求书中公布了:1.一种基于人工智能的网络数据抓取与异常检测方法,其特征在于,包括以下步骤: S1、首先对初始URL列表进行筛选,去除无效和低价值的URL; S2、接着针对不同类型的网页,采用基于深度学习的网页结构识别模型,根据识别出的数据区域,运用动态XPath生成算法生成提取数据的路径表达式; S3、然后对每次抓取的数据利用多粒度哈希算法进行指纹计算,对比指纹差异; S4、最后基于改进深度信念网络DBN和孤立森林IF算法结合,用于检测数据的异常,将待检测数据的融合特征向量输入到训练好的异常检测模型中,根据预设的阈值,判断数据是否异常; 所述步骤S2中运用动态XPath生成算法生成提取数据的路径表达式的具体实现为: S21、首先对于网页中的每个元素,提取HTML语义标签,提取元素内文本的关键词向量,并将语义标签转换为向量形式; S22、对于任意两个元素和,计算语义关联强度:,其中是语义标签向量的相似度,是关键词向量的相似度,是权重系数; S23、以网页元素为节点,以语义关联强度为边权重构建有向图; S24、然后求最短路径,根节点为r,目标节点为t,为从根节点r到节点v的最短距离,初始时,对于其他节点,;对于已确定最短路径的节点集合S,初始时,对于不在S的节点u,更新其最短距离:,其中表示从节点v到节点u的边的权重;然后重复过程,直到目标节点t加入到S中,生成初始Xpath表达式; S25、接着进行路径优化,计算结构变化风险值,网页结构变化概率矩阵,其中表示从节点到节点的结构变化概率,对于路径P中的每个节点对计算结构风险值:,其中是节点在网页结构中的深度,通过计算从根节点到经过的节点层数来确定; S26、最后进行路径调整,对于路径P中的每个节点对,若大于预设阈值,在语义关系图G中,寻找与节点语义相似且结构变化风险低的节点,将路径P中的节点进行替换,得到优化后的Xpath表达式。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人山东奔跑吧贝壳文化传媒有限公司,其通讯地址为:250000 山东省济南市槐荫区日照路齐鲁之门B2-B座17层1701室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。