西安青泽信息科技有限公司薛源获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉西安青泽信息科技有限公司申请的专利一种基于搜索引擎服务技术的全自动数据爬取方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120524018B 。
龙图腾网通过国家知识产权局官网在2025-12-05发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510625523.3,技术领域涉及:G06F16/951;该发明授权一种基于搜索引擎服务技术的全自动数据爬取方法是由薛源;陈向东;段浩龙设计研发完成,并于2025-05-15向国家知识产权局提交的专利申请。
本一种基于搜索引擎服务技术的全自动数据爬取方法在说明书摘要公布了:本发明涉及数据处理技术领域,尤其涉及一种基于搜索引擎服务技术的全自动数据爬取方法,该方法根据预设关键词进行图像爬取,得到M张的爬取图像,对每张爬取图像进行降维处理,并将每张爬取图像的降维结果映射到二维空间中;根据二维空间中的数据点分布和数据点数量,获取聚类时的目标最少数目参数和目标邻域半径,根据目标最少数目参数和目标邻域半径,对每个初始聚类簇的扩展邻域内的所有边界点进行所属聚类簇的重新划分,根据最终聚类结果对噪声图像进行筛选去除,得到最终爬取图像,通过二维空间中的分布特征对异常数据点进行更准确的聚类簇划分,并根据划分结果中的孤立点进行噪声图像的筛选去除,得到了更加清洁的爬取图像。
本发明授权一种基于搜索引擎服务技术的全自动数据爬取方法在权利要求书中公布了:1.一种基于搜索引擎服务技术的全自动数据爬取方法,其特征在于,所述方法包括: 根据预设关键词进行图像爬取,得到M张的爬取图像,对每张所述爬取图像进行降维处理,得到对应的降维结果,将所述降维结果映射到二维空间中; 根据所述二维空间中的数据点分布和数据点数量,获取聚类过程中的最少数目参数的调整程度,根据所述调整程度和所述二维空间中的数据点数量,获取用于对所述二维空间中的所有数据点进行聚类时的目标最少数目参数; 获取所述二维空间中的每个数据点的k距离,根据所有数据点的k距离获取用于对所述二维空间中的所有数据点进行聚类时的目标邻域半径,根据所述目标最少数目参数和所述目标邻域半径,对所述二维空间中的所有数据点进行聚类,得到至少一个初始聚类簇; 将所述二维空间中的数据点分别标记为核心点和边界点,对每个所述核心点的邻域范围进行扩展,得到每个所述初始聚类簇的扩展邻域,根据每个所述初始聚类簇的扩展邻域内的边界点与核心点之间的距离,分别对每个所述初始聚类簇的扩展邻域内的所有边界点进行所属聚类簇的重新划分,得到最终聚类结果,具体包括: 针对任一初始聚类簇的扩展邻域内的任一边界点,在所述初始聚类簇的扩展邻域内获取与所述边界点距离最近的核心点作为目标点,以所述边界点和所述目标点之间的直线长度为矩形长度,以所述直线长度的二分之一为矩形宽度,构建以所述边界点和所述目标点为中心的矩形区域,根据所述矩形区域内的数据点分布获取所述边界点的延续性特征程度; 根据所述边界点的延续性特征程度以及所述边界点与所述目标点之间的欧式距离,获取所述边界点的簇扩展评估值,根据所述边界点的簇扩展评估值对所述边界点进行所属聚类簇的划分,得到对应的划分结果;根据每个所述初始聚类簇的扩展邻域内的每个边界点的划分结果,得到最终聚类结果; 根据所述最终聚类结果对所述M张爬取图像中的噪声图像进行筛选去除,对应得到最终爬取图像。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人西安青泽信息科技有限公司,其通讯地址为:710000 陕西省西安市莲湖区光远路16号新世纪大厦1幢21层2109号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励