Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 厦门安胜网络科技有限公司林山获国家专利权

厦门安胜网络科技有限公司林山获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉厦门安胜网络科技有限公司申请的专利一种基于页面浏览行为建模的数据采集方法和系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115878934B

龙图腾网通过国家知识产权局官网在2025-08-08发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211616787.5,技术领域涉及:G06F16/958;该发明授权一种基于页面浏览行为建模的数据采集方法和系统是由林山;彭小虎;叶青;李剑煜;刘星;庄秋榆设计研发完成,并于2022-12-15向国家知识产权局提交的专利申请。

一种基于页面浏览行为建模的数据采集方法和系统在说明书摘要公布了:本申请提出了一种基于页面浏览行为建模的数据采集方法,包括以下步骤:a设计并构建js插件,将js插件嵌入到浏览器中;b基于页面浏览行为获取通用的行为模板文件;c动态替换任务参数,获取新的行为模板文件;d将新的行为模板文件解析为有序的行为列表;e控制浏览器按照顺序执行行为列表中的行为,进行数据提取;f保存并导出在网页上提取的数据。本申请的文本数据采集方法的数据采集基于对真实交互行为和标记行为的模拟,能够免疫大部分反爬虫机制,通过元素定位实现了数据的精准提取,省去了二次清洗的过程,能够极大降低数据采集的难度,目标网站更新样式时,只需要对新样式重新建模,降低维护成本,具有广泛的适用性。

本发明授权一种基于页面浏览行为建模的数据采集方法和系统在权利要求书中公布了:1.一种基于页面浏览行为建模的数据采集方法,其特征在于,包括以下步骤: S1:设计并构建js插件,将js插件嵌入到浏览器中;所述js插件包括网页分析器:用于分析网页html的数据结构、分析网页元素的提取路径、根据提取路径定位到网页元素和对网页元素进行成分分析;行为记录器:用于监听、记录用户在网站上的页面浏览行为,并以列表的方式保存;模板编辑器:用于对行为记录器记录的内容进行展示、编辑和修改,最终得到行为模板文件;其中,所述页面浏览行为包括正常交互行为和标记行为; S2:打开目标网站起始地址,输入任务参数,进行网页浏览,基于页面浏览行为获得通用的行为模板文件,将任务参数和通用的行为模板文件保存为模板任务;具体步骤为: S21:行为记录器拦截操作人员与网页元素的正常交互行为,网页分析器提取被操作网页元素的路径,将被操作网页元素的路径和对应的操作类型计为一个操作单元,行为记录器记录该操作单元; S22:行为记录器拦截操作人员的对网页元素的标记行为,网页分析器确定被标记元素的路径并确定被标记元素的数据类型,将得到的被标记元素的路径和被标记元素的数据类型计为一个提取单元,行为记录器记录该提取单元; S23:将操作单元和提取单元合并为行为单元,页面浏览行为结束后,行为记录器得到一个有序的行为单元列表,这个有序的行为单元列表为行为模板; S24:将行为模板在模板编辑器中按流程图的形式进行展示,对行为模板进行编辑、修改、删除行为,导出行为模板得到一个通用的行为模板文件; S3:导入模板任务,动态替换模板任务中的任务参数,得到新的行为模板文件; S4:启动目标网站,js插件将新的行为模板文件数据解析为有序的行为列表; S5:js插件控制浏览器按顺序执行行为列表中的行为,实施相应的行为并进行数据提取; S6:重复步骤S5,直到行为列表中的行为全部执行完毕,将网页上提取的数据以数据列表的方式保存并导出。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人厦门安胜网络科技有限公司,其通讯地址为:361008 福建省厦门市集美区软件园三期诚毅大街358号1502-5单元;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。