金智东博(北京)教育科技股份有限公司郭鉴旻获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉金智东博(北京)教育科技股份有限公司申请的专利一种基于模块化设计的高精度时序数据提取方法与系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121350330B 。
龙图腾网通过国家知识产权局官网在2026-05-05发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511498539.9,技术领域涉及:G06F16/951;该发明授权一种基于模块化设计的高精度时序数据提取方法与系统是由郭鉴旻;李亚洲;戴鹏杰;潘珂;杜海军;刘佳媛设计研发完成,并于2025-10-20向国家知识产权局提交的专利申请。
本一种基于模块化设计的高精度时序数据提取方法与系统在说明书摘要公布了:一种面向多源异构网络的高时效性时序数据提取方法与系统。该系统采用异步消息队列实现网页爬取、结构化解析、数据清洗与映射、任务调度及数据入库五大功能模块的低耦合分布式协同工作。系统通过集成静态、动态渲染及API接口调用的多模式抓取引擎,解决了异构数据源的适配性问题。结构化解析模块采用规则库与基于BERT的自然语言处理模型的混合解析方式,显著提高了非结构化文本的实体抽取智能化水平和准确率。数据清洗模块基于统计学Z‑Score算法执行时序数据异常值动态检测,保障了入库数据的可靠性。任务调度模块支持增量更新与失败重试机制,极大提升了系统吞吐量和运行稳定性。本发明通过先进的模块化架构、AI驱动的解析技术及统计学数据质量控制机制,实现了自动化、高可靠、高时效性的时序数据采集、清洗和结构化存储。
本发明授权一种基于模块化设计的高精度时序数据提取方法与系统在权利要求书中公布了:1.一种基于模块化设计的高时效性时序数据提取系统,其特征在于,所述系统包括: 网页爬取模块,用于根据任务调度模块下发的任务指令,从互联网多源异构网页中自动获取原始数据,所述爬取模块能够根据数据源类型动态选择静态HTML抓取、动态页面渲染或API接口调用模式; 结构化解析模块,用于对所述网页爬取模块获取的原始数据进行解析,其中,所述结构化解析模块通过可配置规则库与基于BERT的自然语言处理模型结合,实现对非结构化公告文本中关键实体字段的混合解析,生成结构化数据对象,从而显著提升数据解析的智能化程度与准确率; 数据清洗与映射模块,对每条记录计算关键字段哈希值用于去重,并将日期格式统一为ISO8601标准时间格式,以保证数据一致性;并基于统计学Z-Score算法检测异常值;所述Z-Score算法检测异常值包括:计算所述时序数据历史序列的均值μ和标准差σ;将当前待检测数值X代入公式: Z=Xμσ; 当|Z|大于预设阈值3时,将该记录标记为异常并附加异常评分,以实现对异常数据的主动识别与风险预警; 任务调度模块,用于基于Cron表达式自动生成定时任务,并通过读取数据库中上次成功抓取的时间戳实现增量更新;所述任务调度模块具有失败自动重试机制,可将失败任务置入延迟队列,在预设时间间隔后重新执行,从而保障数据抓取的连续性与完整性; 数据入库模块,用于将清洗后的时序数据写入时序数据库和关系型数据库,并在入库后自动生成包含本次入库总记录数、异常数据数量及字段缺失率指标的系统数据质量报告;所述数据入库模块进一步提供人工审核接口,用于对被标记的异常值进行修正和溯源,并记录审核日志; 各所述模块通过异步消息队列进行数据交互,形成自上而下的高内聚、低耦合数据处理流水线。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人金智东博(北京)教育科技股份有限公司,其通讯地址为:100000 北京市东城区南竹杆胡同2号银河搜候中心5层20616-A1984;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励