厦门渊亭信息科技有限公司;湖南渊亭智能科技有限公司洪万福获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉厦门渊亭信息科技有限公司;湖南渊亭智能科技有限公司申请的专利一种Web数据的智能提取方法、装置、设备及存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121072478B 。
龙图腾网通过国家知识产权局官网在2026-03-24发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511613285.0,技术领域涉及:G06F40/16;该发明授权一种Web数据的智能提取方法、装置、设备及存储介质是由洪万福;孙阳阳;谢运启设计研发完成,并于2025-11-06向国家知识产权局提交的专利申请。
本一种Web数据的智能提取方法、装置、设备及存储介质在说明书摘要公布了:本发明提供了一种Web数据的智能提取方法、装置、设备及存储介质,通过任务队列机制将海量URL转化为可管理的处理任务,实现了大规模数据的有序调度。选择URL直接模式或内容预处理模式,确保在不同网络环境下都能稳定获取Web内容,然后调用大语言模型的语义理解能力,根据预定义Schema将非结构化网页内容转换为结构化数据,通过数据库聚合管道在数据库层面执行字段映射和结构转换。最后通过质量评分机制自动识别并修正不合格数据,对于质量不达标的数据自动触发重新提取流程,形成了闭环的质量保障体系。整个过程中的API速率控制确保了系统的稳定运行和成本可控,最终实现了从非结构化Web内容到高质量结构化多语言数据的全自动转换。
本发明授权一种Web数据的智能提取方法、装置、设备及存储介质在权利要求书中公布了:1.一种Web数据的智能提取方法,其特征在于,包括: 从源数据库中提取包含URL字段的源文档集合,对所述源文档集合中的每个URL执行有效性验证,为验证通过的URL生成对应的任务文档并存储至任务队列,其中,所述有效性验证采用并发验证方式,具体为:创建线程池执行器,为每个URL分配独立的验证线程,通过维基百科接口库检测URL的可访问性和重定向状态,对于发生重定向的URL,获取重定向后的最终URL并更新源文档中的URL字段和名称字段,对于无法访问的URL,在任务生成时予以排除; 从所述任务队列中获取待处理状态的任务文档,将其状态更新为处理中,根据配置选择数据提取模式,根据选择的提取模式调用大语言模型接口,基于预定义的数据模式执行结构化信息提取,获得原语言结构化数据,其中,所述数据提取模式包括URL直接提取模式和内容预处理提取模式;所述URL直接提取模式将任务文档中的URL直接发送至大语言模型接口,由大语言模型自行访问和解析网页内容;所述内容预处理提取模式先通过HTTP请求库获取URL对应的网页内容,使用HTML解析器提取纯文本内容,再将纯文本内容发送至大语言模型接口进行处理; 将所述原语言结构化数据通过大语言模型接口翻译为目标语言结构化数据,通过数据库聚合管道将所述目标语言结构化数据进行字段映射; 对映射后的数据执行质量检查,对不符合质量标准的数据进行修正,将通过质量检查的数据存储至目标数据库,更新任务状态为已完成。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人厦门渊亭信息科技有限公司;湖南渊亭智能科技有限公司,其通讯地址为:361000 福建省厦门市软件园二期望海路61号801单元N8-01;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励