北京与仁科技服务有限公司;北京市长城企业战略研究所武文生获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京与仁科技服务有限公司;北京市长城企业战略研究所申请的专利一种自动化收集和提取企业创新活动信息的方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120524016B 。
龙图腾网通过国家知识产权局官网在2025-10-10发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510606653.2,技术领域涉及:G06F16/951;该发明授权一种自动化收集和提取企业创新活动信息的方法及系统是由武文生;黄波;王涛设计研发完成,并于2025-05-12向国家知识产权局提交的专利申请。
本一种自动化收集和提取企业创新活动信息的方法及系统在说明书摘要公布了:本发明提供了一种自动化收集和提取企业创新活动信息方法及系统,通过S1基于TF‑IDF的关键词抽取算法,建立创新活动信息的特征词库;S2扫描目标网站的网页结构,定位到目标网页并获取网页源代码;S3依据HTML标签进行分块,得到待识别文本块;S4.依据所述特征词库,计算所述待识别文本块与所述目标信息的相关度,依据所述相关度筛选得到创新活动内容;S5.利用爬虫工具抓取创新活动内容;S6.对抓取到的所述目标内容进行质量评价及价值分类;S7将所述高价值的所述目标内容存入企业信息库,将所述低价值的所述目标内容存入备用对照学习库,实现了对企业创新活动信息高效、精准地抓取,并提高这些信息的利用率。
本发明授权一种自动化收集和提取企业创新活动信息的方法及系统在权利要求书中公布了:1.一种自动化收集和提取企业创新活动信息的方法,其特征在于,包括: S1.建立创新活动信息的特征词库:所述创新活动信息指企业的简介信息、产品服务信息、技术创新信息、场景创新、落地案例、荣誉奖项和政府项目目标信息,基于TF-IDF的关键词抽取算法,从一组样本中提取出各目标信息的若干关键词,并对所述关键词进行权重处理,得到所述创新活动信息中各目标信息的多个特征词库; S2.目标网页定位:扫描目标网站的网页结构,利用各所述特征词库的关键词在所述网页结构中定位到目标网页,获取所述目标网页的网页源代码; S3.网页正文内容分块:对所述网页源代码去除噪点,依据HTML标签进行分块,基于文本及符号密度算法计算每一块内容的文本聚集度,得到待识别文本块; S4.信息识别:依据各所述特征词库,计算所述待识别文本块与所述目标信息的相关度,依据所述相关度筛选得到各特征词库对应的目标内容即目标创新活动内容; S5.质量评价:对抓取到的所述目标内容进行质量评价及价值分类,对质量评价结果人工审核;所述价值分类包括高价值和低价值; S6.存储入库:将所述高价值的所述目标内容存入企业信息库,将所述低价值的所述目标内容存入备用对照学习库,最终得到所述多个特征词库的所述目标内容,形成完备企业信息库。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京与仁科技服务有限公司;北京市长城企业战略研究所,其通讯地址为:100080 北京市海淀区中关村北大街127-1号1层108-3;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励