湖南新云网科技有限公司李政军获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉湖南新云网科技有限公司申请的专利ePub文件格式转换方法、装置、设备及可读存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114116603B 。
龙图腾网通过国家知识产权局官网在2025-09-09发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202111406312.9,技术领域涉及:G06F16/11;该发明授权ePub文件格式转换方法、装置、设备及可读存储介质是由李政军;陈娅芳设计研发完成,并于2021-11-24向国家知识产权局提交的专利申请。
本ePub文件格式转换方法、装置、设备及可读存储介质在说明书摘要公布了:本发明公开了一种ePub文件格式转换方法、装置、设备及存储介质,通过获取待转换文件中包含的文件内容,然后对文件内容进行关键词过滤,得到过滤后的文件内容,再拆分过滤后的文件内容中的文本元素和图像元素,并生成章节目录及章节目录对应的内容目录,最后根据章节目录及内容目录,对文本元素和图像元素进行组合,生成ePub格式文件,这样,能够兼容多格式的文件上传,并通过算法自动统一转换为可供前端阅读的ePub格式文件,减少了人工处理,提高了转换效率。
本发明授权ePub文件格式转换方法、装置、设备及可读存储介质在权利要求书中公布了:1.一种ePub文件格式转换方法,其特征在于,包括: 获取待转换文件中包含的文件内容,所述待转换文件为txt文件、pdf文件、docx文件、html文件中的任意一种格式的文件; 对所述文件内容进行关键词过滤,得到过滤后的文件内容; 通过拆分算法拆分过滤后的所述文件内容中的文本元素和图片元素,得到文本元素集合和图片元素集合,并根据所述文本元素集合中的文本数据,通过目录章节编排算法生成章节目录及所述章节目录对应的内容目录; 根据所述章节目录及所述内容目录,对所述文本元素集合中的文本元素和所述图片元素集合中的图片元素进行组合,生成ePub格式文件; 所述对所述文件内容进行关键词过滤,得到过滤后的文件内容,包括: 将所述文件内容中的词汇逐一与预设语料库中的关键词进行相似性比对,得到相似性比对结果; 将相似性比对结果符合预设条件的词汇替换为随机字符,得到过滤后的文件内容; 若所述待转换文件为docx文件,所述通过拆分算法拆分过滤后的所述文件内容中的文本元素和图片元素,得到文本元素集合和图片元素集合,包括: 创建文件解析器,通过所述文件解析器解析过滤后的所述文件内容,得到元素列表,初始化图片元素集合和文字元素集合,遍历所述元素列表,判断所述元素列表中的元素节点是为图片元素还是为文字元素,如果是图片元素,将该图片元素和该图片元素的位置信息保存至所述图片元素集合中,如果是文字元素,将该文字元素和该文字元素的位置信息保存至所述文字元素集合中; 若所述待转换文件为PDF文件,所述通过拆分算法拆分过滤后的所述文件内容中的文本元素和图片元素,得到文本元素集合和图片元素集合,包括: 创建pdf文档实例,初始化图片元素集合和文字元素集合,遍历过滤后的所述文件内容的所有页面,查询每个所述页面,提取所述页面中的所有图片元素,将所有所述图片元素、所述图片元素的页面位置信息保存至图片元素集合中,提取所述页面中的所有文字元素,将所有所述文字元素、所述文字元素的页面位置信息保存至文字元素集合中。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人湖南新云网科技有限公司,其通讯地址为:410000 湖南省长沙市岳麓区岳麓街道溁左路中南大学科技园研发总部5栋101房;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。