江苏电力信息技术有限公司胡晓东获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉江苏电力信息技术有限公司申请的专利用于索引分布式数据库的文本信息压缩方法及压缩装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121144271B 。
龙图腾网通过国家知识产权局官网在2026-02-13发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511690716.3,技术领域涉及:G06F16/174;该发明授权用于索引分布式数据库的文本信息压缩方法及压缩装置是由胡晓东;胡天牧;宋港波;冯曙明;刘波;王兴阳;杨凤珠;陈凯;范鑫;丁继飞;王大淼;潘晨溦;陈婷;高远设计研发完成,并于2025-11-18向国家知识产权局提交的专利申请。
本用于索引分布式数据库的文本信息压缩方法及压缩装置在说明书摘要公布了:本发明公开了一种用于索引分布式数据库的文本信息压缩方法及压缩装置,文本信息压缩方法包括获取待处理文本并进行预处理,给出预定格式的纯文本;对预定格式的纯文本进行多级语义段落划分,给出对应的语义段落集合;对语义段落集合中的每个语义段落进行计及权重和位置的片段划分和映射处理,给出每个语义段落的签名标识;对签名标识进行索引化处理,并结合签名标识以及语义段落的标识信息,生成用于索引分布式数据库的压缩文本信息。可以避免因篇章结构变化而导致的误判;进行高度压缩的同时保持相似度的无偏估计,可以有助于识别经过语义改写、部分抄袭或结构重组的文本。
本发明授权用于索引分布式数据库的文本信息压缩方法及压缩装置在权利要求书中公布了:1.一种用于索引分布式数据库的文本信息压缩方法,其特征在于,包括: 获取待处理文本并进行预处理,给出预定格式的纯文本; 对预定格式的纯文本进行多级语义段落划分,给出对应的语义段落集合; 对语义段落集合中的每个语义段落进行分词处理,生成每个语义段落的词序列; 对每个词序列进行相似度计算,将相似度达到预定阈值的相邻词合并,给出第一语义片段集; 基于滑动窗口确定条件,对语义段落集合中的每个语义段落进行片段划分,给出第二语义片段集,包括:基于每个语义段落的信息熵,确定对应的滑动窗口大小;基于对应的滑动窗口大小对每个语义段落进行片段划分; 将第一语义片段集和第二语义片段集进行合并、过滤,得到最终的语义片段集; 通过多种权重计算方法分别对每个语义段落的语义片段进行权重计算并融合,给出每个语义片段的融合权重;将每个语义片段与其位置信息进行拼接,给出位置增强语义片段; 基于预设哈希函数族中采用不同种子值的每个哈希函数,分别对每个语义段落中的所有位置增强语义片段进行哈希计算,给出每个位置增强语义片段对应不同哈希函数的哈希值; 基于每个哈希函数的种子值、待处理文本的标识和每个语义片段的融合权重,给出每个位置增强语义片段对应不同哈希函数的调整值;将语义段落中每个位置增强语义片段对应不同哈希函数的哈希值分别与对应的调整值进行融合,给出语义段落中每个位置增强语义片段对应不同哈希函数的加权哈希值;从语义段落的所有加权哈希值中选取每个哈希函数的最小加权哈希值,给出每个语义段落的签名标识; 对签名标识进行索引化处理,并结合签名标识以及语义段落的标识信息,生成用于索引分布式数据库的压缩文本信息。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人江苏电力信息技术有限公司,其通讯地址为:210000 江苏省南京市鼓楼区北京西路22号二、三层;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励