神州医疗科技股份有限公司白焜太获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉神州医疗科技股份有限公司申请的专利一种大模型检索增强生成的自适应切片的文档切分方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119903834B 。
龙图腾网通过国家知识产权局官网在2025-10-21发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411887946.4,技术领域涉及:G06F40/258;该发明授权一种大模型检索增强生成的自适应切片的文档切分方法是由白焜太;王蕾;周文仲;杨雅婷;许娟;史文钊设计研发完成,并于2024-12-20向国家知识产权局提交的专利申请。
本一种大模型检索增强生成的自适应切片的文档切分方法在说明书摘要公布了:本发明公开了一种大模型检索增强生成的自适应切片的文档切分方法,涉及大模型检索增强生成技术领域,方法包括:获取待切分文档,并对所述待切分文档按照标题类型进行切分,得到至少一组原始切块;根据任一原始切块对应的信息密度以及主题变化度,计算该原始切块的最优切分数量;根据所述最优切分数量对该原始切块进行切分处理。本发明先将文档按照层次标题进行切分,然后计算层次标题下的信息密度和主题变化度,以层级标题为单位,自动计算该层级标题下的最优切分大小,来指导文档的自适应切分,以提高后续检索和生成任务的效果。
本发明授权一种大模型检索增强生成的自适应切片的文档切分方法在权利要求书中公布了:1.一种大模型检索增强生成中基于层级标题的自适应切片的文档切分方法,其特征在于,包括: 获取待切分文档,并对所述待切分文档按照标题类型进行切分,得到至少一组原始切块; 根据任一原始切块对应的信息密度以及主题变化度,计算该原始切块的最优切分数量; 根据所述最优切分数量对该原始切块进行切分处理; 所述信息密度的计算方式为: 其中,Ti表示第i个原始切块对应的信息密度,Nd为第i个原始切块中对文字去重后的文字总个数,ti表示Nd个去重后的文字中的第i个字通过TF-IDF算法得到的权重,ni代表Nd个去重后的文字中的第i个字出现的频次,Nall表示第i个原始切块中所有字的个数; 所述主题变化度的计算方式为: Di=DJSvi-1,vi; 其中,Di为第i个原始切块对应的主题变化度,DJS是Jensen-Shannon散度,vi-1表示第i-1个原始切块对应的向量分布,vi代表当前第i个原始切块的向量分布; 所述最优切分数量的计算方式为: 其中,Si为第i个原始切块对应的最优切分数量,C表示第i个原始切块对应的总字符数,α、β以及γ为调节参数。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人神州医疗科技股份有限公司,其通讯地址为:100080 北京市海淀区颐和园路2号未来科技大厦主楼12层1201室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励