南京信息工程大学王丽丽获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉南京信息工程大学申请的专利一种面向RAG的嵌入服务弹性部署方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120872615B 。
龙图腾网通过国家知识产权局官网在2025-11-28发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511368928.X,技术领域涉及:G06F9/50;该发明授权一种面向RAG的嵌入服务弹性部署方法是由王丽丽;史骁;赵晓芳;宋甫元设计研发完成,并于2025-09-24向国家知识产权局提交的专利申请。
本一种面向RAG的嵌入服务弹性部署方法在说明书摘要公布了:本发明公开了一种面向RAG的嵌入服务弹性部署方法,属于计算机资源配置技术领域。该方法首先获取适用于RAG场景的嵌入模型并构建嵌入服务,通过自动化资源分析批量测试不同资源配置参数,筛选出满足服务质量要求的最优资源配置;其次集成RPS监控与动态批处理机制,结合GPU资源碎片化优化算法与三级候选GPU调度策略;随后根据推理请求负载触发混合扩缩容机制,形成协同调度;最终通过轮询机制分发推理请求并持续优化服务性能。本发明通过自动化资源分析、GPU资源碎片化优化与混合扩缩容策略的协同作用,可显著提升GPU资源利用率与嵌入服务的性能,有效支撑RAG场景下高并发、低延迟的推理需求。
本发明授权一种面向RAG的嵌入服务弹性部署方法在权利要求书中公布了:1.一种面向RAG的嵌入服务弹性部署方法,其特征在于,包括以下步骤: 获取适用于RAG场景的嵌入模型,构建包含模型加载与推理执行的嵌入服务,以处理推理请求; 对嵌入服务进行自动化资源分析,批量测试不同资源配置参数,计算性能指标,筛选出满足服务质量要求且性能指标最大时的参数组合并将其作为最优资源配置; 将最优资源配置注入嵌入服务,同时监测服务负载变化,依据双重触发条件执行动态批处理线程,对外提供向量化接口,编译生成GPU控制共享库,配置系统的共享库预加载列表,据此构建嵌入服务镜像; 统一分配端口资源,结合GPU资源碎片化优化算法与三级候选GPU调度策略智能分配GPU资源,并基于容器技术部署嵌入服务实例; 根据嵌入推理请求负载执行混合扩缩容,动态调整嵌入服务实例数量,实现横向扩缩容; 当负载突发时同步配合纵向扩缩容策略调整现有就绪实例的GPU资源分配,形成协同调度; 通过轮询调度机制分发推理请求,实时采集嵌入服务实例运行与资源消耗数据,根据混合扩缩容策略持续优化系统GPU资源利用率与嵌入服务性能,并将优化结果用于后续的GPU资源分配与扩缩容决策; 对嵌入服务进行自动化资源分析,批量测试不同资源配置参数,计算性能指标,筛选出满足服务质量要求且性能指标最大时的参数组合并将其作为最优资源配置的步骤包括: 计算效率指标,用于评估资源配置的合理性,公式为: , 式中,为嵌入服务在单位时间内能够成功处理的推理文本总数,为流多处理器占比; 初始化参数,包括设置推理延迟阈值、流多处理器占比参数以及批量大小参数; 执行嵌入服务的推理测试,同时记录流多处理器占比参数、批量大小参数、推理时间,以及吞吐量; 资源分析采用推理延迟阈值约束的参数搜索策略,通过调节流多处理器占与批量大小参数,并以效率指标为目标,在满足推理时间推理延迟阈值的条件下选取效率指标最大时的配置参数作为最优资源配置。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京信息工程大学,其通讯地址为:211899 江苏省南京市江北新区华富路1号数智溪谷4号楼;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励