北京硅基流动科技有限公司朱平获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京硅基流动科技有限公司申请的专利用于大模型的推理系统及方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120144300B 。
龙图腾网通过国家知识产权局官网在2025-11-18发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510246741.6,技术领域涉及:G06F9/50;该发明授权用于大模型的推理系统及方法是由朱平;李一鹏;张文骁;郑泽康设计研发完成,并于2025-03-04向国家知识产权局提交的专利申请。
本用于大模型的推理系统及方法在说明书摘要公布了:本公开涉及一种用于大模型的推理系统及方法。所述系统包括:路由组件、预填充组件、独立于预填充组件部署的解码服务组件以及在预填充组件和解码服务组件之间通信组件。路由组件基于当前数据处理请求的token信息将请长前数据处理请求路由到预填充组件进行预填充处理,将短前数据处理请求路由到解码服务组件执行解码处理,并且基于预填充组件或解码服务组件中的多个推理实力的负载状态进行负载均衡路由。
本发明授权用于大模型的推理系统及方法在权利要求书中公布了:1.一种用于大模型的推理系统,包括:路由组件、预填充组件、独立于预填充组件部署的解码服务组件以及在预填充组件和解码服务组件之间通信组件,其中, 路由组件,接收用户的当前数据处理请求,获取当前数据处理请求的token信息,并采用元信息服务器中所缓存的token信息与所述当前数据处理请求的token信息进行匹配,并将匹配命中率高于命中率预定阈值的当前数据处理请求确定为短请求,以及将匹配命中率小于或等于预定阈值的当前数据处理请求确定为长请求,并将长请求的最大token数量置为1,同时将当前数据处理请求的token信息缓存到所述元信息服务器中; 预填充组件,由其处理实例对从路由组件转发来的长请求进行预填充处理,生成初始的上下文表示,并由其处理实例向元信息服务器实时更新包括自己的缓存、负载以及存活状态在的信息,同时将原始长请求和所生成的初始上下文传输到解码服务组件; 解码服务组件,由其处理实例基于从路由组件转发来的短请求以及已经缓存在元信息服务器中的与所述短请求相关联的上下文,执行解码处理,生成对应于所述短请求的输出token,以及基于从预填充组件经由通信组件传输来的原始长请求以及针对长请求生成的初始上下文执行解码处理,生成应于对应于所述长请求的输出token,并由其处理实例向元信息服务器实时更新包括自己的缓存、负载以及存活状态在的信息。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京硅基流动科技有限公司,其通讯地址为:100039 北京市海淀区王庄路1号院清华同方科技大厦4号楼8层0803;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励