上海巨闲网络科技有限公司杨宇建获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉上海巨闲网络科技有限公司申请的专利一种基于向量模型和向量相似检索的精简题生成方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121353040B 。
龙图腾网通过国家知识产权局官网在2026-04-17发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511926182.X,技术领域涉及:G06Q50/20;该发明授权一种基于向量模型和向量相似检索的精简题生成方法及系统是由杨宇建;陈楠设计研发完成,并于2025-12-19向国家知识产权局提交的专利申请。
本一种基于向量模型和向量相似检索的精简题生成方法及系统在说明书摘要公布了:本发明公开了一种基于向量模型和向量相似检索的精简题生成方法及系统,首先对用户上传的多模态试题数据进行提取并获得查询试题文本集合,再利用向量模型生成方法对查询试题文本集合中每个查询试题文本的向量值进行计算并获得查询试题向量,接着基于查询试题向量采用向量相似性检索法在待检索试题数据库对查询试题文本集合中每个查询试题文本进行多模态检索并获得查询试题综合相似度分数;本发明有效的实现了具有采用精准的语义表征与相似性检索对重复及考点相似试题进行全面识别并精简题集的功能,不仅大幅提高了精简题的识别准确率,还减少了人工筛选冗余试题的人力成本,同时也提升了用户练习效率,降低了试题库资源消耗。
本发明授权一种基于向量模型和向量相似检索的精简题生成方法及系统在权利要求书中公布了:1.一种基于向量模型和向量相似检索的精简题生成方法,其特征在于:包括以下步骤, 步骤A,对用户上传的多模态试题数据进行提取并获得查询试题文本集合,其中用户上传的多模态试题数据格式包含Word、Excel、PDF、TXT、WPS、WPT、PPT、JPEG、PNG、CSV、ET和JSON格式; 步骤B,利用向量模型生成方法对查询试题文本集合中每个查询试题文本的向量值进行计算并获得查询试题向量,具体步骤如下, 步骤B1,使用BERT分词器对查询试题文本进行分词并生成包含CLS和SEP标记的token序列; 步骤B2,采用设定最大序列长度maxlen对token序列进行截断或填充处理并生成定长tokenID序列,其中最大序列长度maxlen能按选择题、填空题、简答题和综合题的不同长度按需调节; 步骤B3,将tokenID序列输入BERT分词器,其中所述BERT分词器具体是将tokenID序列映射为初始向量,再通过自注意力机制和前馈神经网络获得隐藏状态矩阵; 步骤B4,根据文本长度选择特征提取策略提取隐藏状态矩阵核心向量,其中特征提取策略采用词嵌入模型和词袋模型分别动态适应不同长度的试题内容; 步骤B5,对隐藏状态矩阵核心向量进行L2归一化并得到模长为1的查询试题向量,具体如公式1所示, 1 其中,为查询试题向量,为隐藏状态矩阵核心向量; 步骤C,基于查询试题向量采用向量相似性检索法在待检索试题数据库对查询试题文本集合中每个查询试题文本进行多模态检索并获得查询试题综合相似度分数,再根据查询试题综合相似度分数对查询试题文本进行降序排序并选取排序靠前的查询试题文本组成查询试题检索结果列表,具体步骤如下, 步骤C1,对待检索试题数据库中每个待检索试题文本采用BGE-M3模型进行编码并得到第一编码向量; 步骤C2,对查询试题文本采用BGE-M3模型进行编码并获得第二编码向量; 步骤C3,根据第一编码向量和第二编码向量进行多模态检索与相似度分数计算并获得查询试题综合相似度分数,其中多模态检索与相似度分数计算具体步骤如下, 步骤C31,执行密集检索并获得初始候选文本集合,其中所述密集检索具体是计算密集向量相似度,如公式2所示, 2 其中,为密集向量相似度,为查询试题文本的密集向量,为待检索试题文本的密集向量; 步骤C32,基于初始候选文本集合执行稀疏检索,其中所述稀疏检索具体是计算稀疏向量相似度,如公式3所示, 3 其中,为稀疏向量相似度,为查询试题文本的稀疏向量,为待检索试题文本的稀疏向量,为在第i个维度上的取值; 步骤C33,对初始候选文本集合进行重新排序并获得重排候选文本集合,再基于重排候选文本集合执行多向量检索,其中所述多向量检索具体是计算多向量相似度,如公式4所示, 4 其中,为多向量相似度,为查询试题文本的多向量,为待检索试题文本的多向量,为在第个维度上的取值; 步骤C34,对密集向量相似度、稀疏向量相似度和多向量相似度进行加权融合并获得查询试题综合相似度分数,具体如公式5所示, 5 其中,为查询试题综合相似度分数,为密集检索权重,为稀疏检索权重,为多向量检索权重; 步骤C4,根据查询试题综合相似度分数对查询试题文本进行降序排序并选取排序靠前的查询试题文本组成查询试题检索结果列表,其中排序靠前的比例能按需调节; 步骤D,基于待检索试题数据库设定精简题相似度标准阈值,再将精简题相似度标准阈值与查询试题检索结果列表中查询试题文本的查询试题综合相似度分数依次进行比较并获得查询试题判定结果; 步骤E,将查询试题文本集合存入并更新待检索试题数据库,再将试题判定结果中的精简题组成精简题集并输出。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人上海巨闲网络科技有限公司,其通讯地址为:201100 上海市闵行区东川路555号己楼2层0082室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励