山东理工职业学院孔儒获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉山东理工职业学院申请的专利基于人工智能的传统文化数据库构建方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120216554B 。
龙图腾网通过国家知识产权局官网在2026-04-03发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510317751.4,技术领域涉及:G06F16/2455;该发明授权基于人工智能的传统文化数据库构建方法是由孔儒;赵奇;梁冲;步伟设计研发完成,并于2025-03-18向国家知识产权局提交的专利申请。
本基于人工智能的传统文化数据库构建方法在说明书摘要公布了:本发明公开了基于人工智能的传统文化数据库构建方法,属于数据库构建技术领域,本方法先分析数据源更新时间点确定统计时长,计算数源活跃度、数源关注度得出采频匹配值,匹配数据源采集频率,解决传统采集策略不灵活问题;接着对用户查询语句分词,构建查询关键词集合确定检索领域,依文献匹配值排序,提升检索效率;最后收集用户行为数据,分析文献热度值确定缓存文献与缓存点,缓存至对应库,空间不足时淘汰热度低的文献,且每三天更新,适应文献热度变化;与现有技术相比,本发明可精准把握数据源特性调整采集策略,快速定位有价值资料,根据用户行为和文献热度动态管理缓存,提升数据库的时效性、检索效率和用户体验。
本发明授权基于人工智能的传统文化数据库构建方法在权利要求书中公布了:1.基于人工智能的传统文化数据库构建方法,其特征在于:包括以下步骤: 步骤一:分析数据源的更新时间点,确定统计时长,在统计时长内,统计新文献发布量、已有文献更新量以及文献的下载量、浏览时长和收藏次数,分别计算数源活跃度和数源关注度;综合分析统计时长、数源活跃度和数源关注度,得出采频匹配值,根据采频匹配值匹配数据源的采集频率; 确定统计时长的具体过程为: 针对每一个数据源,先获取该数据源最近六次更新的时间点,计算相邻两次更新时间点之间的时间间隔,记为邻间时长,随后利用标准差计算公式,计算所有邻间时长之间的标准差值,记为邻间标准差,将邻间标准差与预设邻间标准差阈值进行比对,若邻间标准差大于或等于对应阈值,则以每批增加两个更新时间点的方式,重新计算邻间标准差,直至更新间隔差小于对应阈值后停止;最后把停止计算邻间标准差操作时对应的所有相邻更新时间间隔进行相加后除以间隔数量,得到数据源的均更时长; 以数据源最近一次完成数据更新的时间点为起始时刻,在此基础上往后推移均更时长,所抵达的时间点即为结束时刻,将这段时长,记为统计时长TC; 数源活跃度和数源关注度的分析过程为: 获取统计时长内,数据源发布新文献的数量和已有文献的更新数量,并结合预设权重,计算数源活跃度; 对于数据源中每一个文献,求和统计时长内,用户对文献的下载量、浏览时长以及收藏次数,并结合预设权重,计算数源关注度; 根据采频匹配值匹配数据源的采集频率的过程为: 预设若干个采频匹配值区间,且每个采频匹配值区间均对应一个数据源采集频率; 对于每个数据源,通过将其对应的采频匹配值与所有的采频匹配值区间进行匹配,输出对应的采频匹配值区间对应的采集频率,并通过此采集频率,确定为该数据源的文献数据采集频率;预设采集更新调节因子k,其中k大于1,利用公式:GT=TC×k,得到采频更新时长GT; 步骤二:将用户的查询语句进行词汇分词,通过分析词汇的频逆值,构建查询关键词集合,根据查询关键词集合确定检索领域,分析检索领域内文献的文献匹配值,并根据文献匹配值对检索领域内的文献进行排序; 分析词汇的频逆值,构建查询关键词集合的具体过程为: 当用户输入查询语句后,将查询语句拆分成若干个独立的词汇,针对每个拆分后的词汇,统计词汇在查询运距中出现的次数,随后将词汇在查询运距中出现的次数除以词汇总数,得到词汇词频; 将采集获取的所有文献数据,整理构成文档集合,针对每个词汇,统计文档集合中包括该词汇的文献数量,并整理成词档集合,通过将文档集合中文献的总数除以词档集合中文献的总数,得到词汇的逆文档频率; 针对每个词汇,通过将词汇对应的词汇词频与词汇的逆文档频率进行相乘,得到频逆值,将词汇对应的频逆值与预设关键词频逆阈值进行比对,若词汇对应的频逆值大于或等于预设关键词频逆阈值,则将该词汇标记为对应查询语句的关键词,通过将用户查询语句对应的关键词,整理构成关键词集合,记为查询关键词集合; 根据查询关键词集合确定检索领域,分析检索领域内文献的文献匹配值,并根据文献匹配值对检索领域内的文献进行排序的过程为: 获取文档集合所涉及的各个文献领域,针对每个文献领域,获取与之对应的特定关键词集合,记为文域关键词集合; 针对每个文献领域,通过将查询关键词集合与文域关键词集合进行匹配,输出匹配的关键词数量,记为领域匹配值,将领域匹配值与预设领域匹配阈值进行比对,若领域匹配值大于预设领域匹配阈值,则将该文献领域标记为检索领域,将所有检索领域整理构成检索列表; 针对检索列表内的每个检索领域,将该领域中所有的文献,整理构成领域文献库,针对领域文献库内的每一篇文献,统计文献中包含有查询关键词集合里词汇的数量,记为文献匹配值,将领域文献库内的所有文献按照文献匹配值的大小对领域文献库中的文献进行排序; 步骤三:收集用户的行为数据,并根据行为数据,分析文献热度值,根据文献热度值分析缓存文献,通过向各缓存节点发送测试数据包,确定文献缓存点,并将缓存文献在文献缓存点对应的缓存文献库中进行缓存; 文献热度值的分析过程为: 针对每位用户,获取其最近三天内所有查询语句对应的所有检索领域,并生成一个包含全部检索领域的无序列表;随后统计列表中每个不同检索领域出现的频次,记为领域检重值,针对每个检索领域,若领域检重值大于预设领域检重阈值,则将该检索领域标记为缓存领域; 对于每个缓存领域,获取对应的领域文献库,针对领域文献库内的每篇文献,通过将当前时间减去文献发布时间,得到文献发布时长; 尝试获取用户对文献的最近一次点击时刻,若能获取到该时刻,将当前时间减去最近一次点击时刻,得到文献闲置时长,预设文献闲置时长阈值,若文献闲置时长大于预设文献闲置时长阈值,则将文献闲置时长阈值作为文献闲置时长;若从未有过点击记录,直接将文献闲置时长阈值作为文献闲置时长; 获取文献的评论量、收藏次数、用户阅读时长并结合文献发布时长以及文献闲置时长进行综合分析,得到文献热度值; 确定文献缓存点,并将缓存文献在文献缓存点对应的缓存文献库中进行缓存的过程为: 通过将文献对应的文献热度值与预设文献热度阈值进行比对,若文献热度值大于预设文献热度阈值,则将该文献标记为缓存文献; 设置每个缓存节点,都对应设置有缓存文献库,通过向各缓存节点发送测试数据包,测量从用户设备到每个缓存节点的往返时间,将往返时间最短的缓存节点,标记为文献缓存点,将所有缓存文献在文献缓存点对应的缓存文献库中进行缓存; 若缓存文献库的缓存空间不足,则采用优先级淘汰算法,依次淘汰文献热度值最低的文献; 设置缓存文献库更新机制,设置每间隔三天,触发一次更新操作,触发更新操作时,删除缓存文献库中所有的文献,并重新分析缓存文献,并存入缓存文献库中。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人山东理工职业学院,其通讯地址为:272000 山东省济宁市任城区荷花路南首;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励