青岛理工大学曹蕊获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉青岛理工大学申请的专利一种应用于医疗数据的活动序列采样流程挖掘方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120032911B 。
龙图腾网通过国家知识产权局官网在2025-07-08发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510519781.3,技术领域涉及:G16H50/70;该发明授权一种应用于医疗数据的活动序列采样流程挖掘方法及系统是由曹蕊;贠喆通;刘聪;张媛媛;田艳兵设计研发完成,并于2025-04-24向国家知识产权局提交的专利申请。
本一种应用于医疗数据的活动序列采样流程挖掘方法及系统在说明书摘要公布了:本发明公开了一种应用于医疗数据的活动序列采样流程挖掘方法及系统,属于信息技术领域,方法步骤为:获取原始事件日志,并进行数据清洗;基于事件嵌入模型和DBSCAN算法将语义相似的事件活动聚类为同一个簇,并为每一个簇生成唯一的语义标识符;生成去冗余事件日志;基于轨迹的综合重要性得分对去冗余事件日志进行采样,得到样本事件日志;将样本事件日志输入归纳式挖掘算法生成对应的流程模型。系统包括数据采集与清洗模块、聚类模块、去冗余模块、采样模块、流程模型生成模块。本发明在保证日志代表性的同时,大幅提升处理效率,适用于医疗领域的大规模日志处理需求,为业务流程优化提供可靠支持。
本发明授权一种应用于医疗数据的活动序列采样流程挖掘方法及系统在权利要求书中公布了:1.一种应用于医疗数据的活动序列采样流程挖掘方法,其特征在于,包括如下步骤: 步骤1、获取原始事件日志,并进行数据清洗; 步骤2、基于事件嵌入模型和DBSCAN算法将语义相似的事件活动聚类为同一个簇,并为每一个簇生成唯一的语义标识符; 步骤3、将事件日志中语义相似的事件活动替换为簇对应的语义标识符,生成去冗余事件日志; 步骤4、基于轨迹的综合重要性得分对去冗余事件日志进行采样,得到样本事件日志; 步骤5、将样本事件日志输入归纳式挖掘算法生成对应的流程模型,并对流程模型的质量和复杂度进行评估; 所述步骤1的具体过程为: 步骤1.1、从医疗机构的医院信息系统中导出标准事件日志作为原始事件日志,事件日志的格式为符合XES规范的结构化文件,包含事件活动名称、时间戳、案例ID、执行活动的参与者; 事件日志是一个包含若干条轨迹的集合,一条轨迹是一个由若干个事件活动组成的序列; 定义原始事件日志为: 1; 其中,为原始事件日志;为轨迹总数;为第条轨迹,具体为: 2; 其中,为第条轨迹中的第个事件活动; 步骤1.2、对原始事件日志进行数据清洗,移除未包含完整生命周期信息的轨迹,对事件活动的标签进行标准化处理,统一事件活动的标签; 所述步骤2的具体过程为: 步骤2.1、训练事件嵌入模型;对清洗后的事件日志中的每条轨迹,采用长度为的滑动窗口方法形成上下文对,所有的上下文对构成训练样本集合,用于训练事件嵌入模型;其中,表示目标事件活动,表示滑动窗口内与目标事件活动共现的上下文事件活动; 训练时,设置的参数包括:向量维度、负采样数、学习率; 设置模型训练的目标函数为: 3; 其中,为事件嵌入模型;表示向量内积操作;为负采样候选事件活动;为事件活动全集; 当训练迭代次数达到预设的次数时,训练结束; 步骤2.2、采用训练完成的事件嵌入模型对事件活动进行向量化表示得到嵌入序列; 步骤2.3、对嵌入序列应用DBSCAN算法进行聚类;DBSCAN算法是一种基于密度的聚类算法,将通过计算嵌入序列之间的密度可达性,自动将密度连通的嵌入序列划分到同一簇中,从而识别语义相似的事件活动;聚类过程中采用分布式计算,将嵌入序列分片至6个Spark节点并行计算;最终聚类结果包含若干个簇,每个簇内包含若干个语义相似的事件活动; DBSCAN算法参数包括:邻域半径、最小样本数; 步骤2.4、预先设置第一阈值和第二阈值,统计每个簇的成员数并与第一阈值进行比较,计算嵌入空间中每个簇与其他簇的最小欧氏距离,并与第二阈值进行比较;若第个簇的成员数小于第一阈值,且其在嵌入空间中与其他簇的最小欧氏距离大于第二阈值,则第个簇为孤立的噪声簇;为除噪声簇外的其他每一个簇分配唯一的语义标识符,格式为:;为第个簇对应的语义标识符; 所述步骤2.2的具体过程为: 步骤2.2.1、基于训练完成的事件嵌入模型构建活动的语义表示空间: 4; 其中,为事件活动的语义表示空间;表示事件活动的嵌入向量表示;表示嵌入向量的维度; 步骤2.2.2、每条轨迹以滑动窗口方式提取固定长度的子序列,表示为嵌入序列: 5; 其中,为嵌入序列,表示通过滑动窗口提取的子序列在嵌入空间中的表示序列;表示嵌入序列中第个事件活动对应的嵌入向量表示; 所述步骤3的具体过程为: 将事件日志中语义相似的事件活动换为簇对应的语义标识符,形式为: 6; 从而形成结构简化后的去冗余事件日志: 7; 其中,为更新操作;为去冗余事件日志;、分别为第条轨迹中的第个、第个事件活动;表示第条轨迹中第个事件活动,该事件活动为语义相似的事件活动;为聚类后的第条轨迹;表示聚类后第条轨迹中的第个事件活动,该事件活动为簇对应的语义标识符; 所述步骤4的具体过程为: 步骤4.1、预先设置第三阈值,某事件活动的出现频次小于第三阈值,且经医疗专家或领域知识库确认具有关键业务意义,则将该事件活动标记为关键低频事件活动,将关键低频事件活动所在的轨迹标记为低频轨迹,其余轨迹标记为普通轨迹; 步骤4.2、计算每条轨迹的活动重要性及结构重要性,并加权计算综合重要性得分; 活动重要性的计算公式为: 8; 其中,为第条轨迹的活动重要性;为事件活动在去冗余事件日志中的覆盖率; 结构重要性的计算公式为: 9; 其中,为第条轨迹的结构重要性;、分别为第条轨迹中的第个、第个事件活动;表示事件活动对在去冗余事件日志中的直接跟随频率; 采用线性加权计算轨迹的综合重要性得分: 10; 其中,为第条轨迹的综合重要性得分;为权重; 在计算低频轨迹的综合重要性得分时,设置权重系数,对于普通轨迹,则设置; 步骤4.2、根据综合重要性得分对所有轨迹进行排序,选取综合重要性得分最高的前条轨迹作为样本事件日志: 11; 其中,为样本事件日志;为所有轨迹中综合重要性得分最高的前条轨迹;为预设采样率下的目标轨迹数;为采样率,采样率支持用户根据计算资源动态调整,调整范围为20%-30%。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人青岛理工大学,其通讯地址为:266525 山东省青岛市黄岛区嘉陵江东路777号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。