广西师范大学邓诗宇获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉广西师范大学申请的专利基于图嵌入和层次聚类识别癌症驱动模块方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116664503B 。
龙图腾网通过国家知识产权局官网在2026-03-17发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310563618.8,技术领域涉及:G06T7/00;该发明授权基于图嵌入和层次聚类识别癌症驱动模块方法是由邓诗宇;吴璟莉;李高仕;刘佳飞设计研发完成,并于2023-05-18向国家知识产权局提交的专利申请。
本基于图嵌入和层次聚类识别癌症驱动模块方法在说明书摘要公布了:本发明公开了一种基于图嵌入和层次聚类识别癌症驱动模块方法,包括如下步骤:1设定模型;2构建加权网络;3通过图嵌入技术提取加权蛋白质相互作用网络PPI的特征;4对特征向量聚类;5构建驱动模块集。这种方法更有效、更准确地识别驱动模块,而且识别出具有更高覆盖度和互斥度的驱动模块,还检测遗漏了的癌症相关的基因。
本发明授权基于图嵌入和层次聚类识别癌症驱动模块方法在权利要求书中公布了:1.基于图嵌入和层次聚类识别癌症驱动模块方法,其特征在于,包括如下步骤: 1设定模型: 假设有一个来自L种癌症的体细胞数据的突变矩阵,其中行代表一组癌症样本,列代表一组基因,矩阵中每一项的值为1或0,表示基因在样本中是否突变,1表示突变,0表示不突变,对于每个,令表示样本集合,其中基因都是突变的基因,令为模块集,如下所示: 1 对于任何一对基因,其中,表示一组选定的基因,也代表一个模块,基因子集的互斥度表示为: 2 若,则子集中的基因是互斥的,即每个样本中子集中至少有一个基因突变,基因子集的覆盖度表示为: 3 若,则基因子集完全覆盖所有患者,即每个样本至少有一个子集内的至少一个基因发生突变; 假设是基因的一个子集,用表示模块相对大小,即,的互斥度得分定义为: 4 的覆盖度得分定义为: 5; 对于一个图和一组的基因,让表示由中基因对应的顶点的子图,癌症驱动模块识别问题:给定作为输入的网络,每个基因的,基因总数和最小模块大小,找到一组不相交的模块,该模块集分数通常定义为: 6 并满足以下条件: 1是连通的; 2; 3 2构建加权网络: 给定一个网络表示连接的蛋白质相互作用网络,构造一个无向加权图,其中每个顶点表示从基因表达生成的蛋白质,每个无向边表示基因和基因相应的蛋白质之间的相互作用,为明确蛋白质的生物学来源,该蛋白质由基因编码表达,在网络的标识与引用中,使用编码基因的名称来索引和指代该蛋白质顶点,因此,既代表基因又代表蛋白质与蛋白质相互作用网络中相应的顶点;考虑基因与直接邻居基因存在紧密的联系,将顶点及其直接邻居顶点的集合定义为如下所示: 7 为了平衡基因之间的互斥性以及基因与其周围基因共存的机会,利用和的平均值作为网络中基因对的互斥度,如下所示: 8 为了减少单个基因的覆盖度过大或过小,使用两个基因的覆盖度乘积表示基因对之间的覆盖度,如下所示: 9 通过引入mirDIP数据库上基因与miRNA的置信度,用表示,其中e表示边,计算出基因与之间的置信度: 10 表示相互作用网络,表示的顶点集合,只含有顶点,表示与miRNA边的集合,,只含有顶点,表示与顶点集之间边的集合,表示与顶点集之间边的集合,表示与顶点集之间边的个数,表示与顶点集之间边的个数,当与之间没有共同的miRNA顶点时即,则设置为0.2; 综合基因对之间的互斥度、覆盖度和置信度三个特征,计算加权无向图的边权如下: 11 为了进一步加强互斥性对权重的影响,引入一个阈值,对于评分小于的边权被赋值为0,最后对于在中基因对的实际边权如下: 12 其中表示顶点与其直接相邻顶点之间的边权之和; 3通过图嵌入技术提取加权蛋白质相互作用网络PPI的特征: 步骤2构造了无向加权图,在上应用顶点嵌入过程,该过程也称为图嵌入过程;图嵌入是一种宽泛的技术,它可以将整个图形映射到低维空间,将图形数据转换为能被机器学习模型理解的特征向量,而顶点嵌入是一种更具体的技术,它能将顶点的特征映射到能被机器学习模型理解的特征向量,从而使得顶点之间的相似性能更好地表示出来,使用AdityaGrover和JureLeskovec提出的Node2vec用于学习网络中顶点的连续特征表示算法的框架,将中的特征学习表述为最大似然优化问题,优化以下目标函数: 13 其中,函数分别表示顶点到特征表示的映射函数,表示通过邻域采样策略生成的顶点的网络邻域,采样策略为二阶有偏随机游走,即到达下一顶点不仅与当前顶点有关,还与上一顶点有关,即: 14 其中,表示二阶有偏随机游走的起始顶点,表示二阶有偏随机游走当前顶点的上一顶点、即的上一顶点,表示二阶有偏随机游走的当前顶点,Z为归一化常数,表示与之间的非归一化的转移概率,即: 15 为顶点的边权,表示为搜索偏量,即: 16 表示顶点到顶点的最短路径距离,p和q是决定采用DFS或者BFS的关键参数,p控制游走过程中立即重新访问某顶点的可能性,,则随机游走偏向于靠近顶点的顶点,即样本由小局部内的顶点组成;,则游走倾向于访问距离顶点远的顶点,利用Node2vec图嵌入方法在上通过邻域采样策略进行二阶随机游走后,得到一个能被机器学习模型理解的特征向量; 4对特征向量聚类: 采用层次聚类分析方法对步骤3得到的特性向量进行聚类分析,在聚类分析中,k值是指将数据集划分为几个簇的数量,它会影响聚类的结果和质量,若k值太小,会导致簇内差异过大,失去聚类的意义;若k值太大,会导致簇内差异过小,增加计算复杂度,因此,合理选择k值是聚类分析中一个关键的问题,根据样本基因集个数和模块大小来确定k值,在多个癌症驱动模块的研究中,设置,在合理且便于计算的情况下,设置一个最大模块大小序列;根据以下公式能得到一个k值序列: 根据设置,假设最大模块大小为单个模块的大小,又使得两个数之间不产生倍数关系,向上选取最近的质数,得到序列,最终根据结果选择合适的k值; 在聚类分析中,度量样本之间相似性或差异性的距离选择会影响聚类的结果和效果,因为步骤3得到的是一个多维特征向量,所以选择马氏距离,假设,在特征矩阵中的特征向量分别为:,则与之间的马氏距离为: 其中是多维随机变量的协方差矩阵,马氏距离排除变量之间的相关性的干扰,使得距离合理; 使用上述的层次聚类分析后,得到一个簇集; 5构建驱动模块集: 对于步骤4得到的簇集,提出了以下簇集处理算法,需要采用三个主要步骤:即对基因集评分排序、删除基因、对各簇取子连通分量后才得到最终的癌症驱动模块;首先创建一组候选模块,根据的网络拓扑结构从各簇中选取顶点个数大于或等于的子连通分量,将子连通分量作为候选模块添加到初始模块集P中,然后根据中顶点强度和样本覆盖度对初始模块集P中的每个基因进行评分排序,得到一个基因排序序列,第三步,从P中移除基因排序序列中后几个基因并回到上面两步更新模块集P和基因排序序列,直到模块集P中的基因总数减少到,该步骤的目的是将评分低的基因动态删除再根据中的连接结构重新取得子连通分量,经过上述过程后,得到了最终的癌症驱动模块基因集,构建驱动模块集的簇集处理算法过程如下: 算法:簇集处理 输入:簇集;加权无向图;参数;基因规模参数, ,步长;最小模块大小; 输出:一个驱动模块集 Foreachdo 中的连通子图被存储在中; Foreachdo 若则 将存储到模块集中; 结束 结束 结束 用函数对中的基因评分得到一个基因排序序列; 当do 从集合中删除中最后个顶点; ; 置为空; foreachdo 中的连通子图存储在中; foreachdo 若则 将存储到模块集中; 结束 结束 结束 若且则 输出 结束 结束 函数: 输入:加权无向图;顶点 返回:顶点得分 foreachdo end ,其中为的覆盖度 返回。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人广西师范大学,其通讯地址为:541004 广西壮族自治区桂林市七星区育才路15号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励