哈尔滨工业大学姜涛获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉哈尔滨工业大学申请的专利基于端到端组装基因组的变异检测方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119785877B 。
龙图腾网通过国家知识产权局官网在2025-10-24发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411982669.5,技术领域涉及:G16B20/20;该发明授权基于端到端组装基因组的变异检测方法是由姜涛;武传敏;刘亚东;王亚东设计研发完成,并于2024-12-31向国家知识产权局提交的专利申请。
本基于端到端组装基因组的变异检测方法在说明书摘要公布了:基于端到端组装基因组的变异检测方法,本发明涉及变异检测方法。本发明的目的是为了解决目前基于拼接检测结构变异的方法存在着检测不全,检测不准、无法识别复杂变异类型及基因分型准确性低的问题。基于端到端组装基因组的变异检测方法过程为:步骤一、变异信号处理,得到处理后的变异信号;步骤二、对步骤一获得的处理后的变异信号进行混合排序,对排序后的变异信号进行空间分布聚类,判断空间分布聚类后的变异信号是否为潜在复杂变异,若是,则判断复杂变异类型并输出,得到复杂变异信号,执行步骤三;若否,则表明为简单变异信号,执行步骤三;步骤三、对步骤二得到的变异信号进行基因分型。本发明用于变异检测领域。
本发明授权基于端到端组装基因组的变异检测方法在权利要求书中公布了:1.基于端到端组装基因组的变异检测方法,其特征在于:所述方法具体过程为: 步骤一、变异信号处理,得到处理后的变异信号;具体过程为: 步骤一一、获取BAM格式比对信息; 步骤一二、对步骤一一获取的BAM格式比对信息进行过滤,得到过滤后的BAM格式比对信息; 步骤一三、对过滤后的BAM格式比对信息中变异信号进行提取;具体过程为: 根据过滤后的BAM格式比对信息中flag标志位将比对信息分为intra信号和inter信号; 对intra信号进行信号处理,获取插入、删除两种变异信号; 对inter信号进行信号处理,获取插入、删除、倒位、易位、重复五种变异信号; 步骤一四、对提取的变异信号进行聚类,输出聚类簇结果;具体过程为: 基于特征相似度的无监督聚类和过滤方法:分别对每种变异类型基于距离分布将位点相近且特征相似的变异聚类在一起,形成平均变异达到过滤的效果; 步骤一五、对输出的所有聚类簇结果进行过滤,得到最终聚类结果,即每个聚类簇中所含信号整合为一个结构变异信号进行输出; 所述过滤的具体过程为: 1、设置最大聚类数max_cluster; 2、若聚类簇中聚类数大于max_cluster,则丢弃对应的聚类簇; 步骤二、对步骤一获得的处理后的变异信号进行混合排序,对排序后的变异信号进行空间分布聚类,判断空间分布聚类后的变异信号是否为潜在复杂变异,若是,则判断为复杂变异信号,得到复杂变异信号,执行步骤三;若否,则判断为简单变异信号,执行步骤三,简单变异信号为插入、删除、倒位、易位、重复中的一种变异信号;具体过程为: 1、采用归并排序或快速排序算法对步骤一获得的处理后的变异信号按照在参考基因组上的起始位置升序进行混合排序; 2、以排序后的首个变异信号起始位置所处基因组位置为中心,从中心向前延伸Dist2碱基对,从中心向后延伸Dist2碱基对,构成长度为Dist扫描窗口; 获取扫描窗口内的全部变异信号; 3、判断扫描窗口内的全部变异信号所属的变异类型; 变异类型包括插入、删除、倒位、易位或重复; 当某一扫描窗口内的变异信号类型数量超出两种时,即认定此扫描窗口为潜在复杂变异区域;否则此扫描窗口不为潜在复杂变异区域; 4、提取潜在复杂变异区域中每个复杂变异信号的详细信息,详细信息包括每个变异信号的变异类型、变异染色体名称、变异起始位置,复杂变异信号的格式为CSV,染色体名称,变异类型,变异起始位置; 其中,CSV为格式标识; 5、将扫描窗口按序后移一个变异信号,重复执行1-4,直至混合排序后的所有复杂变异信号均完成遍历处理; 步骤三、对步骤二得到的变异信号进行基因分型;具体过程为: 步骤三一、对步骤二得到的不同类型的变异信号分别进行距离聚类;具体过程为: 针对插入类型的变异信号,检查三个条件:一是当前变异信号所在染色体名称和当前聚类簇内变异所在染色体名称相同;二是当前变异信号中染色体起始位置和当前聚类簇最后一个变异信号染色体起始位置欧氏距离小于200bp;三是当前变异信号变异长度与当前聚类簇最后一个变异信号变异长度的差值小于50bp;如果三个条件均满足则将当前变异信号加入当前聚类簇;否则,开启一个新聚类簇,并将当前变异信号加入新聚类簇; 针对删除、倒位或重复类型的变异信号,检查三个条件,一是当前变异信号所在染色体名称和当前聚类簇内变异所在染色体名称相同;二是当前变异信号变异起始位置和当前聚类簇最后一个变异信号变异起始位置欧氏距离小于200bp;三是当前变异信号中变异终止位置和当前聚类簇最后一个变异信号中变异终止位置欧氏距离小于200bp;如果三个条件均满足则将当前变异信号加入当前聚类簇;否则,开启一个新聚类簇,并将当前变异信号加入新聚类簇; 针对易位类型的变异信号,检查四个条件,一是当前变异信号起始位置所在染色体名称和当前聚类簇内最后一个变异信号起始位置所在染色体名称相同;二是当前变异信号终止位置所在染色体名称和当前聚类簇内最后一个变异信号终止位置所在染色体名称相同;三是当前变异信号变异起始位置和当前聚类簇最后一个变异信号变异起始位置欧氏距离小于200bp;四是当前变异信号变异终止位置和当前聚类簇最后一个变异信号变异终止位置欧氏距离小于200bp;如果四个条件均满足则将当前变异信号加入当前聚类簇;否则,开启一个新聚类簇,并将当前变异信号加入新聚类簇; 针对复杂变异的变异信号,检查三个条件,一是当前变异信号起始位置所在染色体名称和当前聚类簇内最后一个变异起始位置所在染色体名称相同;二是当前变异信号变异起始位置和当前聚类簇内最后一个变异起始位置欧氏距离小于1000bp;三是当前变异信号的变异类型与当前聚类簇内最后一个变异信号的变异类型相同;如果三个条件均满足则将当前信号加入当前聚类簇;否则,开启一个新聚类簇,并将当前信号加入新聚类簇; 步骤三二、 若距离聚类簇内信号为插入变异信号,利用最小编辑距离算法计算任意两个变异信号的插入变异序列之间的序列编辑相似度; 若距离聚类簇内信号为删除变异信号,利用最小编辑距离算法计算任意两个变异信号的删除变异序列之间的序列编辑相似度; 若距离聚类簇内信号为重复变异信号,利用最小编辑距离算法计算任意两个变异信号的重复变异序列之间的序列编辑相似度; 若距离聚类簇内信号为倒位变异信号,利用最小编辑距离算法计算任意两个变异信号的倒位变异序列之间的序列编辑相似度; 若距离聚类簇内信号为易位变异或复杂变异信号,则直接执行步骤三四; 步骤三三、 设定相似度阈值; 如果两个变异信号的插入变异序列的序列编辑相似度小于相似度阈值,则两个变异信号被划为一个聚类簇;否则,两个变异信号不为一个聚类簇;直至判断完插入簇中所有变异信号; 如果两个变异信号的删除变异序列的序列编辑相似度小于相似度阈值,则两个变异信号被划为一个聚类簇;否则,两个变异信号不为一个聚类簇;直至判断完删除簇中所有变异信号; 如果两个变异信号的重复变异序列的序列编辑相似度小于相似度阈值,则两个变异信号被划为一个聚类簇;否则,两个变异信号不为一个聚类簇;直至判断完重复簇中所有变异信号; 如果两个变异信号的倒位变异序列的序列编辑相似度小于相似度阈值,则两个变异信号被划为一个聚类簇;否则,两个变异信号不为一个聚类簇;直至判断完倒位簇中所有变异信号; 执行步骤三四; 步骤三四、对聚类簇内的变异信号进行基因分型;具体过程为: 若聚类簇内变异信号数量为2且变异信号来自不同单倍型,则判定为相同单倍型序列,基因型为11; 若聚类簇内变异信号数量为1,则判定为异单倍型序列,根据所属的单倍型将基因型为判01或10; 否则,则认为是噪声,丢弃对应聚类簇; 输出包含基因分型信息的变异信号; 将每个变异信号记录按照VCF格式写入文件。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人哈尔滨工业大学,其通讯地址为:150001 黑龙江省哈尔滨市南岗区西大直街92号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励