西安交通大学祖建获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉西安交通大学申请的专利基于第三代测序的基因组短变异深度学习检测方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116959560B 。
龙图腾网通过国家知识产权局官网在2026-04-21发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310257362.8,技术领域涉及:G16B20/20;该发明授权基于第三代测序的基因组短变异深度学习检测方法及系统是由祖建;黄丽娟;孙晋楠设计研发完成,并于2023-03-16向国家知识产权局提交的专利申请。
本基于第三代测序的基因组短变异深度学习检测方法及系统在说明书摘要公布了:本发明公开了一种基于第三代测序的基因组短变异深度学习检测方法及系统,通过对第三代测序平台所产生的基因组序列的图像编码方式进行设定,并根据真实变异集及对应的序列比对数据建立训练集、验证集和测试集;构建卷积神经网络和双向长短期记忆神经网络集成的深度学习多任务分类器,使用训练集和验证集对深度学习分类器进行训练和验证,使用测试集测试深度学习分类器的准确性;基于训练好的深度学习分类器对由序列比对或真实变异集生成的堆积图像进行分类预测;根据堆积图像的分类预测结果对序列比对数据进行变异位点检测,得到完整的候选变异信息,实现基因组SNP和INDEL短变异的自动检测。
本发明授权基于第三代测序的基因组短变异深度学习检测方法及系统在权利要求书中公布了:1.基于第三代测序的基因组短变异深度学习检测方法,其特征在于,包括以下步骤: S1、构建监督学习数据集,并将监督学习数据集划分为训练集、验证集和测试集,具体为: S101、按照染色体截取分别获得瓶中基因组项目中某参考基因组版本refver的sample.refver.pacbio.bam序列比对数据集中HG002样本第1至5号的序列比对数据sample.refver.pacbio.chr1_5.bam,以及第20号染色体的序列比对数据sample.refver.pacbio.chr20.bam,sample.refver.pacbio.chr1_5.bam用于模型训练和验证,sample.refver.pacbio.chr20.bam用于模型测试,对bam比对数据中每条染色体上的序列比对提取CIGAR字符串,并过滤;统计染色体、位置、突变前碱基数量、各突变后的碱基数量,插入标记为I,缺失标记为D,跳过参考序列的标记N,按照染色体计入文件can_fn_chri,i=1,2,3,4,5,20; S102、按照染色体截取分别获得瓶中基因组项目中某参考基因组版本refver的sample.refver.vcf真实数据集和sample.refver.highconfi.bed高置信度变异区间数据集中HG002样本第1至5号的真实变异数据sample.refver.chr1_5.vcf,以及第20号的真实变异数据sample.refver.chr20.vcf,对vcf真实变异数据中每条染色体上各位点统计染色体、位置、突变前后碱基类型和基因型,信息按照染色体计入文件var_fn_chri; S103、对步骤S101和步骤S102中can_fn_chri和var_fn_chri里的每一个位点,以0初始化一个101×8×4的张量x,101代表一个变异的起始位置和两侧50个bp的碱基,8代表来自两个不同链的四个可能的碱基计数,4代表用4种不同的计数方式分别对参考、插入、删除和点突变对应的碱基序列进行计数;然后简化碱基的编码方式,并根据IUPAC2Num规则将对经过碱基编码方式简化后的碱基进行数字编码,并按位点和碱基类型累计后写入张量x,对于can_fn_chri和var_fn_chri中变异统计信息生成的张量信息tensor_can_chri和tensor_var_chri,视为堆积图像,最终对1-5号染色体上的堆积图像按照染色体进行数据合并,得到堆积图像数据tensor_can_chr1_5、tensor_var_chr1_5、tensor_can_chr20和tensor_var_chr20;按位点和碱基类型累计后写入张量x的计数方式如下: 某位点标签是参考,则分别将该位点及前后50bp范围内参考等位基因的碱基计数写入x第三维的第一通道; 某位点标签是插入,则将插入序列的插入碱基readbase信息写入x第三维的第二通道; 某位点标签是删除,则将缺失序列的缺失碱基refbase信息写入x第三维的第三通道; 某位点标签是点突变,则将变异位点变换前后的碱基信息写入x第三维的第四通道; S104、保留tensor_var_chr1_5中所有真实变异对应的张量,并通过与tensor_var_chr1_5进行比较,从tensor_can_chr1_5中随机抽取非变异位点的堆积图像,初始化非变异与变异的比例为2:1,最后将随机挑选非变异和变异堆积图像进行混合得到一个样本量为1617250的训练集;保留tensor_var_chr20中所有真实变异对应的张量,并通过与tensor_var_chr20进行比较,从tensor_can_chr20中随机抽取非变异位点的堆积图像,初始化非变异与变异的比例为2:1,最后将随机挑选非变异和变异堆积图像进行混合得到一个样本量为139098的测试集; S105、将步骤S104得到的数据集划分为训练集、验证集和测试集,训练集与验证集的比例为8:2; S2、构建以卷积神经网络和双向长短期记忆神经网络为核心的多任务多分类深度学习集成分类器,使用步骤S1得到的训练集、验证集和测试集分别用作深度学习分类器的训练、验证和测试,得到训练好的深度学习分类器,具体为: S201、构建用于堆积图像特征提取的卷积神经网络,以及用于序列特征提取的双向长短期记忆神经网络,并使用这两个网络进行集成得到集成网络; S202、将步骤S201构建的卷积神经网络与双向长短期记忆神经网络得到的特征展平为一维,再经全连接层后输出1×90维的概率分布向量,代表4个任务的预测变异类型概率分布; S203、根据焦点损失函数,通过自适应矩估计及反向传播算法优化和更新卷积神经网络与双向长短期记忆神经网络的参数,优化过程使用的多任务损失函数为: 其中,为任务t的损失; S204、将步骤S203训练好的深度学习模型分别运用于对应的测试集中,使用分类精确率和召回率的加权值F1-score指标评价深度学习分类器的分类准确度,得到训练好的深度学习分类器; S3、利用步骤S2得到的深度学习分类器对来自不同样本的各堆积图像进行分类预测,每张堆积图像的分类预测结果为一个1×90维的概率分布向量,选择堆积图像每个子任务的最大概率分布预测结果,得到对应堆积图像的各任务分类结果; S4、使用步骤S3得到的各位点的分类结果,结合各堆积图像的碱基类型和变异长度,以及对应的染色体和位置信息,依照变异在染色体上的位置顺序按行构建最终的变异集,实现基因组变异检测。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人西安交通大学,其通讯地址为:710049 陕西省西安市碑林区咸宁西路28号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励