成都信息工程大学张永清获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉成都信息工程大学申请的专利基于深度学习和注意力机制的单细胞转录因子预测方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116386720B 。
龙图腾网通过国家知识产权局官网在2025-12-09发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310383948.9,技术领域涉及:G16B20/30;该发明授权基于深度学习和注意力机制的单细胞转录因子预测方法是由张永清;邹权;何宇辰;牛颢;丁春利;吴锡;王紫轩;刘宇航;王茂丞设计研发完成,并于2023-04-11向国家知识产权局提交的专利申请。
本基于深度学习和注意力机制的单细胞转录因子预测方法在说明书摘要公布了:本发明公开了一种基于深度学习和注意力机制的单细胞转录因子预测方法,其包括获取单细胞染色质可及性分析测序数据,并对其进行预处理,之后进行数据增强操作,得到增强测序数据;提取增强测序数据中的回归峰作为特征向量S,拼接正向和反向的增强测序数据作为特征向量A,将取自全基因组的DNA序列数据转换为特征向量U;拼接特征向量S、特征向量A和特征向量U,并输入深度网络模型预测单细胞中每个转录因子的概率,深度网络模型包括卷积模块和通道注意力模型。
本发明授权基于深度学习和注意力机制的单细胞转录因子预测方法在权利要求书中公布了:1.基于深度学习和注意力机制的单细胞转录因子预测方法,其特征在于,包括步骤: 获取单细胞染色质可及性分析测序数据,并对其进行预处理,之后进行数据增强操作,得到增强测序数据;其包括: 采用ENCODE单细胞染色质可及性分析测序数据处理方法筛选单细胞染色质可及性分析测序数据的峰值读数信息; 对峰值读数信息的bam文件使用 deepTools2转换为 bigwig 文件,之后采用bigWigMerge工具将所有bigwig文件拼接成数据矩阵; 其中数据增强操作包括:采用cisTopic方法计算单细胞的潜在特征,并使用余弦相似性的数据指标计算细胞间的相似性分数;选取与其最相似的100 个邻接细胞作为单细胞染色质可及性分析测序数据扩增的数据,汇集单细胞与选取的邻接细胞作为增强测序数据; 提取增强测序数据中的回归峰作为特征向量S,拼接正向和反向的增强测序数据作为特征向量A,将取自全基因组的DNA序列数据转换为特征向量U; 拼接特征向量S、特征向量A和特征向量U,并输入深度网络模型预测单细胞中每个转录因子的概率,深度网络模型包括卷积模块和通道注意力模型; S31、判断单细胞染色质可及性分析测序数据所属细胞系是否已知,若是,则选取对应细胞系的深度网络模型进行预测,否则,进入步骤S32; S32、将拼接后的数据分别输入细胞系GM12878、K562、H1ESC对应的深度网络模型进行转录因子的概率预测; S33、选取三个模型输出的转录因子预测概率中的最大值作为单细胞的转录因子预测概率; 所述卷积模块包括依次连接的卷积层、激活层、池化层和全连接层;所述通道注意力模型包括依次连接的最大池化层平均池化层、共享多层感知模块、全连接层和展平层;深度网络模型的模型结构为: F1 = max_poolingReLUconv1SF ,F2 = max_poolingReLUconv2F1F3 = max_poolingReLUconv3F2,F = ReLUW1·F3McF = σW3W0 + W3W0,Zi,n,k= sigmoidW2·McF其中,SF为拼接后的向量;ReLU.为激活函数;max_pooling.为最大池化层函数; conv1.、conv2.和conv3.分别为 第一、二、三层卷积函数;F1、F2和F3分别为卷积模块的每一个卷积层的特征向量图谱;W1和W2 分别为两个全连接层中的权重矩阵;和分别为通道注意力模型中全局平均池和全局最大池计算的特征;σ 为 sigmoid 激活函数;W0 和W3分别为多层感知器模型中的两层参数;McF为通道注意力模型的输出;Zi,n,k为转录因子k 与每个细胞i内的第n个细胞峰的重合概率; k ∈ 1…M,M 为深度网络模型中每个细胞内的转录因子总数,n ∈ 1…N, N 为每个细胞内能够读取到的细胞峰数量; 所述深度网络模型的训练方法包括: 对DNA序列数据进行预处理:选取全基因组的DNA序列数据,并将其切割为200bp片段,每段之间的滑动切割区间为50bp;获取每个片段的反向链,并将每段反向链以200bp为中心扩展为1000bp片段,之后转换为Mapability Data; 对批量组织染色质可及性分析测序数据进行预处理:获取细胞系GM12878、K562、H1ESC中的批量组织染色质可及性分析测序数据,并对其进行剪切操作,之后采用Bowtie2工具将剪切互后数据映射到human genome hg19上,并使用samtools、Picard操作进行裁剪;采用deepTools2对裁剪后的bam文件转换为 bigwig 文件,之后采用bigWigMerge工具将所有bigwig文件拼接成数据矩阵; 采用one‑hot将预处理前的DNA序列数据编码成4*1000 的特征向量S1;拼接每个细胞系对应的正向和反向的预处理后批量组织染色质可及性分析测序数据作为特征向量A1、A2和A3;将Mapability Data转换成2*1000 的特征向量U1; 分别拼接特征向量S1、特征向量A1和特征向量U1,特征向量S1、特征向量A2和特征向量U1及特征向量S1、特征向量A3和特征向量U1,将拼接的三个向量分别输入三个深度神经网络进行训练,得到细胞系GM12878、K562、H1ESC对应的深度网络模型; 根据转录因子的概率计算转录因子的活动因子分数: ,其中,分别为最后网络模型输出的转录因子k与细胞i内的第n个细胞峰的重合概率,概率按从高到低排序后的第一、二直到M个值;为对所有值进行标准化后的结果;为计算出的活动因子分数;Ci,n,k为根据Zi,n,k与输出重合概率最高的前两个值进行对比后对其赋值的操作。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人成都信息工程大学,其通讯地址为:610225 四川省成都市双流区西南航空港经济开发区学府路1段24号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励