电子科技大学罗锡梅获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉电子科技大学申请的专利一种基于ProtBERT的甲基化DNA偏好结合转录因子识别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN118430661B 。
龙图腾网通过国家知识产权局官网在2025-06-13发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202410783592.2,技术领域涉及:G16B40/20;该发明授权一种基于ProtBERT的甲基化DNA偏好结合转录因子识别方法是由罗锡梅;李艳超;王彦苏;邹权设计研发完成,并于2024-06-18向国家知识产权局提交的专利申请。
本一种基于ProtBERT的甲基化DNA偏好结合转录因子识别方法在说明书摘要公布了:本发明公开了一种基于ProtBERT的甲基化DNA偏好结合转录因子识别方法,涉及生物技术数据研究领域。该方法先获取转录因子序列数据集,并分为训练集和测试集;再通过AutoTokenizer将所有序列填充或裁剪处理到相同长度和标记化;最后使用BertForSequenceClassification加载预训练的ProtBERT模型进行序列分类。该方法能够捕捉序列中的深层次特征和复杂的依赖关系,Dropout层的应用增强了模型在新数据上的泛化能力,线性分类层将模型的输出转换为类别概率,在进行偏好结合甲基化DNA的转录因子分类中具有较高的准确度和可靠性;与传统的基于序列的预测技术相比,通过结合大模型技术,提升了处理效率,且自适应地学习序列的内在特征,提高了预测准确度、敏感性、特异性、Matthews相关系数和ROC曲线下面积等指标。
本发明授权一种基于ProtBERT的甲基化DNA偏好结合转录因子识别方法在权利要求书中公布了:1.一种基于ProtBERT的甲基化DNA偏好结合转录因子识别方法,其特征在于,包括以下步骤: S1.获取转录因子序列数据集,并分为训练集和测试集; S2.通过AutoTokenizer将所有序列填充或裁剪处理到相同长度和标记化; S3.使用BertForSequenceClassification加载预训练的ProtBERT模型进行序列分类; 所述步骤S1中,对序列数据集的处理中,包括对偏好甲基化DNA的转录因子和偏好非甲基化DNA的转录因子的处理,处理步骤包括: S201.排除含有非标准氨基酸残基的序列; S202.使用CD-HIT20去除冗余样本; S203.偏好甲基化DNA序列的转录因子提取为阳性样本,偏好非甲基化DNA的转录因子被提取为阴性样本; 将序列通过嵌入层转换为嵌入向量,该嵌入向量包括词嵌入和位置嵌入,词嵌入和位置嵌入相加,得到最终输入式;词嵌入通过在随机初始化的嵌入矩阵中根据整数编码进行查找,并将对应的词嵌入向量合并获得,而位置嵌入通过正余弦函数计算得到,给定位置p和维度i,表示为: ; ; 据此计算对应的嵌入值,生成d维的位置嵌入向量,再合并即可; 再将输入Transformer层,逐层进行更新,更新公式为: , 其中,是第层的输出结果,是第层更新后的输出结果; 其中,在第一层中,隐藏状态,使用第一个标记CLS的最终隐藏状态,作为整个序列的汇总向量,经过Droupout层和全连接层的处理后获得每个类别的原始得分,Droupout层处理公式为:,按规定概率随机丢弃神经元的输出,全连接层的处理公式为:;再通过softmax函数对原始得分转换为同维度的概率分布; 其中,是处理后的向量,W和b分别是线性层的权重矩阵和偏置向量,是模型训练过程中学习到的参数,z是每个类别的原始得分,其中p是概率向量。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人电子科技大学,其通讯地址为:610000 四川省成都市高新区(西区)西源大道2006号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励