合肥工业大学陆剑锋获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉合肥工业大学申请的专利一种基于深度学习和化学领域相结合的ChemBERTa-FP抗癌药物预测方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119673317B 。
龙图腾网通过国家知识产权局官网在2025-06-20发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411724850.6,技术领域涉及:G16C20/50;该发明授权一种基于深度学习和化学领域相结合的ChemBERTa-FP抗癌药物预测方法是由陆剑锋;任梦影;林琳;李正荣;赖年悦;项旭东;杨立设计研发完成,并于2024-11-28向国家知识产权局提交的专利申请。
本一种基于深度学习和化学领域相结合的ChemBERTa-FP抗癌药物预测方法在说明书摘要公布了:一种基于深度学习和化学领域相结合的ChemBERTa‑FP抗癌药物预测方法,包括下列步骤:步骤1:获取CI‑60DTP数据库的数据和ChEMBL数据库的数据;步骤2:使用了ChemBERTa和BERT_base作为基础预训练模型;BERTbase预训练了一个深度双向语言表示模型,用一个额外的输出层对预训练的BERTbase模型进行调整,从而在不进行重大架构修改的情况下为广泛的任务创建模型;同时,使用ChemBERTa作为基础预训练模型,其基于RoBERTa作为基础模型,并在PubChem77M数据集上进行了预训练,通过在训练中加入特定的化学语言SMILES;步骤3:ChemBERTa的模型向量表示的维度是384,头数为12,Transformer的层数为6。本发明创新地利用ChemBERTa和BERT‑base两种深度学习模型于抗癌分子筛选领域,这是此类模型的首次应用。
本发明授权一种基于深度学习和化学领域相结合的ChemBERTa-FP抗癌药物预测方法在权利要求书中公布了:1.一种基于深度学习和化学领域相结合的ChemBERTa-FP抗癌药物预测方法,其特征在于:包括下列步骤:步骤1:获取CI-60DTP数据库的数据和ChEMBL数据库的数据;数据集收集:采用NCI-60DTP数据库的数据,基于CDRUG的数据集构建方法,专注于与抗癌特性相关的生物活性分子;数据整合:与DeepCancerMap构建的NCI-60数据集合并,构建涵盖9类肿瘤、60个肿瘤细胞系的数据集,包含609593个活性记录和3764693个非活性记录;步骤2:使用了ChemBERTa和BERT_base作为基础预训练模型;BERTbase预训练了一个深度双向语言表示模型,用一个额外的输出层对预训练的BERTbase模型进行调整,从而在不进行重大架构修改的情况下为广泛的任务创建模型;同时,使用ChemBERTa作为基础预训练模型,其基于RoBERTa作为基础模型,并在PubChem77M数据集上进行了预训练,在训练中加入特定的化学语言SMILES;步骤3:ChemBERTa的模型向量表示的维度是384,头数为12,Transformer的层数为6;ChemBERTa-FP分类的微调过程分为以下几个步骤:1数据准备:将收集的数据进行预处理,并使用ChemBERTa的AutoTokenizer,将化学分子的SMILES表示转换为数值化的Embeddings;2加载预训练模型:加载预训练的ChemBERTa模型,该模型已学会了化学语言SMILES的上下文表示;3定义分类层:在ChemBERTa模型的顶部添加一个分类层及三个分子指纹特征MACCS、PubChem和PharmacophoreErG的分类层,用于化学式分类;4设定损失函数和优化器:采用了FocalLoss结合CrossEntropyLoss的复合损失函数,并选用了Adam优化算法来调整模型参数;5微调模型:使用准备好的数据集对模型进行微调,在这个过程中,ChemBERTa-FP模型的参数会根据分类任务的目标进行调整,通过反向传播算法和梯度下降来实现,以使模型更好地适应分类任务;并将最终的ChemBERTa-FP向量馈送到线性分类层中,以二分类任务,用于抗癌筛选和对正常细胞毒性的预测;6评估模型:在微调完成后,使用测试集对模型进行评估,通过计算AUC指标来评估模型的性能;7保存和使用模型:每个epoch结束后,使用验证集评估模型性能;当验证集上的性能表现超过之前的最佳记录时,保存当前模型;步骤4:为了评估开发的模型性能,采用了模型性能评估指标,具体定义如下所示的方程式;包括:准确率、召回率、特异性、精确度以及得分; 其中,TN代表真阴性数,TP代表真阳性数,FN代表假阴性数,FP代表假阳性数;ACC代表准确率、REC代表召回率、SPE代表特异性、PRE精确度以及F1代表得分。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人合肥工业大学,其通讯地址为:230000 安徽省合肥市屯溪路193号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。