江南大学潘祥获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉江南大学申请的专利一种基于多任务预训练和迁移学习的靶向多肽设计方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN118969088B 。
龙图腾网通过国家知识产权局官网在2025-06-24发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411141336.X,技术领域涉及:G16B30/00;该发明授权一种基于多任务预训练和迁移学习的靶向多肽设计方法是由潘祥;吕天旭;厉力华设计研发完成,并于2024-08-20向国家知识产权局提交的专利申请。
本一种基于多任务预训练和迁移学习的靶向多肽设计方法在说明书摘要公布了:本发明公开了一种基于多任务预训练和迁移学习的靶向多肽设计方法,属于多肽设计领域。所述方法包括:获取大规模多肽序列数据和蛋白质‑多肽配对数据,对蛋白质序列和多肽序列进行编码;基于多任务自回归预训练构建所述多肽生成式预训练模型,对编码后的大规模多肽序列数据进行自监督多任务训练;通过交互感知注意力引导多肽序列的迁移式生成,得到训练好的靶向多肽设计模型;利用训练好的靶向多肽设计模型对蛋白质序列进行多肽序列生成。本发明有效地利用了蛋白质序列‑多肽序列互作关系,解决了靶向多肽设计精度不高的问题;利用多任务预测模块,充分学习多任务之间的协同互作关系,进一步提高所述靶向多肽设计模型的鲁棒性和泛化能力。
本发明授权一种基于多任务预训练和迁移学习的靶向多肽设计方法在权利要求书中公布了:1.一种靶向多肽设计方法,其特征在于,所述方法基于多任务自回归预训练构建多肽生成式预训练模型,然后对所述多肽生成式预训练模型进行迁移学习,得到靶向多肽设计模型,所述方法包括: 步骤1:获取大规模多肽序列数据和蛋白质-多肽配对数据,对蛋白质序列和多肽序列进行编码,得到蛋白质序列和多肽序列的向量表示,并划分为训练集和测试集; 步骤2:基于多任务自回归预训练构建所述多肽生成式预训练模型,对编码后的大规模多肽序列数据进行自监督多任务训练; 步骤3:将所述的蛋白质序列的向量表示用蛋白质语言模型ESM-2提取深度特征,作为所述多肽生成式预训练模型的初始隐藏状态,并通过交互感知注意力引导多肽序列的迁移式生成,得到训练好的靶向多肽设计模型; 步骤4:利用训练好的靶向多肽设计模型对蛋白质序列进行多肽序列生成,完成靶向多肽的自动设计; 所述靶向多肽设计模型包括:序列编码模块、多肽变换模块、多任务预测模块、交互感知模块、迁移学习模块; 所述序列编码模块用于对多肽序列和序列进行编码;所述多肽变换模块包括:掩码多头注意力、归一化层、前馈层和残差连接;所述多任务预测模块包括:序列预测头、二级结构预测头和多肽功能预测头;所述交互感知模块用于在迁移学习过程中计算蛋白质序列和多肽序列的互作关系,得到交互感知表征;所述迁移学习模块用于将所述蛋白质序列和多肽序列进行拼接,输入预训练好的多肽生成式预训练模型中,基于交互感知模块学习从蛋白质序列生成多肽序列,完成从蛋白质序列对多肽序列的映射,得到训练好的靶向多肽设计模型; 所述多肽变换模块的计算过程包括: 首先定义多肽序列的特征向量为hp,基于该向量获得其对应的查询矩阵Qp、键矩阵Kp、值矩阵Vp,则注意力得分矩阵通过计算Qp和Kp的点积然后除以缩放因子获得: 在得到注意力得分后,对其应用掩码操作,将不应被注意的位置的得分设置为负无穷大,然后应用Softmax函数,得到注意力权重矩阵: 其中,表示掩码操作; 最后用所述注意力权重对值矩阵进行加权求和,得到输出矩阵: 然后,将所述输出矩阵依次通过归一化层、前馈层、残差连接,具体表述为: 其中,和分别表示归一化层和前馈层; 所述交互感知表征的计算方法为: 其中,表示靶点蛋白质序列的特征向量,表示多肽序列的特征向量。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人江南大学,其通讯地址为:214000 江苏省无锡市新吴区净慧东道66号(江南大学国家大学科技园);或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。