深圳技术大学刘羽朦获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉深圳技术大学申请的专利一种基于深度学习和语言模型的蛋白质无序区域预测方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119252318B 。
龙图腾网通过国家知识产权局官网在2025-09-12发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411379641.2,技术领域涉及:G16B15/20;该发明授权一种基于深度学习和语言模型的蛋白质无序区域预测方法是由刘羽朦;谢俊熙;王培正;靳小鹏设计研发完成,并于2024-09-30向国家知识产权局提交的专利申请。
本一种基于深度学习和语言模型的蛋白质无序区域预测方法在说明书摘要公布了:本发明涉及一种基于预训练蛋白质语言模型和集成深度学习的蛋白质内在无序区域预测方法。本发明基于预训练蛋白质语言模型,构建了蛋白质序列的通用特征,结合不同的深度神经网络,捕获蛋白质中长无序区域和短无序区域的特性,并通过集成三个特定的深度学习模型构建了蛋白质内在无序区域的预测方法。本发明提出的预测方法不仅通过深度学习方法能够获得蛋白质的通用表达,也可以学习蛋白质序列中氨基酸残基的局部上下文特征和远距离的依存关系,通过集成学习方法,融合了三个互补的预测器,大幅度提高了固有无序蛋白质的预测性能;此方法可快速准确地识别固有无序蛋白质,成本低,可行性强,便于使用和推广。
本发明授权一种基于深度学习和语言模型的蛋白质无序区域预测方法在权利要求书中公布了:1.一种基于深度学习和语言模型的蛋白质无序区域预测方法,其特征在于,具体包括如下步骤: S1、待预测的固有无序蛋白质在输入到预训练语言模型之前,需要将蛋白质序列嵌入为固定长度的整数标记向量,对于每条序列,在第一个氨基酸之前和最后一个氨基酸之后分别添加了’START’和’END’标记;序列长度小于固定的嵌入长度,那么长度不足的部分使用’PAD’标记填充,序列长度大于固定的嵌入长度,那么在原嵌入长度的基础上乘2,直到嵌入长度不小于序列长度;为每个氨基酸分配唯一整数以区分不同氨基酸,便于模型输入; S2、将嵌入后的整数向量输入到基于BERT的预训练模型,生成待预测固有无序蛋白质的特征矩阵; S3、构建蛋白质内在无序区域预测方法IDP-EDL的模型,该模型集成了3个特定的模型:IDP-EDL-G,IDP-EDL-L,IDP-EDL-S,它们分别针对蛋白质中通常情况下的无序区域,长无序区域和短无序区域进行预测,每个模型的预测结果进行加权求和得到每个残基为无序区域的可能性,所述每个特定的模型包含通用特征提取模块、蛋白质特定表示提取模块和预测层,其中通用特征提取模块是通过预训练模型将待预测固有无序蛋白质序列转化为通用特征矩阵,如步骤S1、S2所述,蛋白质特定表示提取模块是通过不同的深度神经网络来进一步捕获不同类型的无序区域的特征信息,所述模型的工作原理为: 通过所述通用特征模块,将蛋白质序列表示为蛋白质的通用特征向量; 通过所述蛋白质特定表示提取模块,进一步识别蛋白质序列中的长无序区域、短无序区域,丰富所述蛋白质序列的氨基酸残基特征,使用注意力机制学习蛋白质中残基间的全局联系,使用卷积神经网络捕获短无序区域的局部信息,通过双向门控循环单元网络层进一步地学习所述蛋白质序列的氨基酸残基特征的局部上下文特征及远距离的依存关系,得到蛋白质序列的深层表示; 将所述蛋白质序列的深层表示输入输出层进行处理,采用sigmoid函数得到三组输出值,将三组输出值进行加权求和得到最终每个氨基酸残基属于无序和有序的概率值; S4、对训练集执行步骤S3,对所述IDP-EDL-G模型进行训练;将训练集进一步划分为两个子训练集,其中一个子训练集只包含短无序蛋白质用于训练IDP-EDL-S,剩余的部分为另一个训练子集,用于训练IDP-EDL-L,其中的每条蛋白质至少包含一段长无序区域; S5、对测试集执行步骤S1、S2、S3,得到预测结果。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人深圳技术大学,其通讯地址为:518118 广东省深圳市坪山区石井街道兰田路3002号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。