Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 东北林业大学董本志获国家专利权

东北林业大学董本志获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉东北林业大学申请的专利一种基于单氨基酸序列特征的蛋白质二级结构预测方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119049540B

龙图腾网通过国家知识产权局官网在2025-11-18发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411106706.6,技术领域涉及:G16B15/00;该发明授权一种基于单氨基酸序列特征的蛋白质二级结构预测方法是由董本志;苏慧设计研发完成,并于2024-08-13向国家知识产权局提交的专利申请。

一种基于单氨基酸序列特征的蛋白质二级结构预测方法在说明书摘要公布了:一种基于单氨基酸序列特征的蛋白质二级结构预测方法,它属于生物信息学领域。本发明解决了由于进化信息特征获取存在局限性且模型忽略了氨基酸序列中二级结构标签之间的相互依赖关系,导致利用现有方法获得的模型预测效果不佳的问题。本发明在特征处理阶段融合了蛋白质语言模型生成的特征表示以及采用词嵌入和位置嵌入的混合编码方式得到的特征,融合的特征既含有丰富的进化信息,又充分获取了序列中氨基酸残基的位置信息以及它们之间的依赖关系。融合的特征再依次经过Transformer编码器、CNN和BiLSTM输出全局特征信息,并通过引入CRF,将序列中蛋白质二级结构之间的相互作用考虑在内,保证蛋白质二级结构预测准确率。本发明方法可以应用于蛋白质二级结构预测。

本发明授权一种基于单氨基酸序列特征的蛋白质二级结构预测方法在权利要求书中公布了:1.一种基于单氨基酸序列特征的蛋白质二级结构预测方法,其特征在于,所述方法具体包括以下步骤: 步骤S1、收集蛋白质二级结构数据文件,并对收集的蛋白质二级结构数据文件进行处理,再获取处理后的蛋白质二级结构数据文件中的氨基酸序列以及序列中每个氨基酸的二级结构标签; 将获取的氨基酸序列以及序列中每个氨基酸的二级结构标签作为训练样本集; 所述步骤S1的具体过程为: 步骤S11、从数据集NetSurfP-2.0中获取蛋白质二级结构数据文件,再对获取的蛋白质二级结构数据文件进行去冗余处理,得到处理后的蛋白质二级结构数据文件; 步骤S12、从处理后的数据文件中获取包含蛋白质的氨基酸序列的fasta文件、包含蛋白质的氨基酸序列以及序列中每个氨基酸的二级结构标签的json文件; 步骤S2、将训练样本集中的氨基酸序列作为蛋白质语言模型的输入,通过蛋白质语言模型分别生成每个氨基酸序列的特征表示; 对训练样本集中的每个氨基酸序列分别进行正余弦位置编码,得到位置编码结果,再将位置编码结果与词嵌入矩阵进行拼接,得到每个氨基酸序列对应的拼接后的特征; 再对拼接后的特征和蛋白质语言模型输出的特征表示进行融合,得到每个氨基酸序列对应的融合后的特征表示; 所述步骤S2的具体过程为: 步骤S21、对于任意一个氨基酸序列S,将氨基酸序列S中包含的氨基酸个数记为L,将氨基酸序列S经过蛋白质语言模型,分别为氨基酸序列S上的每个氨基酸生成1024维的嵌入,将为L个氨基酸生成的嵌入进行拼接,得到氨基酸序列S的蛋白质嵌入,即得到氨基酸序列S的特征表示,且氨基酸序列S的特征表示的维度为L×1024; 同理,分别得到每个氨基酸序列的特征表示; 步骤S22、对氨基酸序列S进行正余弦位置编码: 其中,pos代表氨基酸序列S中的氨基酸位置,PEpos,2i是位置为pos的氨基酸对应的位置编码向量中的第2i个元素,PEpos,2i+1是位置为pos的氨基酸对应的位置编码向量中的第2i+1个元素,2i代表偶数,2i+1代表奇数,dmodel代表词向量的维度; 步骤S23、将位置为pos的氨基酸编码为词嵌入表示,再将位置为pos的氨基酸对应的位置编码向量和位置为pos的氨基酸对应的词嵌入表示进行拼接,得到维度为1×512的拼接后特征; 则根据氨基酸序列S中的全部氨基酸得到维度为L×512的拼接后特征; 步骤S24、将氨基酸序列S对应的蛋白质嵌入和氨基酸序列S对应的拼接后特征进行融合,得到氨基酸序列S对应的融合后特征表示; 同理,分别得到每个氨基酸序列对应的融合后特征表示; 步骤S3、将融合后的特征表示作为Transformer模型的输入,通过Transformer模型的编码器输出增强的特征; 步骤S4、将步骤S3的增强特征作为CNN模型的输入,通过CNN模型输出提取的每个氨基酸序列的局部特征,再将局部特征作为BiLSTM模型的输入,通过BiLSTM模型输出每个氨基酸序列的全局特征; 步骤S5、根据步骤S4的全局特征,获得对训练样本集中每个氨基酸序列的蛋白质二级结构预测结果,根据蛋白质二级结构预测结果和训练样本集的二级结构标签计算损失,直至损失函数收敛时停止训练,获得训练好的蛋白质语言模型、Transformer模型、CNN模型和BiLSTM模型; 所述步骤S5中,根据步骤S4的全局特征,获得对训练样本集中每个氨基酸序列的蛋白质二级结构预测结果,具体为: 步骤S51、将步骤S4获得的全局特征经过全连接层进行线性变换,使线性变换后特征的维度与标签的维度一致,将线性变换后特征中的各个元素分别作为二级结构标签中每个类别的发射分数; 步骤S52、CRF通过训练来学习二级结构标签之间的概率转移矩阵,概率转移矩阵中的元素均代表转移分数; 步骤S53、根据发射分数和转移分数,计算氨基酸序列X的预测结果为二级结构序列Y的概率PY|X; 步骤S54、采用Viterbi算法和概率PY|X计算最终的二级结构预测结果Y*; 所述步骤S54的具体过程为: 步骤S6、将待预测的氨基酸序列作为蛋白质语言模型的输入,并采用步骤S2的方法得到待预测氨基酸序列的融合后特征表示,将融合后特征表示作为训练好的Transformer模型的输入; 再将Transformer模型的编码器输出的特征依次经过训练好的CNN模型和BiLSTM模型,并根据BiLSTM模型输出的特征获得对待预测氨基酸序列的蛋白质二级结构预测结果。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人东北林业大学,其通讯地址为:150040 黑龙江省哈尔滨市香坊区和兴路26号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。