浙江大学王绪化获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉浙江大学申请的专利基于扩散去噪概率模型的氨基酸序列生成与筛选方法、及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN118136107B 。
龙图腾网通过国家知识产权局官网在2025-10-31发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211533061.5,技术领域涉及:G16B30/00;该发明授权基于扩散去噪概率模型的氨基酸序列生成与筛选方法、及系统是由王绪化;郑涵予;郭滨杰;江昊翰设计研发完成,并于2022-12-01向国家知识产权局提交的专利申请。
本基于扩散去噪概率模型的氨基酸序列生成与筛选方法、及系统在说明书摘要公布了:本发明公开了一种基于机器学习的氨基酸序列生成与筛选通用方法,其能够用于各种功能性氨基酸序列的生成,例如病毒氨基酸序列生成与筛选,使用基于扩散去噪概率模型作为深度学习生成框架,基于数据的先验分布,通过反向扩散过程,对扩散后的数据或随机噪声逐步去噪,可以基于现有的氨基酸序列数据库,实现各类功能性氨基酸序列的从头设计。例如应用于病毒氨基酸序列生成与筛选时包括以下步骤:S1从实验数据中构建用于训练模型的数据集;S2使用数据集对病毒氨基酸序列生成和筛选装置进行训练;S3使用训练完成的病毒氨基酸序列生成和筛选装置进行病毒氨基酸序列生成和筛选,S4对目标病毒氨基酸序列库中的病毒氨基酸序列通过湿实验进行验证。本发明还提供与氨基酸序列生成与筛选通用方法相关的系统和设备。
本发明授权基于扩散去噪概率模型的氨基酸序列生成与筛选方法、及系统在权利要求书中公布了:1.一种基于机器学习的氨基酸序列生成与筛选方法,其特征在于,具体步骤如下: SI从实验数据中构建用于训练模型的数据集; SII使用数据集对氨基酸序列生成和筛选装置进行训练;包括以下步骤: SII-1将数据集中的氨基酸序列进行特征编码; SII-2对特异性氨基酸序列生成模块进行训练; 特异性氨基酸序列生成模块中,通过使用基于扩散去噪概率模型的深度学习生成框架,使用神经网络分别学习前向扩散过程中,在各时间步中所增加的噪声,在反向扩散过程时对噪声化后的序列数据进行去噪、去极大似然化,以学习到有效的氨基酸序列信息分布,从而在采样阶段实现从满足特定先验分布的噪声中,生成具有高度特异性的氨基酸序列, 其中,从训练集中按照设定的批量数选择病毒氨基酸序列;对病毒氨基酸序列进行特征编码后得到病毒氨基酸序列特征,将病毒氨基酸序列特征作为扩散模型的输入,模型内部运作方式如下为: 设定好扩散时间步为t,t为0~100000的正整数,前向扩散过程逐渐向数据增加噪声,直到数据分布近似达到先验分布,反向生成扩散过程从先验分布开始,迭代地将其转换为期望的分布;模型的训练依赖于前向扩散过程来模拟有噪声的数据,将数据按批量个数分开送进模型,每个批量个数大小按需设定,每次将一个批量的原始病毒氨基酸序列特征按照时间步不同加上一个随机噪声,再将加上随机噪声后的数据及其对应时间步输入到神经网络中预测噪声,其中,所述扩散时间步为用于限制模型训练过程中预测噪声的步数,一个扩散概率模型定义了扩散过程的两个马尔可夫链, 神经网络的内部训练步骤如下: 首先,将加上随机噪声后的数据及其对应时间步输入到神经网络中,在神经网络中首先将加上随机噪声后的数据输入到线性层中提取特征信息,提取特征信息后加上对应时间步数值之后再通过激活函数relu对特征进行去线性化得到激活特征,重复P次,这里P为0~1000的正整数, 随后,通过一个线性层进行特征汇聚后输出预测的噪声, 随后,使用预测的噪声和真实加入的噪声来计算均方误差作为神经网络反向传播的损失函数, 按照批量数大小,循环选择整个训练集中病毒氨基酸序列来完成上述氨基酸生成所有的步骤,将上述循环再循环M代直到损失函数平稳收敛,M为0~100000的正整数,保存模型训练参数; SII-3训练氨基酸序列性能评价模块; 氨基酸序列性能评价模块中,根据氨基酸序列,对由氨基酸序列所组成的短肽或蛋白质的相关功能进行预测; SIII使用训练完成的氨基酸序列生成和筛选装置,进行氨基酸序列生成和筛选,具体步骤如下: SIII-1设定氨基酸序列长度和生成数量后,将参数输入到特异性氨基酸序列生成模块; SIII-2特异性氨基酸序列生成模块中,根据从满足特定先验分布的噪声中去噪,以初步生成预设数量和长度的、具有高度特异性的氨基酸序列; SIII-3氨基酸序列的性能评价模块中,在接收到所有生成的氨基酸序列后,通过性能评价模块中的性能评价函数,基于相应的功能需求,对每条由模型生成的氨基酸序列进行初步评估,得到相应的氨基酸序列的初步评分; SIII-4评分模块, 基于生成的氨基酸序列,在针对不同功能的氨基酸序列生成任务,使用不同的评分函数,对生成的氨基酸序列进行进一步评分; SIII-5生成目标氨基酸序列库, 根据对氨基酸序列的评分进行排序,选取评分值高的前P个氨基酸序列组成目标氨基酸序列库,并根据分数筛选出具有高度特异性与具有相关功能的氨基酸序列;其中,P为正整数; SIV对目标氨基酸序列库中的氨基酸序列进行验证; SIV-1基于目标氨基酸序列库中的氨基酸序列开展湿实验,得到实验数据,并对实验得到的氨基酸序列相关功能,与预测出来的氨基酸序列相关功能通过评价指标相比较,以验证氨基酸序列生成和筛选装置进行氨基酸序列生成的有效性。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人浙江大学,其通讯地址为:310058 浙江省杭州市西湖区余杭塘路866号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励