吉林大学周丰丰获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉吉林大学申请的专利一种基于生成对抗网络的蛋白质翻译后修饰数据增强方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120412756B 。
龙图腾网通过国家知识产权局官网在2025-08-29发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510920403.6,技术领域涉及:G16B40/00;该发明授权一种基于生成对抗网络的蛋白质翻译后修饰数据增强方法是由周丰丰;徐艺萍;李柯薇;范雨思;王月英;王楚越设计研发完成,并于2025-07-04向国家知识产权局提交的专利申请。
本一种基于生成对抗网络的蛋白质翻译后修饰数据增强方法在说明书摘要公布了:本发明适用于蛋白质组学技术领域,提供了一种基于生成对抗网络的蛋白质翻译后修饰数据增强方法。本发明可有效缓解类别不平衡、增强阳性样本识别能力,通过改进型聚类增强条件生成对抗网络(RP‑CGAN)生成少数类伪样本,结合ESM‑2预训练蛋白质语言模型提取特征,提升阳性样本识别能力与泛化能力;融合ESM‑2特征提取与RP‑CGAN数据增强技术,提升整体预测性能与分类稳定性,多分类器关键指标显著提升;经多维指标筛选与自适应调控,确保增强数据与真实分布相近;借助轻量化架构与收敛策略,优化训练效率与模型稳定性;具备强稳定性与跨领域潜力,可迁移至其他蛋白质修饰预测任务,并具备跨领域不平衡分类场景中的应用潜力。
本发明授权一种基于生成对抗网络的蛋白质翻译后修饰数据增强方法在权利要求书中公布了:1.一种基于生成对抗网络的蛋白质翻译后修饰数据增强方法,其特征在于,包括以下步骤: 步骤S1:数据预处理与特征提取; 读取蛋白质序列文件,划分训练集与测试集,采用ESM-2预训练蛋白质语言模型进行特征编码,生成标准化特征向量; 步骤S2:聚类增强型条件生成对抗网络的样本增强; 构建由生成器和判别器组成的RP-CGAN模型;生成器输入包含随机噪声向量、目标类别标签及通过K均值聚类生成的类别中心向量,输出目标类别伪样本;判别器采用双输出结构,分别判断样本真实性与类别标签,结合Softplus相对对抗损失、二分类交叉熵损失及梯度正则项优化训练稳定性; 步骤S3:伪样本筛选; 应用训练完成的RP-CGAN模型生成超出目标数量的伪样本,通过多指标约束的筛选机制,选择与真实样本分布最接近的伪样本; 步骤S4:分类器训练与评估; 将真实训练数据与筛选后的伪样本合并,输入分类器进行训练,优化分类性能; 步骤S5:预测输出; 使用训练好的分类器对新蛋白质序列进行预测,输出修饰位点概率得分; 所述RP-CGAN模型的生成器设计包括: 输入条件为随机噪声向量z~N0,1、类别标签yc∈{0,1+及通过K均值聚类获取的类别中心向量通过联合输入拼接机制生成近似于真实分布的样本 所述类别中心向量的生成步骤包括: 对少数类和多数类样本分别进行K均值聚类,通过DBI指标确定最优聚类簇数;提取少数类与多数类的最优聚类中心作为生成器的先验条件输入; 所述伪样本筛选步骤包括: 通过混淆矩阵计算敏感性与特异性,动态确定伪样本增强数量n*;使用生成器生成m×n*个伪样本;利用AutoEncoder构建特征空间,计算伪样本与真实样本的皮尔逊相关系数、欧氏距离和最小均方误差三类距离指标,对三类距离指标进行归一化并加权融合,得到综合得分;选择综合得分最低的前n*个伪样本,构成最终增强样本集合
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人吉林大学,其通讯地址为:130012 吉林省长春市朝阳区前进大街2699号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。