江南大学左云获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉江南大学申请的专利基于EPDCC技术识别多种赖氨酸修饰位点的方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119479794B 。
龙图腾网通过国家知识产权局官网在2025-10-28发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411550944.6,技术领域涉及:G16B20/30;该发明授权基于EPDCC技术识别多种赖氨酸修饰位点的方法是由左云;房兴泽;万民权;章帮一;邓赵红设计研发完成,并于2024-11-01向国家知识产权局提交的专利申请。
本基于EPDCC技术识别多种赖氨酸修饰位点的方法在说明书摘要公布了:本发明属于人工智能算法应用‑生物序列识别领域,涉及基于EPDCC技术识别多种赖氨酸修饰位点的方法。本发明能够同时预测多种赖氨酸修饰位点。本发明还特别解决了先前技术未能充分考虑的修饰之间的串扰问题,从而提高了预测的准确性和可靠性。通过将离散数据拟合成函数型数据进行聚类来平衡数据集,本发明采用的极值点偏差补偿聚类欠采样算法有效减少了模型训练过程种对多数类的偏向。通过构建多尺度数据,结合序列信息特征和氨基酸理化性质特征,丰富了数据语义,显著提升了模型对赖氨酸翻译后修饰位点的预测性能。
本发明授权基于EPDCC技术识别多种赖氨酸修饰位点的方法在权利要求书中公布了:1.基于EPDCC技术识别多种赖氨酸修饰位点的方法,其特征在于,步骤如下: 第一步:数据集构建 构建训练和测试数据集; 1.1序列截取与验证:对于收集的18978条人类蛋白质序列,截取实验验证赖氨酸为“acetyllysine”或“crotonyllysine”或“methyllysine”或“succinyllysine”修饰的肽片段,肽片段长度为49; 1.2数据分类:对预处理后的赖氨酸修饰数据进行分类,总共可得到15个类别;在去掉序列少于60条的类别后,数据集最终被划分为11个类别:定义为样本数量最多的为第一类数据; 第二步:特征提取 本阶段对数据进行特征提取,从赖氨酸序列信息以及氨基酸理化性质这两个尺度来对数据进行特征提取; 第三步:数据不平衡处理 在对数据特征提取完成之后,获得了两个维度的数据: 1获取维度为46的赖氨酸序列信息特征; 2维度为49,3的氨基酸理化性质特征; 在本阶段中,为使得训练的数据类别样本整体趋于平衡,基于46维度的赖氨酸序列信息特征,具体操作如下: 3.1函数拟合: 首先将46维度的赖氨酸序列信息特征拟合成连续的函数特征,具体步骤如下: 3.1.1无量纲化处理:采用归一化的方法对46维度的数据进行无量纲化处理;使得不同量纲的数据在同一个尺度上进行比较; 3.1.2选择拟合基函数;函数拟合,将离散数据进行重构以获得连续的光滑曲线,即对于某样本i所提取的46维度的离散特征值[yi1,yi2,…,yi46]进行拟合得到函数曲线xit,其基本形式如式6所示: yij=xitj+εtj6 其中,tj为标记当前位置所对应的横坐标,j=1,2,···,46,εtj为误差项; 3.1.3选择数据结点:根据数据点的分布选择合适的结点;结点的选择通过等间距选取或者根据数据点密度进行自适应选取; 3.1.4构建如式7所示k阶B样条基函数: 其中,cik是k次项待估系数,φkt是k次B样条基函数;基函数的阶数K为3; 3.1.5利用最小二乘法通过最小化式8所示目标函数估计参数cik: 其中,λ是平滑因子,是xit的p阶导数;通过求解,获得参数cik,进而得到拟合的函数曲线xit; 3.2聚类分析距离度量: 聚类分析中计算两个函数数据xit和xjt的距离步骤如下: 3.2.1首先对xit和xjt计算其一阶导数,进而找到导数为零的点,即极值点;设极值点集合分别为Ei={ti1,ti2,…,tim}和Ej={tj1,tj2,…,tjn}; 3.2.2极值点集合插值;如果Ei和Ej的大小不同,通过插值法使两个极值点集合的大小相等,得到调整后的极值点集合,设和 3.2.3极值点偏差距离计算;极值点偏差距离Dext定义为式9的形式: 3.2.4计算两个函数xit和xjt的欧式距离,计算公式如式10所示: 3.2.5总距离计算,最终的相似性度量Dtotal结合了数值距离和极值点偏差距离: Dtotal=Dnum+Dext11 3.3聚类分析 计算所有样本两两之间的Dtotal距离,选取相距距离最大的两个样本作为初始聚类中心;然后设已经取了n个聚类中心,则在选取第n+1个聚类中心时,选择与当前n个样本的距离之和最大的样本,以此方法递归出多个样本作为初始聚类中心; 3.4确认第一类数据的采样数与聚类数; 3.5将得到的采样后的第一类数据与原始的2-11类数据组成新的训练数据集; 第四步:多标签跨尺度卷积神经网络分类模型 基于得到的训练集对构建多标签跨尺度卷积神经网络训练,并且在独立测试集上进行测试; 4.1多标签跨尺度卷积神经网络分类模型构建 提出的多标签跨尺度卷积神经网络Cross-ScaleConvolutionalNeuralNetworksCSCNN利用卷积神经网络CNN提取标签间的隐层关系,由以下部分组成: 1统一对齐的多源特征表示; 2构建跨尺度特征与权重提取器,两个提取器包含具有相同核大小的CNN模块;提取器根据中层特征生成特征权重; 3特征融合与预测:将学习到的不同尺度的潜在信息进行融合,并结合权重得到预测结果;整合所有提取的特征并进行归一化处理后,通过权重相乘得到网络输出; 4.2模型训练与验证测试。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人江南大学,其通讯地址为:214122 江苏省无锡市蠡湖大道1800号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励