烟台国工智能科技有限公司柳彦宏获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉烟台国工智能科技有限公司申请的专利一种通过产率预测排名的反应条件推荐方法及装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119324001B 。
龙图腾网通过国家知识产权局官网在2025-11-18发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411854251.6,技术领域涉及:G16C20/10;该发明授权一种通过产率预测排名的反应条件推荐方法及装置是由柳彦宏;肖瑞;赵国祥;胡钧员;任庆设计研发完成,并于2024-12-17向国家知识产权局提交的专利申请。
本一种通过产率预测排名的反应条件推荐方法及装置在说明书摘要公布了:本发明公开一种通过产率预测排名的反应条件推荐方法及装置,该方法对原始数据集进行处理,生成样本数据集;将样本数据集中同一反应拥有若干反应条件的样本进行处理,保留产率最大的样本,生成反应条件数据集;保留全部样本,生成反应产率数据集;基于图卷积网络和非线性神经网络,构建反应条件预测模型并训练;基于多层非线性神经网络,构建反应产率预测模型并训练;将目标反应的分子SMILES输入反应条件预测模型获得反应条件组合;将分子SMILES及反应条件组合中的分子SMILES,输入反应产率预测模型获得反应条件组合对应的产率并进行排序,将产率最大的反应条件组合作为推荐结果。本发明为使用者提供高产率的反应条件,同时给出产率值来说明反应的产率上限。
本发明授权一种通过产率预测排名的反应条件推荐方法及装置在权利要求书中公布了:1.一种通过产率预测排名的反应条件推荐方法,其特征在于,包括: 对原始数据集进行筛选过滤处理,提取反应的分子SMILES、反应条件和产率,生成样本数据集;使用阿斯利康公开的偶联反应数据集中,提取其中的反应、反应条件;其中,反应条件包括催化剂、溶剂、碱基和温度;使用RDKit工具包对不合理的反应进行过滤;从数据中提取反应的分子SMILES、反应条件和产率组成样本,并去重;删除产率为0的样本,生成样本数据集; 将所述样本数据集中同一反应拥有若干反应条件的样本进行处理,保留产率最大的样本,生成反应条件数据集;在样本数据集中,统计一个反应存在的多个反应条件,只保留产率最大的样本;将反应的分子SMILES作为输入,反应条件作为标签,得到反应条件数据集; 将所述样本数据集中同一反应拥有若干反应条件的样本进行处理,保留全部样本,生成反应产率数据集;在样本数据集中,保留同一反应不同反应条件的样本;按照反应条件中化合物的名称查找对应的分子SMIELS,将反应和反应条件的分子SMILES作为输入,反应产率作为标签,生成反应产率数据集; 基于图卷积网络和非线性神经网络,构建反应条件预测模型;通过所述反应条件数据集对所述反应条件预测模型进行训练,获得训练好的反应条件预测模型;基于图卷积网络和非线性神经网络,构建反应条件预测模型;将所述反应条件数据集按比例划分为训练集和测试集,在训练集上进行迭代训练模型,模型损失为反应条件预测的交叉熵损失和温度预测的均方误差损失之和,保存迭代过程中测试集准确率最高的模型,作为训练好的反应条件预测模型; 基于多层非线性神经网络,构建反应产率预测模型;通过所述反应产率数据集对所述反应产率预测模型进行训练,获得训练好的反应产率预测模型;基于多层非线性神经网络,构建反应产率预测模型;将反应产率数据集按比例划分为训练集和测试集,在训练集上进行迭代训练,计算均方误差损失并优化模型参数,保留迭代中测试集损失最低的模型为训练好的反应产率预测模型; 将目标反应的分子SMILES输入所述训练好的反应条件预测模型,通过所述训练好的反应条件预测模型进行预测处理,获得所述目标反应的反应条件组合;将所述目标反应的分子SMILES及所述反应条件组合中的分子SMILES,逐一输入所述训练好的反应产率预测模型,通过所述训练好的反应产率预测模型进行预测处理,获得所述反应条件组合对应的产率;将所述反应条件组合对应的产率进行排序,将产率最大的反应条件组合作为推荐结果; 所述反应条件预测模型的预测步骤为: T1、通过化学信息学工具对目标反应中的反应物分子和产物分子进行处理,生成所述反应物分子的化学信息学特征和所述产物分子的化学信息学特征;将所述反应物分子的化学信息学特征和所述产物分子的化学信息学特征进行融合,生成反应的特征表示; 具体通过化学信息学工具对目标反应中的反应物分子和产物分子进行处理,生成反应物和产物的分子指纹,反应物的分子指纹求和与产物的分子指纹拼接,得到反应的分子指纹; T2、构建反应物和产物的分子图,将若干分子图通过邻接矩阵拼接得到反应的分子图;提取分子中每个原子的化学特征,组成与所述反应的分子图相对应的特征矩阵; 具体构建反应物和产物的分子图,以图的邻接矩阵表示;将邻接矩阵按对角线拼接得到反应分子图的邻接矩阵,生成分子中每个原子的化学特征,组成与邻接矩阵对应的特征矩阵; T3、将分子的化学信息学特征通过多层非线性神经网络处理,获得基于分子的全局表示; 具体将分子指纹经过两层非线性神经网络,获得基于分子的全局表示; 其中,基于分子的全局表示的表达式为: ; 式中,为基于分子的全局表示;和均为神经网络的参数矩阵;和均为神经网络的偏置向量,为RELU激活函数;为反应的分子指纹; T4、将所述反应的分子图及所述特征矩阵输入多层图卷积网络,通过聚合学习所述反应的分子图中原子之间的局部邻居信息;将聚合后的原子表示通过平均池化层处理,得到基于原子的局部表示; 具体将表征分子图的邻接矩阵和原子特征矩阵经过层图卷积网络,通过聚合学习分子图中原子之间的局部邻居信息,第层的卷积如下所示: 式中,为第层的卷积;为第-1层的卷积;表示自链接后的邻接矩阵,为单位矩阵;为的度矩阵,和分别表示第层的参数矩阵和偏置矩阵; 将所有聚合后的原子表示经过平均池化层得到基于原子的局部表示;所述基于原子的局部表示的表达式为: ; 式中,为基于原子的局部表示;表示平均池化层; T5、将所述全局表示及所述局部表示进行组合,并通过若干预测层进行处理,输出若干反应条件;将若干反应条件进行排列组合,生成若干反应条件组合; 具体将局部表示和全局表示拼接,分别经过三个预测层,预测催化剂、溶剂和碱基,每个预测层输出的向量长度与对应的化学环境反应条件包含的化合物数量一致,经过Sigmoid获得预测向量: ; ; ; 式中,、和分别表示催化剂、碱基和溶剂的预测向量;、和为三个网络的参数矩阵;、和为三个网络的偏置向量,表示向量拼接,分别超过指定阈值、和的位置对应的化合物为化学环境反应条件的预测结果;将三个阈值分别设置为0.3、0.5和0.5; T6、将所述反应的特征表示通过多层非线性神经网络处理,输出温度预测值; 具体将所述反应的分子指纹通过多层非线性神经网络处理,输出分子指纹处理结果;所述分子指纹处理结果的表达式为: ; 式中,为分子指纹处理结果;和均为神经网络的参数矩阵;和均为神经网络的偏置向量; 将反应条件的one-hot编码经过多层非线性神经网络处理,输出编码处理结果;所述编码处理结果的表达式为: ; 式中,为编码处理结果;和为神经网络的参数矩阵;和为神经网络的偏置向量;、和分别为催化剂、碱基和溶剂的one-hot编码向量; 将所述分子指纹处理结果和所述编码处理结果拼接,通过温度预测层得到温度预测值;温度预测值的表达式为: ; 式中,为温度预测值;和分别表示参数矩阵和偏置向量; T7、将若干所述反应条件组合分别输入多层非线性神经网络进行处理,输出每个所述反应条件组合对应的温度,获得目标反应的若干目标反应条件; 具体将若干所述反应条件组合分别输入温度预测部分预测每个反应条件组合对应的温度,得到目标反应可能的多组反应条件; 所述反应产率预测模型的预测步骤为: M1、根据目标反应的分子SMILES和反应条件的SMILES计算,获得化学反应指纹; 具体根据反应的分子SMILES和化学环境反应条件的SMILES计算化学反应指纹DRFP; M2、将产率进行归一化处理; 具体将产率进行归一化,将产率值除100作为训练模型的标签; M3、将所述化学反应指纹输入多层非线性神经网络,得到预测的产率; 具体将化学反应指纹DRFP输入一个三层的非线性神经网络,得到预测的产率: ; 式中,为预测的产率;、和分别为权重矩阵;、和分别为偏执向量。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人烟台国工智能科技有限公司,其通讯地址为:264006 山东省烟台市经济技术开发区珠江路66号正海大厦27层2701号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励