哈尔滨工业大学赵森栋获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉哈尔滨工业大学申请的专利一种任务描述增强的分子表征学习系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119649944B 。
龙图腾网通过国家知识产权局官网在2025-09-23发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411672345.1,技术领域涉及:G16C20/50;该发明授权一种任务描述增强的分子表征学习系统是由赵森栋;郭昊强;王昊淳;杜晏睿;秦兵设计研发完成,并于2024-11-21向国家知识产权局提交的专利申请。
本一种任务描述增强的分子表征学习系统在说明书摘要公布了:一种任务描述增强的分子表征学习系统,本发明属于计算机领域人工智能中分子表征学习领域,具体涉及任务描述增强的分子表征学习系统。本发明为解决现有技术中通用分子表征难以捕获任务特异性特征、在标注数据稀缺场景下泛化性能不足,导致分子表征学习准确性低以及可解释性较差的问题。系统包括:基于任务描述的多回归任务数据集构建模块、双塔模型构建模块、双塔模型训练模块、预测模块;基于任务描述的多回归任务数据集构建模块用于构建基于任务描述的多回归任务数据集;双塔模型构建模块用于构建双塔模型;双塔模型训练模块用于获取训练好的双塔模型;预测模块用于将待测分子输入训练好的双塔模型,训练好的双塔模型输出任务相关分子表征。
本发明授权一种任务描述增强的分子表征学习系统在权利要求书中公布了:1.一种任务描述增强的分子表征学习系统,其特征在于:所述系统包括: 基于任务描述的多回归任务数据集构建模块、双塔模型构建模块、双塔模型训练模块、预测模块; 基于任务描述的多回归任务数据集构建模块用于构建基于任务描述的多回归任务数据集MT-MTR;具体过程为: 一、获取DrugBank和ChEBI数据库中的分子,使用RDKit对DrugBank和ChEBI数据库中的分子进行标准化处理得到规范化的SMILES格式的分子; 对规范化的SMILES格式的分子进行去重,得到去重后的规范化的SMILES格式的分子; 二、获取分子描述符列表; 分子描述符列表包含各个分子描述符名称及计算各个分子描述符的函数; 三、对于一获得的分子中的每个分子,随机从二获取的分子描述符列表中选取K个描述符名称及描述符名称对应的计算函数; 使用随机抽取的K个计算函数计算每个分子的属性; 每个分子的K个属性作为分子描述符的K个回归标签; 将随机抽取的K个描述符名称输入大语言模型,大语言模型输出1个任务描述; 四、基于一得到的分子、三得到的任务描述和回归标签构建三元组数据分子,任务描述,回归标签,基于三元组数据构建基于任务描述的多回归任务数据集MT-MTR; 双塔模型构建模块用于构建双塔模型; 双塔模型训练模块用于获取训练好的双塔模型; 预测模块用于将待测分子输入训练好的双塔模型,训练好的双塔模型输出任务相关分子表征; 所述双塔模型构建模块用于构建双塔模型;具体过程为: 双塔模型包括文本编码器和分子编码器; 所述文本编码器为语言预训练模型PubMedBERT; 所述分子编码器为分子预训练模型CHEM-BERT; 所述语言预训练模型PubMedBERT分为单模态文本编码器和多模态文本编码器; 所述单模态文本编码器为语言预训练模型PubMedBERT中的第1层到第9层; 所述多模态文本编码器为语言预训练模型PubMedBERT中的第10层到第12层; 将多模态文本编码器中的每层自注意力层改为交叉注意力层; 所述模型训练模块用于获取训练好的双塔模型;具体过程为: 1、三元组数据中分子输入分子编码器,分子编码器输出通用分子表征;通用分子表征经过线性层映射得到向量Km,Vm; 2、三元组数据中任务描述输入单模态文本编码器,单模态文本编码器输出任务描述的表征;任务描述的表征分别经过矩阵WQ,WK,WV映射,得到文本向量Q1、Kt1,Vt1; 将文本向量Q1、Kt1,Vt1、Km,Vm输入多模态文本编码器的第1层,多模态文本编码器的第1层输出表征;多模态文本编码器第1层输出表征分别经过WQ,WK,WV矩阵映射,得到文本向量Q2、Kt2,Vt2; 将文本向量Q2、Kt2,Vt2、Km,Vm输入多模态文本编码器的第2层,多模态文本编码器的第2层输出表征;多模态文本编码器第2层输出表征分别经过WQ,WK,WV矩阵映射,得到文本向量Q3、Kt3,Vt3; 将文本向量Q3、Kt3,Vt3、Km,Vm输入多模态文本编码器的第3层,多模态文本编码器的第3层输出表征,作为多模态文本编码器输出的任务相关分子表征,即双塔模型的输出; 3、基于多模态文本编码器输出的任务相关分子表征和分子编码器输出通用分子表征计算对比学习任务损失 4、基于双塔模型输出的预测值和真实值计算多回归预测任务损失 所述双塔模型输出的预测值为将多模态文本编码器输出的任务相关分子表征经过线性层的输出; 5、计算对比学习任务损失和多回归预测任务损失的加和,作为双塔模型的总损失函数L; 6、双塔模型的优化采用动量更新机制: 其中,θt表示第t次迭代对应的双塔模型参数,m表示动量系数;表示对θt求导;L表示双塔模型的总损失函数;θt+1表示第t+1次迭代对应的双塔模型参数; 7、重复执行1-6,直至双塔模型的总损失函数L收敛,获得训练好的双塔模型。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人哈尔滨工业大学,其通讯地址为:150001 黑龙江省哈尔滨市南岗区西大直街92号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励