龙岩学院赖永明获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉龙岩学院申请的专利一种基于多模态语言模型的单细胞转录组数据与文本描述联合分析方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120452543B 。
龙图腾网通过国家知识产权局官网在2025-10-03发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510958145.0,技术领域涉及:G16B30/00;该发明授权一种基于多模态语言模型的单细胞转录组数据与文本描述联合分析方法是由赖永明;刘谦;陈旭;曾志文设计研发完成,并于2025-07-11向国家知识产权局提交的专利申请。
本一种基于多模态语言模型的单细胞转录组数据与文本描述联合分析方法在说明书摘要公布了:本发明涉及细胞数据分析技术领域,公开了一种基于多模态语言模型的单细胞转录组数据与文本描述联合分析方法,包括:获取单细胞RNA测序表达矩阵与对应的细胞文本描述,对单细胞RNA测序表达矩阵与对应的细胞文本描述进行预处理,构建多模态数据集,通过构建双模型与跨模态投射模块,实现了基因表达数据与文本知识的深度融合,避免了单一模态的局限,预处理时保留基因表达值与索引序列,改变了粗糙编码方式,提升了细胞类型识别准确率,基于对比学习、匹配学习及跨模态投射模块的预训练策略,实现了细粒度的跨模态信息交互与共享,优化了文本生成细胞或细胞生成文本等跨模态任务效果。
本发明授权一种基于多模态语言模型的单细胞转录组数据与文本描述联合分析方法在权利要求书中公布了:1.一种基于多模态语言模型的单细胞转录组数据与文本描述联合分析方法,其特征在于,包括: S1:获取单细胞RNA测序表达矩阵与对应的细胞文本描述,对单细胞RNA测序表达矩阵与对应的细胞文本描述进行预处理,构建多模态数据集,包括: 对单细胞RNA测序表达矩阵进行分析,得到第i个细胞原始的表达向量,同时为每个细胞i构建对应的原始的基因索引序列; 对文本描述进行处理,得到每个细胞i的文本token序列; 对每个细胞的基因表达值进行归一化和变化处理,得到第i个细胞最终的表达向量; 将第i个细胞最终的表达向量与文本token序列配对,并构建出多模态数据集,将多模态数据集划分为训练集、验证集与测试集; S2:基于多模态数据集,构建双模型和跨模态投射模块,双模型包括:细胞预训练语言模型和文本预训练语言模型;基于多模态数据集,构建双模型,包括: 根据基因嵌入矩阵对第i个细胞的基因索引序列进行映射,得到基因矩阵; 根据基因矩阵,构建细胞预训练语言模型; 对第i个细胞的文本token序列进行映射,得到对应的tokenID向量; 根据词嵌入矩阵将tokenID向量转化为嵌入矩阵,并构建文本预训练语言模型; 基于多模态数据集,构建跨模态投射模块,包括: 设定K个可训练查询向量,并构成查询向量矩阵; 基于查询向量矩阵和第i个细胞输出的隐藏矩阵构建跨模态投射模块; 将细胞预训练语言模型、文本预训练语言模型和跨模态投射模块进行集成,得到统一的多模态框架; S3:基于对比学习和匹配学习对双模型进行对齐预训练,同时根据细胞描述生成损失与伪细胞生成损失对跨模态投射模块进行预训练,包括: 基于双模型对B条配对样本进行分析,得到第一隐藏表示矩阵和第二隐藏表示矩阵; 对第一隐藏表示矩阵进行分析,生成细胞描述生成损失; 对第二隐藏表示矩阵进行分析,生成伪细胞生成损失; 对细胞描述生成损失与伪细胞生成损失进行计算,得到第二阶段总损失; S4:在预训练中,不同阶段采用不同的策略进行参数调整,包括: 在阶段一中,冻结文本预训练语言模型的参数,调整跨模态投射模块的映射器; 在阶段二中,基于LoRA技术调整文本预训练语言模型投影参数和跨模态投射模块的映射器; 同时基于文本的伪细胞生成和细胞类型实现自动注释任务。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人龙岩学院,其通讯地址为:364000 福建省龙岩市新罗区东肖北路1号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励