中国人民解放军国防科技大学赵翔获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中国人民解放军国防科技大学申请的专利一种基于大语言模型的跨领域数据匹配方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119003740B 。
龙图腾网通过国家知识产权局官网在2025-11-04发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411433416.2,技术领域涉及:G06F16/3329;该发明授权一种基于大语言模型的跨领域数据匹配方法是由赵翔;张梓恒;黄宏斌;唐九阳;曾维新;李璇设计研发完成,并于2024-10-15向国家知识产权局提交的专利申请。
本一种基于大语言模型的跨领域数据匹配方法在说明书摘要公布了:本发明公开了一种基于大语言模型的跨领域数据匹配方法,包括以下步骤:输入源数据和目标数据,且两者分别来自患者信息和药物数据;分别从源数据和目标数据中提取实体对,所述源数据中的实体对具有标签的,即被标记为匹配或者不匹配,目标数据中的实体对不具有标签;主动候选源数据生成;上下文演示选择;将每个实体对的域信息注入到预定义格式中,将提示发送给大语言模型进行处理,大语言模型根据接收到的提示返回特定实体对的结果。本申请探索了大语言模型执行跨域实体解析的上下文学习能力。本申请提高了大语言模型在跨域实体解析任务中的性能,能选择更有价值的演示并构建更高质量的提示。
本发明授权一种基于大语言模型的跨领域数据匹配方法在权利要求书中公布了:1.一种基于大语言模型的跨领域数据匹配方法,其特征在于,包括以下步骤: S1:获取源数据和目标数据,所述源数据和目标数据分别来自患者信息和药物数据; S2:分别从源数据和目标数据中提取实体对,所述源数据中的实体对具有标签的,标记为匹配或者不匹配,目标数据中的实体对不具有标签; S3:利用主动学习方法,选择标记源数据的一个子集作为候选源数据,对源数据进行初步过滤,用于大语言模型学习;具体包括:根据源数据中每个记录的不确定性及其与目标数据的关联性,从源数据中选择记录作为候选者; S4:将演示选择的范围从源数据更改为候选源数据;结合结构和语义的相似性,以选择更有价值的演示; S5:将每个实体对的域信息注入到预定义格式中,将提示发送给大语言模型进行处理,大语言模型根据接收到的提示返回特定实体对的结果; S6:获得目标数据实体对的标签信息,并输出; 其中,步骤S3包括:使用不确定性采样来选择候选源数据,所述不确定性抽样的策略为熵,熵的计算公式如下: 其中是实体对的语义表示向量,是记录中两个实体匹配的概率,是记录中两个实体不匹配的概率,且; 计算每个实体对的匹配概率,从而计算实体对的不确定度; 转换实体对进入d-使用预先训练的语言模型的语义向量表示,使用SBERT来生成实体对嵌入; 计算与目标数据的关联性,即计算源数据中实体对的表示向量与目标数据中所有实体对的平均表示向量之间的距离,得到源数据中每个记录对大语言模型在目标数据执行跨域实体解析任务的价值; 根据计算得到的价值对源数据集中的所有记录进行排序,并选择价值最高的若干条记录作为候选源数据; 所述计算每个实体对的匹配概率,从而计算实体对的不确定度,包括: 构建一个概率分类器,用于计算实体对的匹配概率:将源数据平均分为折;对于其中第折中的记录,使用其他折中的实体对及其标签对信息构建分类器;让判断折中的实体对,从而获得匹配概率;这样重复迭代K轮,得到所有源数据种所有实体对的匹配概率; 使用朴素贝叶斯分类器计算实体对的匹配概率时,基于贝叶斯定理和特征条件独立假设来进行计算,具体来说,根据实体对的向量表示中的各个维度的特征值,计算出这些特征值在给定匹配标签下的条件概率;然后,利用这些条件概率和贝叶斯定理,计算出实体对匹配的概率;具体计算方法如下: 其中,是0或1,0表示不匹配,1表示匹配,是源数据中第l维实体对的语义向量表示,表示的维度,是先验概率,根据训练数据计算得到的。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国人民解放军国防科技大学,其通讯地址为:410073 湖南省长沙市开福区德雅路109号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励