中国科学院软件研究所陈思然获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中国科学院软件研究所申请的专利一种基于迁移学习的跨语言编译器漏洞挖掘方法和装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115758379B 。
龙图腾网通过国家知识产权局官网在2025-07-11发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211460458.6,技术领域涉及:G06F21/57;该发明授权一种基于迁移学习的跨语言编译器漏洞挖掘方法和装置是由陈思然;吴敬征;芮志清;罗天悦;凌祥;武延军设计研发完成,并于2022-11-17向国家知识产权局提交的专利申请。
本一种基于迁移学习的跨语言编译器漏洞挖掘方法和装置在说明书摘要公布了:本发明涉及一种基于迁移学习的跨语言编译器漏洞挖掘方法和装置。该方法的步骤包括:1计算源编程语言数据DS和目标编程语言数据DT的分布差值D及修正正则项L;2根据修正正则项L以及源语言序列SS和目标语言序列ST之间的差异对预训练模型MS进行修正,从而得到修正后的模型MS ’;3对MS ’利用目标语言序列ST进行微调训练,得到模型MT;4根据模型MT生成目标语言程序作为样例,进行模糊测试以挖掘漏洞。本发明为了解决编译器模糊测试中测试样例生成的时效性和有效性问题,提出了预训练模型的优化、复用技术以及测试样例生成方法。本发明可以提高漏洞挖掘人员在生成目标语言作为测试样例时的速度和样本数量,进而提高针对编译器的漏洞挖掘能力。
本发明授权一种基于迁移学习的跨语言编译器漏洞挖掘方法和装置在权利要求书中公布了:1.一种基于迁移学习的跨语言编译器漏洞挖掘方法,其步骤包括: 选择基于学习生成模糊测试样例的模型作为预训练模型MS,在此基础上选取源语言数据集和目标语言数据集,将其序列化为源语言序列SS和目标语言序列ST,并计算两个序列的距离差值D和模型的修正正则项L; 对于预训练模型MS,根据所得到的修正正则项L,以及序列SS和ST之间的差异对预训练模型MS进行修正,从而得到修正后的模型MS ’; 对经过修正的MS ’,利用基于目标语言数据集DT而生成的目标语言序列ST进行微调训练,最终得到生成模型MT; 根据生成模型MT生成目标语言程序作为测试样例,利用测试样例进行模糊测试以挖掘漏洞; 所述距离差值D用最大均值差异来计算,所述修正正则项L用损失函数来计算;其中D的计算公式如下: 其中最大均值差异MMD用来度量两个不同但相关的随机变量分布的距离,即序列SS,ST中元素ss和st之间距离;函数是将样本ss和st映射到统一空间的投影函数; L的计算公式如下: L=Lc+0.25*MMD2SS,ST 其中L由预训练模型自身的损失函数Lc和MMD构成,自身的损失函数代表输出样本和真实样本之间的差异,MMD代表源域和目标域样本之间的差异; 所述对预训练模型MS进行修正,是通过序列之间的token差异和修正正则项L修改预训练模型中每个神经网络的激活函数,包括以下步骤: 对于目标语言序列ST手工挑选含有不同代码语义的token,作为目标语言语义标准集;计算输入序列中每个元素和目标语言语义标准集的距离d,并用该距离来修改隐藏状态ht的更新函数为: 利用修正正则项L,修改yt的更新函数为: yt=Фht=ght-1,xt+L 其中,xt表示在时序t上LSTM模型得到的输入,f、g是LSTM的非线性激活函数。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国科学院软件研究所,其通讯地址为:100190 北京市海淀区中关村南四街4号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。