云南大学胡刚获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉云南大学申请的专利一种面向中英文双语金融大模型构建与评测方法、系统及装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119691417B 。
龙图腾网通过国家知识产权局官网在2025-11-21发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411552877.1,技术领域涉及:G06F18/21;该发明授权一种面向中英文双语金融大模型构建与评测方法、系统及装置是由胡刚;秦可;汤洪宁;向俊杰;李峰;吕思齐设计研发完成,并于2024-11-01向国家知识产权局提交的专利申请。
本一种面向中英文双语金融大模型构建与评测方法、系统及装置在说明书摘要公布了:本发明公开了一种面向中英文双语金融大模型构建与评测方法、系统及装置。通过收集原始金融语料,并结合专家标注的高质量提示,构建包含8个具体任务、36个数据集和604000个样本的大规模、多样化的金融指令数据集ICE‑FIND。在此基础上,利用80%作为训练集,结合QLora微调技术对InternLM中英文基座模型进行微调,构建中英文双语金融大模型ICE‑INTENT。为了全面评估不同金融模型性能,使用20%作为测试集建立中英文双语评估基准ICE‑FLARE,并引入未经过微调的金融任务。实验结果显示,本发明提出的大模型在中英文金融任务上的表现优于多种基线模型和金融大模型,甚至超越了最优的GPT‑4,显示出其在多样化语言资源、策略指令优化及跨语言泛化方面的优势。
本发明授权一种面向中英文双语金融大模型构建与评测方法、系统及装置在权利要求书中公布了:1.一种面向中英文双语金融大模型构建与评测方法,其特征在于,包括以下步骤: S1、采集中英文金融原始数据,所述中英文金原始融数据包括:金融的市场报告、新闻文章、财经论坛和社交媒体公开渠道; S2、通过对收集到的数据进行处理,构建包含翻译数据的中英文双语金融指令数据集ICE-FIND并划分数据集,所述划分数据集按照7:1:2的比例划分为训练集、验证集和测试集; S3、通过构造的金融指令数据集中的80%训练集基于选定双语性能优越的中英文基座模型进行微调以构建中英文双语金融大模型ICE-INTENT; 步骤包括: S3.1、选择InternLM-7B做为基座模型; S3.2、通过使用划分好的训练集对模型进行微调,优化模型参数以适应特定任务,包括以下步骤: S3.2.1、通过在微调过程中以此引入的4个类型的数据集,创建了4个模型ICE-INTENT的变体,用以评估各种数据类型对微调双语模型的影响; 4个类型的数据集包括:分类数据集、抽取数据集、翻译数据集、英文数据数据集; 4个模型的变体包括:只用分类任务数据集进行微调的模型ICEdlc-7B、使用分类+抽取任务数据集微调的模型ICEdle-7B、使用分类+抽取+翻译数据集微调的模型ICEdtt-7B、使用所有4类数据集共同微调的模型ICEfull-7B; S3.2.2、通过引入Lora微调技术来优化内存使用和减少训练时间;只需要更新必要的低秩矩阵,同时利用量化减少模型的存储和计算需求,使得大规模模型微调变得更加高效和便捷; S3.2.3、在包含8个NVIDIAHGXA100sxm4GPU的平台上以24的批量大小对模型进行微调; 微调过程中,将训练序列均匀地切割成2048个记号的长度,使用AdamW优化器,对于所有参数,初始学习速率为5e-5,权重衰减为1e-5; 微调过程中,将所述基座模型书生·浦语InternLM-7B的预训练权重与低秩矩阵进行合并,最终模型的权重由原始权重与低秩矩阵的组合构成以保留基座模型的知识,通过低秩矩阵的调整以实现针对特定任务的优化; S3.3、通过观察微调过程中的损失函数、准确率、F1分数、精确率、召回率和曲线下面积的指标变化,确保模型的有效学习; S3.4、通过在每个训练轮次结束时使用测试集评估模型性能,以调整超参数,避免过拟合; S4、利用构造的金融指令数据集中的20%独立测试集评估模型性能,针对不同的金融任务制定不同的评估指标,构建全面的评估基准ICE-FLARE。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人云南大学,其通讯地址为:650500 云南省昆明市呈贡区大学城东外环南路;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励