乐山师范学院许玲蛟获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉乐山师范学院申请的专利一种基于多阶段处理的文旅测评数据生成方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119990315B 。
龙图腾网通过国家知识产权局官网在2025-09-02发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510066643.4,技术领域涉及:G06N5/04;该发明授权一种基于多阶段处理的文旅测评数据生成方法是由许玲蛟;金澎;陈兴元;彭乙翠;张一帆;陆云飞设计研发完成,并于2025-01-16向国家知识产权局提交的专利申请。
本一种基于多阶段处理的文旅测评数据生成方法在说明书摘要公布了:本发明提供一种基于多阶段处理的文旅测评数据生成方法,属于数据处理技术领域,通过引入数据收集、关键提问点抽取、测评数据生成的协同工作,确保生成的数据具有较高的质量、多样性和针对性。关键提问点抽取通过精准提取游客关注的关键信息,从多个维度生成针对性问题,提供了一个数据生成的清晰框架;测评数据生成则基于大规模的文旅相关文本数据,通过深度学习与迁移学习技术优化数据生成过程,确保输出数据更贴近游客实际需求。同时,通过引入迭代式优化和人机交互机制,使得系统能够动态适应不断变化的市场需求和用户反馈,确保数据生成质量和多样性得到有效平衡,从而为文旅行业提供更加精确和高效的测评数据支持。
本发明授权一种基于多阶段处理的文旅测评数据生成方法在权利要求书中公布了:1.一种基于多阶段处理的文旅测评数据生成方法,其特征在于,包括数据收集、关键提问点抽取、测评数据生成; 关键提问点抽取通过提取游客关注的关键信息,从多个维度生成针对性问题,提供一个数据生成的清晰框架; 测评数据生成则基于大规模的文旅相关文本数据,通过深度学习与迁移学习技术优化数据生成过程,确保输出数据更贴近游客实际需求; 同时,通过引入迭代式优化和人机交互机制,动态适应不断变化的市场需求和用户反馈,确保数据生成质量和多样性得到有效平衡; 具体包括以下步骤: S1、数据收集;首先从多个来源收集文旅相关的数据,包括官方旅游文档、游客评价、旅游博客、在线旅游问答平台、社交媒体数据,构成原始数据; S2、关键提问点抽取;从海量的文旅信息中精准提炼出与文旅紧密相关的关键提问点;通过运用自然语言处理技术,深入挖掘游客在文旅过程中可能关心的各个方面,这些关键提问点将作为后续数据生成的重要指引,确保生成的数据具有高度的针对性和实用性,能够切实反映游客的真实需求和关注点; S3、测评数据生成;其底层架构基于现有的大语言模型,通过多头自注意力机制,并行处理输入关键信息的不同表示子空间,从而实现对语义的全面捕捉与深度理解;在训练阶段,采用大规模的文旅相关文本数据,涵盖游记、攻略、官方介绍、游客评价多源异构文本,利用海量数据训练模型以学习丰富的语言模式和文旅领域知识;基于大语言模型的预训练权重,通过迁移学习技术在文旅特定数据集上进行微调,使得模型能够更好地适应本地域的语言习惯和文旅场景特点; S1具体包括以下子步骤: S1.1、数据清洗与预处理:采用高效的数据清洗技术,确保数据的高质量和一致性; S1.2、维度划分与分类:确保每个维度的数据能够准确反映其特征,将清洗后的数据按照文旅产业的六大核心维度:“吃E1”、“住E2”、“行E3”、“游E4”、“购E5”、“娱E6”,表示为: 其中,每个维度,为该维度下的所有文旅信息集;每个维度表示为一个包含多项数据的集合 S2具体包括以下子步骤: S2.1、抽取Prompt设计:设计一个专门针对不同维度的Prompt模板P1,并在P1中给出oneshot示例,清洗和规范化后的数据内嵌到这个Prompt中,形成一个完整的、符合模型输入要求的模型输入序列P′1;关键提问点抽取语言模型表示为: Gk:Ψ×Φ→Ψ‘ 是数据空间,Φ是生成模型的参数空间; S2.2、关键提问点抽取:将各维度的输入文本序列输送至Gk中,经过模型对语义、词汇关联及上下文逻辑的深度解析与推理,最终获得不同维度的关键提问点: 当前模型的参数θ∈Φ,i是维度,k是不同维度关键信息的数量,θ为关键提问点抽取的参数; 最后经过人工筛选后;抽取的不同维度的关键提问点信息; S3具体包括以下子步骤: S3.1、测评数据生成Prompt构建;对于给定生成问题的上下文C,测评数据生成的Prompt模板为P2,对于其中λ为关键提问点个数,Ei为维度,每一个提问点将其与给定上下文C按照特定的拼接规则进行组合,P'2得到Prompt:将作为驱动模型生成测评数据的输入信息; S3.2、设计生成测评数据的模板,其结构为Q,A,T,L1,L2,L3;其中Q基于提示词P'2生成的与文旅相关的问题;A同样基于提示词生成的Q的对应的答案;T表示问题类型,由于文旅数据的特殊性,依据预先设定的规则通过类型判断函数fTQ将问题分为事实型F与规划型P,即T=fTQ,T∈{F,P};问题正确度L1是模型自我判定生成的问题是否为基于上下文的正确问题的指标,若模型判断生成的问题是否为基于上下文的正确问题;答案匹配度L2用于判断答案是否与问题精确匹配;生成可靠度L3由大模型判断问题和答案能否从上 下文中直接提取; S3.3、是数据空间,Φ是生成模型的参数空间,当前模型的参数θ∈Φ,t表示时间步,i表示当前时间步下的第i次迭代,Gd数据生成语言模型,则初始生成数据表示为: Gd:χ×Φ→Xi 其中为t时间步第i次迭代生成的测评数据,Li∈{0,1};指标与测评数据是语言模型同时生成; S3.4、对生成数据的评测指标L1,L2,L3进行逐轮迭代计算与调整;迭代过程依赖于语言模型的生成能力,生成的多样性确保模型能够通过多次尝试逐步生成符合评测标准的数据;收敛性假设是:在有限次生成内,语言模型能够生成数据使得L1=1,L2=1,L3=1,则认为生成的数据Xt达到预期质量标准,迭代流程停止,并输出最终生成的数据集X*: X*=Xt,其中L1=L2=L3=1 若在某一轮t中存在任何一个指标Li=0,i∈{1,2,3},则表明生成数据未达到质量要求,此时需要根据测评结果迭代式生成数据,即进行i+1次迭代: S3.5、人工评测:测评数据生成结束后,从语言层面对生成数据的准确性进行验证,针对生成的每条数据: X=Q,A,T,Li Li∈{L1,L2,L3} Ri∈{R1,R2,R3} 其验证过程包括两个阶段:模型自动判定L和人工复核R;计算两个指标的在所有生成的数据中的相等的概率,从语言的角度分析模型生成的数据是否达到人类语言结构完整性和语义性,从而全面验证测评系统的可靠性和可信度,一致性指标表示为: 判定结果Li与Ri表示当前生成的最终测评数据的第i项质量指标;人工复核需要对模型自动判定的指标Li进行人工评测;在自动判定结果的基础上,加入人工复核结果Ri对生成的问题与答案进行验证Ri∈{0,1};其中R1=1表示为人工验证问题合格,R2=1表示为人工验证答案合格,R3=1表示为答案能从上下文中提取;通过计算L与R的一致性指标,即两个指标的在所有生成的数据中的相等的概率大于90%则认为生成数据是可靠的。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人乐山师范学院,其通讯地址为:614000 四川省乐山市滨河路778号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。