北京淘幂科技有限公司全文俊获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京淘幂科技有限公司申请的专利基于互联网大数据和AI大语言模型的产品标签提取方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120012774B 。
龙图腾网通过国家知识产权局官网在2025-07-29发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510083215.2,技术领域涉及:G06F40/284;该发明授权基于互联网大数据和AI大语言模型的产品标签提取方法是由全文俊;许秀春;张爽设计研发完成,并于2025-01-20向国家知识产权局提交的专利申请。
本基于互联网大数据和AI大语言模型的产品标签提取方法在说明书摘要公布了:本发明涉及产品标签提取技术领域,具体地说,涉及基于互联网大数据和AI大语言模型的产品标签提取方法。其包括以下步骤:S1、使用爬虫技术抓取互联网上产品的文本数据;S2、采用TF‑IDF算法确定文本数据中的重要词汇,并结合Skip‑Gram模型来捕捉词汇间的语义关联,在捕捉词汇间语义关联的过程中引入反映用户浏览频率的权重和用户的行为特征向量来优化捕捉过程;S3、基于提取的重要词汇和词汇间的语义关联信息,利用大规模预训练的语言模型生成产品标签;S4、结合序列标注模型BERT和条件随机场CRF定位和分类产品标签,输出最终提取的产品标签。本发明技术利用BERT模型和条件随机场CRF层相结合的方式,可以有效地对产品标签进行定位和分类。
本发明授权基于互联网大数据和AI大语言模型的产品标签提取方法在权利要求书中公布了:1.基于互联网大数据和AI大语言模型的产品标签提取方法,其特征在于,包括以下步骤: S1、使用爬虫技术抓取互联网上产品的文本数据; S2、采用TF-IDF算法确定文本数据中的重要词汇,并结合Skip-Gram模型来捕捉词汇间的语义关联,在捕捉词汇间语义关联的过程中引入反映用户浏览频率的权重和用户的行为特征向量来优化捕捉过程; 结合Skip-Gram模型来捕捉词汇间的语义关联,包括以下步骤: S2.5、基于预处理后的文本数据构建词汇表,记录所有出现在文本中的独特词汇及其频率; S2.6、设定一个固定的窗口大小,对于每个中心词,在中心词左右各取个词作为上下文词,形成训练对; S2.7、为词汇表中的每个词随机初始化低维向量,并设置超参; S2.8、设定目标函数训练Skip-Gram模型,赋予产品词向量反映浏览频率的权重,将用户行为特征向量和引入到目标函数中进行优化,并将相关联的产品作为额外的正例引入到目标函数进一步优化; S2.9、训练后的Skip-Gram模型将每个词映射到高维向量空间中,得到每个词的词向量; S2.10、结合词频、逆文档频率和词向量,形成新的产品词向量: ; S2.11、计算词向量的余弦相似度来度量词汇间的语义相似性,针对具有相似上下文的词汇,在词向量的余弦相似度的计算过程中引入聚类方法,通过聚类将语义上相似的词汇分到同一类中; S3、基于提取的重要词汇和词汇间的语义关联信息,利用大规模预训练的语言模型生成产品标签; S4、结合序列标注模型BERT和条件随机场CRF定位和分类产品标签,输出最终提取的产品标签。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京淘幂科技有限公司,其通讯地址为:100102 北京市朝阳区望京SOHO塔1A座2005室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。