Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 西南财经大学熊文军获国家专利权

西南财经大学熊文军获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉西南财经大学申请的专利一种基于文本聚类的视频弹幕与评论主题融合的方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115470344B

龙图腾网通过国家知识产权局官网在2025-06-27发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211017927.7,技术领域涉及:G06F16/35;该发明授权一种基于文本聚类的视频弹幕与评论主题融合的方法是由熊文军;陈思为设计研发完成,并于2022-08-24向国家知识产权局提交的专利申请。

一种基于文本聚类的视频弹幕与评论主题融合的方法在说明书摘要公布了:本发明涉及一种基于文本聚类的视频弹幕与评论主题融合的方法,所述方法包括以下步骤:步骤1:编写python程序爬取视频下方的评论及弹幕的文本内容;步骤2:根据自定义词典及扩展停用词对数据进行预处理;步骤3:运用BERTopic模型处理评论数据得到其主题;步骤4:运用基于TF‑IDF的k‑means算法处理弹幕数据得到其主题簇;步骤5:利用衡量主题之间及词与词之间的相似度从而实现“求同存异”的模型融合。本发明考虑了视频中蕴含的两种数据内容,并创新性地通过衡量主题之间及词与词之间的相似度实现多源数据的融合,可以更加全面地获取用户对整个视频的关注点。此外,发明中两种聚类均可训练出最佳簇数,无需人工提前设定。

本发明授权一种基于文本聚类的视频弹幕与评论主题融合的方法在权利要求书中公布了:1.一种基于文本聚类的视频弹幕与评论主题融合的方法,其特征在于,所述方法包括以下步骤: 步骤1:编写python程序爬取视频下方的评论及弹幕的文本内容; 步骤2:根据自定义词典及扩展停用词对数据进行预处理; 步骤3:运用BERTopic模型处理评论数据得到其主题; 步骤4:运用基于TF-IDF的k-means算法处理弹幕数据得到其主题簇; 步骤5:利用衡量主题之间及词与词之间的相似度从而实现求同存异的模型融合; 其中步骤5具体如下: 步骤5-1:通过计算余弦相似度,求得各个簇代表的词向量之间的相似度,设置相似度阈值,当相似度大于等于阈值时则认为簇之间相似,反之则不同,把被认为相似的簇输入到下一步,同时将与其余任何簇都不同的簇存放在集合C中; 步骤5-2:融合相似簇的主题词,首先选取一对相似簇,设置其中一个簇为基准簇,调用Synonyms中文近义词工具包把相似簇中各自词输入程序,获得对应词的距离分数,设置距离分数阈值,当距离分数大于等于阈值时则认为两者为近义词,反之则不同,若两词被判断为近义词则只保留基准簇中的该词,若两词不同且不同词出现在基准词中则保留不变,若两词不同且出现在比较簇中则将该词添加到基准簇中,比较完成后将该基准簇存放入集合C中;步骤5-3:将每一对相似簇进行步骤5-2的操作; 步骤5-4:输出集合C为对聚类主题进行融合的最终结果; 其中,步骤3由BERTopic主题模型处理评论文本,算法包括3个阶段:使用BERT进行文档嵌入、文档聚类、创建主题表示得到主题簇,具体如下: 步骤3-1:使用BERT模型将句子转换,从一组文档中创建文档嵌入,模型是针对多种语言进行的预训练,对于创建文档或句子嵌入都非常有用; 步骤3-2:由于聚类算法难以在高维空间中对数据进行聚类,在对文档进行聚类之前,需要降低生成的嵌入的维数,Umap算法主要包括两阶段,第一阶段构建模糊拓扑,运用最近邻算法对于空间中的每个点xi的k最近邻集合有{xi1,xi2,...,xik},ρi代表每个点与最近邻集合的最小距离,σi为各点的标准差,pij代表所求概率,根据式1-4得到ρi、σi以及pij: ρi=min{dxi,xi|1≤j≤k,dxi,xij0}1 第二阶段是简单地优化低维表示,使其具有尽可能接近的模糊拓扑表示,如式5所示,默认的参数a≈1.93,b≈0.79,并将式6的交叉熵公式作为代价函数训练; qij=1+ayi-yj2b-15 步骤3-3:使用HDBSCAN对降维的嵌入进行聚类,运用式7衡量点与点之间的距离,运用层次聚类的思想,使用最小生成树构建点与点之间的层次模型,并且为了控制生成的簇不要过小,限制了最小生成树剪枝的最小子树,其分裂度量方式是将每个点的密度度量定义为其中ε是该点和剩余聚类中点之间的最短距离;簇的生成密度定义为λbirth是这个簇生成时分裂边的导数,最后一个簇的密度由式8求得,通过HDBSCAN实现最大化簇之间的距离及最小化簇内距离, dmreach-ka,b=max{coreka,corekb,distance1,b}7 步骤3-4:使用c-TF-IDF对主题进行提取和删减,利用最大边际相关法MMR计算查询文本和搜索文档之间的相似度,并对文档进行排序,提高词的连贯性和多样性,c-TF-IDF是一种基于类的TF-IDF方法,其中c是已识别的聚类,c-TF-IDF计算得分的公式为式9,其中tfx表示词x在簇c中出现的频率,fx是词x在所有簇中出现的频率,A表示每个簇的平均词汇个数,最大边际相关法计算公式为式10,其中Q指查询文本,C指搜索文档集合,R为一个已经求得的以相关度为基础的初始集合,di在集合C中,dj在集合R中,aregmax表示搜索返回的K个句子的索引,

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人西南财经大学,其通讯地址为:611130 四川省成都市温江区柳台大道555号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。