南京莱斯网信技术研究院有限公司丁玉响获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉南京莱斯网信技术研究院有限公司申请的专利一种多元流媒体数据采集方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116915756B 。
龙图腾网通过国家知识产权局官网在2025-10-24发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310845588.X,技术领域涉及:H04L65/75;该发明授权一种多元流媒体数据采集方法是由丁玉响;贺成龙;顾学海;尹晓阳;卜华奇设计研发完成,并于2023-07-10向国家知识产权局提交的专利申请。
本一种多元流媒体数据采集方法在说明书摘要公布了:本发明提供了一种多元流媒体数据采集方法,将多元流媒体,例如:内嵌在不同种类APP、PC客户端、HTML页面等视图数据进行源链接提取、特征提取、持久化存储,针对流媒体页面不同的反爬虫手段,获取视图数据,为后续视图内容识别分析做数据储备,方法包括:步骤1,获取待采集流媒体数据的流媒体源地址;步骤2,对流媒体源地址进行合规性验证;步骤3,对通过验证的流媒体源地址,进行分布式采集,得到流媒体数据;步骤4,对采集到的流媒体数据,进行流媒体特征信息提取;步骤5,根据流媒体特征信息,进行流媒体数据融合,得到结构化流媒体数据,完成所述的多元流媒体数据采集。
本发明授权一种多元流媒体数据采集方法在权利要求书中公布了:1.一种多元流媒体数据采集方法,其特征在于,包括如下步骤: 步骤1,获取待采集流媒体数据的流媒体源地址; 步骤2,对流媒体源地址进行合规性验证; 步骤3,对通过验证的流媒体源地址,进行分布式采集,得到流媒体数据; 步骤4,对采集到的流媒体数据,进行流媒体特征信息提取; 步骤5,根据流媒体特征信息,进行流媒体数据融合,得到结构化流媒体数据,完成所述的多元流媒体数据采集; 其中,步骤2中所述的对流媒体源地址进行合规性验证,包括: 步骤2-1,根据流媒体源地址判断是否为特定的数据平台,若是则执行步骤2-2,否则执行步骤2-4; 步骤2-2,判断是否需要验证身份,若是是则执行步骤2-3,否则执行步骤2-5; 步骤2-3,采用进行动态渲染的方法,获取游客身份,并执行步骤2-5; 步骤2-4,采用随机请求头,并执行步骤2-6; 步骤2-5,采用随机设备指纹,执行步骤2-6; 步骤2-6,判断是否需要随机IP,若是则执行步骤2-7,否则执行步骤2-8; 步骤2-7,采用动态随机IP,并执行步骤2-8; 步骤2-8,判断是否需要活体验证,若是则执行步骤2-9,否则执行步骤2-10; 步骤2-9,采用活体验证,并执行步骤2-10; 步骤2-10,采用动态控制请求频率,并执行步骤2-11; 步骤2-11,完成合规性验证,进入步骤3,开始采集流媒体数据; 步骤2-9中所述的采用活体验证,即使用通用验证码识别库,进行人机交互操作,完成所述验证请求,具体方法包括:拼图式滑块验证方法、非拼图试滑块验证方法以及字符验证方法; 其中,拼图式滑块验证方法,具体如下: 先将待验证的图片转换为灰度图像,并进行二值化处理,通过轮廓检测确定待验证的图片中滑块缺口位置,通过动态渲染模拟滑动轨迹完成拼图式滑块验证; 非拼图式滑块验证方法,包括:直接通过动态渲染模拟滑动轨迹完成滑块验证; 字符验证方法,包括:使用卷积神经网络提取待验证图像的局部特征,使用循环神经网络将特征序列进行转换,使用全连接层将上述转换后的特征组合在一起,输出待验证图像中对应每个字符类别的概率分布,概率最大的字符类则作为识别结果,具体方法如下: 将待验证图像χ输入到第一个卷积层中,卷积运算后,得到特征图h1,再通过ReLU激活函数对特征图进行非线性变换,得到新的激活图a1,将新的激活图a1输入到第一个池化层中,池化操作采用最大值池化;经过池化操作后,得到新的特征图h2,经预设次数的上述卷积、激活和池化操作后,得到最终的特征图hf; 将最终的特征图hf输入到LSTM网络中,通过多层LSTM单元,逐步提取序列信息,得到一个长度为T的一维向量ht,将LSTM网络输出的向量ht输入到全连接层中,该层包含一个以上神经元;全连接层的输出s表示为: s=wht+b 其中,W是权重矩阵,b是偏置项; 对全连接层的输出s进行softmax操作,得到每个字符类别的概率分布pi,方法如下: 其中,i和j表示第i个和第j个字符类别,取值范围为0,1,…,k-1,k为字符类别数量,exp用于将输出向量转换为概率分布向量,即对每个元素进行指数化,并在所有元素之和作为除数来归一化,在此公式中表示全连接层的输出s中的每个元素si进行exp操作; 选择其中概率最大的字符类别作为识别结果y,表示如下: y=argmaxipi; 步骤2-10所述的采用动态控制请求频率,具体包括: 设定一个最小时间间隔Tmin和最大时间间隔Tmax,根据已经采集的目标网站的页面数量N和目标网站的页面类型T,计算时间间隔Δt; 如果时间间隔Δt超过最大时间间隔Tmax,则将其调整为Tmax;如果时间间隔Δt小于最小时间间隔Tmin,则将其调整为Tmin,即采用如下方法cf进行调节: cf=MinMaxTmin,fN,T*k,Tmax 其中,Min和Max函数分别表示取最小值和最大值,k是一个系数,用于调整频率;函数fN,T表示根据已经采集的页面数量N和目标页面类型T计算出的请求频率。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京莱斯网信技术研究院有限公司,其通讯地址为:210002 江苏省南京市秦淮区永丰大道36号天安数码城05幢;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励