东南大学吴桦获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉东南大学申请的专利一种面向复杂网络环境的细粒度网页识别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115982915B 。
龙图腾网通过国家知识产权局官网在2026-01-30发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310137087.6,技术领域涉及:G06F30/18;该发明授权一种面向复杂网络环境的细粒度网页识别方法是由吴桦;刘嵩涛;程光设计研发完成,并于2023-02-20向国家知识产权局提交的专利申请。
本一种面向复杂网络环境的细粒度网页识别方法在说明书摘要公布了:本发明涉及一种面向复杂网络环境的细粒度网页识别方法,首先将网页访问流量按五元组切流,并利用数据包中包含的SNI信息将切流后的流量分组;然后将特定分组中的数据包重组为TLS分片,并提取长度信息。在对同一网页的多次访问过程中,能代表网页特征的ADU会被重复请求,通过统计TLS分片长度信息中的频繁项,构造表征网页的特征向量,这些特征向量被视作网页指纹。本发明利用聚类修正特征向量的数值波动,并设计词袋模型修正特征向量的顺序波动,最终,将修正后的特征向量输入机器学习模型进行训练,得到能精准识别网页的分类器。该方法能够在复杂网络环境下得到稳定的细粒度网页指纹,用于对公害网页访问行为的精准识别。
本发明授权一种面向复杂网络环境的细粒度网页识别方法在权利要求书中公布了:1.一种面向复杂网络环境的细粒度网页识别方法,其特征在于,该方法包括以下步骤: 步骤1采集流量数据,按五元组切流; 步骤2分析数据包中包含的SNI信息,将步骤1中的流量分组; 步骤3将步骤2中的数据包重组为TLS分片,并提取带有特定SNI标签分组内的TLS分片长度信息; 步骤4基于步骤3的结果,利用核密度预测对相近的TLS分片长度聚类,利用聚类结果消除TLS分片长度波动对特征提取的影响; 步骤5基于步骤4的结果,统计网页访问过程中TLS分片长度的频繁项,以构造表征网页的特征向量; 步骤6基于步骤5的结果,设计词袋模型处理特征向量,消除TLS分片顺序波动的影响; 步骤7使用步骤6的结果,将修正后的特征向量输入机器学习模型进行训练,得到能精准识别网页的分类器; 其中,所述步骤4中包含以下子步骤: 4.1提取步骤3中属于同种SNI的所有TLS分片长度序列,将这些序列中的全部长度,去掉重复元素后,记作集合F,对F中的元素按升序排列,排列结果记作序列P; 4.2利用核密度预测计算序列P中各数值的密度,并构造相应的概率密度函数,所使用的密度计算公式如公式1所示: 其中y为自变量,h为核函数的窗口宽度,xi为落在窗口中的第i个样本,N为落在窗口中的样本总数,Kx;h为恒正的核函数,本方法选用的核函数为高斯核函数,它的定义如公式2所示: 其中e为自然常数,x为自变量,h为核函数的窗口宽度, 4.3找到4.2中概率密度函数的极小值点,将极小值点作为序列P的分割点,把原始TLS分片长度分为若干组; 4.4将4.3中组内的各数据,修改为各个组内所有数据的平均值; 其中,所述步骤5中,包含以下子步骤: 5.1统计同一SNI下,单条连接中TLS分片长度的频繁项,若某个TLS分片长度在单条连接中出现的频率超过阈值,记其长度为k,将TLS序列中连续m个,m1,长度为k的分片,与随后的一个分片合并; 5.2统计同一SNI下,同一网页的多次访问行为中TLS分片长度的频繁项,若某个TLS分片长度在同一网页的多次访问行为中出现的频率超过阈值,将该长度添加到集合W中; 5.3统计同一SNI下,同一网站的多次访问行为中TLS分片长度的频繁项,若某个TLS分片长度在同一网站的多次访问行为中出现的频率超过阈值,将该长度添加到集合S 中; 5.4分析并提取网页特征,选择所有在集合W且不在集合S的TLS分片长度,构造表征网页的特征向量,这些特征向量被视作网页指纹。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人东南大学,其通讯地址为:210096 江苏省南京市玄武区四牌楼2号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励