杭州电子科技大学张灵均获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉杭州电子科技大学申请的专利基于自监督学习与深度森林的摄影图像美学风格分类方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114299336B 。
龙图腾网通过国家知识产权局官网在2025-12-12发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202111627628.0,技术领域涉及:G06V10/764;该发明授权基于自监督学习与深度森林的摄影图像美学风格分类方法是由张灵均;包尔权;张桦;吴以凡;苟若芸设计研发完成,并于2021-12-28向国家知识产权局提交的专利申请。
本基于自监督学习与深度森林的摄影图像美学风格分类方法在说明书摘要公布了:本发明公开了一种基于自监督学习与深度森林的摄影图像美学风格分类方法,首先构建并训练自监督特征学习模型,然后构建并训练深度森林模型,最后通过训练好的特征提取网络和深度森林模型完成摄影图像美学风格分类。本发明采用自监督特征学习模型进行预训练,充分挖掘美学特征,有利于深度森林模型更好寻找多标签摄影图像美学风格分类的最优解。深度森林模型在迭代训练过程中充分考虑了多标签之间的关联信息,提升多标签摄影图像美学风格分类的精度。
本发明授权基于自监督学习与深度森林的摄影图像美学风格分类方法在权利要求书中公布了:1.基于自监督学习与深度森林的摄影图像美学风格分类方法,其特征在于,步骤如下: 步骤1:构建并训练自监督特征学习模型; 所述的自监督特征学习模型由特征提取网络与投影网络组成; 步骤1-1:建立特征提取网络; 步骤1-2:建立投影网络; 步骤1-3:建立自监督对比学习损失函数; 步骤2:构建并训练深度森林模型,具体包括: 步骤2-1:数据集采用多标签摄影图像共2000张,总共有14个摄影美学风格,每张图像有大于1个的摄影美学风格标签;将这2000张图像通过步骤1中的自监督特征学习模型得到的特征向量按照列拼接得到输入矩阵; 步骤2-2:建立深度森林模型层次结构; 步骤2-3:建立深度森林模型层与层之间的连接方式; 步骤3:通过训练好的特征提取网络和深度森林模型完成摄影图像美学风格分类; 步骤1具体方法如下: 所述的自监督特征学习模型由特征提取网络与投影网络组成; 步骤1-1:建立特征提取网络; 数据集采用AVA美学数据集共250000张美学图像,针对每个输入样本x,将ResNet50作为特征提取网络得到表征向量进行归一化到超球面; 步骤1-2:建立投影网络; 获得表征向量r后,通过投影网络获得向量投影网络为一个多层感知机网络,包括一个2048维度的隐层和一个DP=128的输出层;将向量z再次归一化到超球面; 步骤1-3:建立自监督对比学习损失函数; 若给定容量为N的一批随机采样的数据标签对{xk,yk}k=1…N,则对应用于训练的是经过数据增强的一批数据容量为2N的数据标签对其中和是xk分别经过两次不同数据增强生成的,且标签 在同一批次训练数据中,任意选取i∈I≡1…2N索引的数据作为基准数据,则ji是与索引i的数据来源于同一个源数据样本进行数据增强得到的另一个数据索引;自监督对比学习损失函数公式如下: 其中,符号·表示内积运算,表示温度系数;ji索引的数据作为正样本,Ai表示其余数据的集合作为负样本; 步骤2具体方法如下: 步骤2-1:数据集采用AVA美学数据集中的多标签摄影图像共2000张,总共有14个摄影美学风格,每张图像有大于1个的摄影美学风格标签;将这2000张图像通过步骤1-1中的特征提取网络得到的对应的2000个2048特征向量按照列拼接得到输入矩阵; 步骤2-2:建立深度森林模型层次结构;将步骤2-1得到的输入矩阵作为第一层的输入;深度森林模模型一共有5层,每一层由4个随机森林模型组成,包括2个普通随机森林模型和2个完全随机森林模型;两者的区别在于分支时特征选取的不同,普通随机森林选取作为候选,之后再用基尼系数选取最佳的特征进行分支;而完全随机森林从n个特征中随机选取一个进行分支;给定数据集Xmn,其中每一行Xii=0,…,m-1=[x0,…,xn-1],对应的标签集合为Yml,其中每一行为Yii=0,…,m-1=[y0,…,y1-1];其中m=2000为样本总数,n=2048为特征总数,k=14为标签总数;模型每一层的随机森林模型会生成输入样本图像属于某个风格标签的概率值,如果该概率值大于设定的阈值,则判断该图像属于该风格标签,输出1,否则判断不属于,输出0; 步骤2-3:建立深度森林模型层与层之间的连接方式;对每一层模型来说,遍历全部的4个随机森林模型,每个随机森林模型都采用多折交叉训练的方式;这样每个随机森林模型会输出一个m行k列的矩阵,表示的是每一个图像属于每一个风格标签的概率值;因此,每一层总共输出4个标签的概率矩阵,按列拼接得到输出矩阵其中t表示第t层的输出的结果矩阵,而m×4k表示矩阵的规模是m行,4*k列; 层与层之间的连接方式采用复用机制;对于第一层的输出,直接将输出矩阵与最初的输入矩阵按照列拼接在一起,作为深度森林模型中下一层的输入;下一层同样按照第一层进行训练,生成结果矩阵;此时复用机制生效,将当前层的训练输出与上一层的训练输出做运算,生成新矩阵具体运算如下: 根据多标签任务评价指标的不同,将上一层中性能表现好的列或者行替换当前层的输出的对应的列或者行;当到达最后一层时,采用最大概率投票法得到最终预测的多标签结果,具体表达如下:
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人杭州电子科技大学,其通讯地址为:310018 浙江省杭州市下沙高教园区2号大街;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励