合肥工业大学钱洋获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉合肥工业大学申请的专利一种基于文本监督注意力的多模态广告流行度预测方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN113947436B 。
龙图腾网通过国家知识产权局官网在2025-09-05发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202111232184.0,技术领域涉及:G06Q30/0242;该发明授权一种基于文本监督注意力的多模态广告流行度预测方法是由钱洋;许华华;姜元春;柴一栋;刘业政;徐旺;凌海峰;熊迎秋设计研发完成,并于2021-10-22向国家知识产权局提交的专利申请。
本一种基于文本监督注意力的多模态广告流行度预测方法在说明书摘要公布了:本发明公开了一种基于文本监督注意力的多模态广告流行度预测方法,其步骤包括:1.构建多模态广告数据集合并表示,2.提取多模态广告的特征,3.引入基于文本的注意力机制,4.融合多模态广告的文本与视觉特征,5.利用融合后的全局特征预测广告的流行度得分。本发明在预测流行度得分时,能够综合利用多模态广告中的文本与视觉信息,并有效降低噪声信息的影响,以得到有效的数据特征表示,从而能提高多模态广告的预测精确度。
本发明授权一种基于文本监督注意力的多模态广告流行度预测方法在权利要求书中公布了:1.一种基于文本监督注意力的多模态广告流行度预测方法,其特征是按如下步骤进行: 步骤1、构建多模态广告数据集合D,用|D|表示多模态广告数据集合D的数目,所述多模态广告数据集合D中任意第i条广告包含文本描述、图像、标签、标题、作者、时间的多模态信息,i∈[1,|D|]; 步骤1.1、构建多模态广告数据集合D的文本信息集合,所述文本信息集合中第i条广告的文本信息,记为其中,wi,n表示第i条广告的文本信息di中第n个词汇,Ni表示文本信息di的总词汇量,n∈[1,Ni]; 步骤1.2、构建多模态广告数据集合D的视觉信息集合,所述视觉信息集合中第i条广告的视觉信息Ii,记为其中,pi,m表示第i条广告的视觉信息Ii中第m个图片,Mi表示视觉信息Ii的总图片数,m∈[1,Mi]; 步骤1.3、构建多模态广告数据集合D的其他辅助信息集合,其中,第i条广告的标签信息集合记为li,第i条广告的标题信息集合记为ti,第i条广告的作者信息集合记为ai,第i条广告的时间信息集合记为Ti; 步骤2、提取多模态广告的特征; 步骤2.1、基于降噪主题模型获取文本信息的特征表示; 步骤2.1.1、定义所有文本信息集合的主题分布为θ={θ1,θ2,…,θi,…,θ|D|},其中,θi表示第i条广告的文本信息di的主题分布,且服从参数为α的狄利克雷分布,定义第i条广告的文本信息di的主题分布θi由K个与流行度预测相关的主题{θi1,θi2,…,θik,…,θiK}和一个背景主题组成,其中,θik表示第i条广告的文本信息di在第k个与流行度预测相关的主题上的概率分布值,k∈[1,K]; 步骤2.1.2、令φk表示第k个主题词分布,且φk服从参数为β0的狄利克雷分布,并有φk={φk1,φk2,…φkv,…φkV},其中,φkv表示第v个词汇被分配给第k个主题的概率,v∈[1,V],V表示所有广告的文本信息中不重复的词汇总数; 令表示背景主题下的词分布,且服从参数为β1的狄利克雷分布,并有其中,表示第v个词汇被分配给背景主题的概率; 步骤2.1.3、定义二元指示变量b=b1,b2,...,bi,...,b|D|,其中,bi表示第i个广告的文本信息di中所有词汇的主题所属情况,并有其中,bin第i条广告的文本信息di中第n个词汇wi,n的主题所属情况,且服从伯努利分布; 若bin=1,表示第i条广告的文本信息di中第n个词汇wi,n属于与流行度预测相关的主题,则定义第i条广告的文本信息di中第n个词汇的与流行度预测相关的主题编号为zin,且服从参数为θi的多项式分布;定义第i条广告的文本信息di的第n个词汇wi,n服从参数为的多项式分布,其中,表示第i条广告的文本信息di的第n个词汇wi,n所属的与流行度预测相关的第zin个主题下的词概率分布; 若bin=0,表示第i条广告的文本信息di的第n个词汇wi,n属于背景主题;定义第i条广告的文本信息di的第n个词汇wi,n服从参数为的多项式分布; 步骤2.1.4、使用式1~式3所示的坍塌式吉布斯抽样分别计算第i条广告的文本信息di的主题分布θi、第k个与流行度预测相关的主题下的词分布φk和背景主题下的词分布 式1~式3中,表示第i条广告的文本信息di中分配到第k个与流行度预测相关的主题下的词汇的数量;表示二元变量b为1时,所有文本信息中第v个词汇分配到第k个与流行度预测相关的主题下的数量;表示二元变量b为0时,所有文本信息中第v个词汇分配到背景主题下的数量; 根据第k个与流行度预测相关的主题下的词分布φk,取概率最大的前E个词汇对第k个与流行度预测相关的主题进行向量表征,并结合第i条广告的文本信息di的主题分布θi,得到文本信息的特征矩阵其中,表示第i条广告的文本信息di中第k个与流行度预测相关的主题的特征表示; 步骤2.2、通过预训练的VGG-16网络来提取图片区域特征; 将第i条广告的视觉信息Ii的第m张图片pi,m划分为Z个区域,得到图片区域集合其中,表示第i条广告的视觉信息Ii的第m张图片pi,m中第z个区域;将第z个区域输入VGG-16网络,并输出第m张图片pi,m中第z个区域的特征表示vi,m,z,从而得到图片区域的特征表示集合Vi,m=[vi,m,1,…,vi,m,z,…,vi,m,Z]; 步骤2.3、获取其他辅助信息的特征表示; 步骤2.3.1、获取标签和标题信息的特征表示; 将第i条广告的标签信息li的第j个标签li,j表示为独热编码yi,j,将第i条广告的标签信息li的所有标签均表示为相应的独热编码并构成编码向量后输入到LSTM模型,得到标签信息li的特征向量; 由标签信息li的特征向量构造标签信息li的标签特征矩阵并进行均值池操作后得到第i条广告的标签信息li的特征表示fi label;同理,得到第i条广告的标题信息ti的特征表示fi title; 步骤2.3.2、获取作者信息的特征表示; 使用作者信息集合ai的粉丝数fi followers,作者信息集合ai的关注数fi followings,作者信息集合ai的作品数fi works作为第i条广告的作者信息集合ai的特征表示,记为fi author=[fi followers,fi followings,fi works]; 步骤2.3.3、获取时间信息的特征表示; 将第i条广告的时间信息集合Ti的小时fi hour、星期fi week、日fi day、月fi month、年fi year作为第i条广告的时间信息Ti的特征表示作,记为fi time=[fi hour,fi week,fi day,fi month,fi year]; 步骤3、引入基于文本的注意力机制; 步骤3.1、引入如式4和式5所示的注意力机制,从而利用式6得到第i条广告的文本信息di的特征表示Q为文本特征维度: 式4~式6中,为词级别的文本特征表示的隐表示,S为隐藏层维度,Wtopic为隐表示的权重矩阵,btopic为隐表示的偏置向量,αi,k∈R为文本特征表示的注意力得分,Wa为文本注意力得分的权重矩阵,tanh表示正切激活函数,表示文本特征表示的隐表示,k′∈[1,K]; 步骤3.2、通过基于文本的注意力机制得到每张图片的特征表示; 利用式7和式8分别得到结合文本信息的图片区域特征表示和第z个区域的注意力得分αi,m,z∈R,从而利用式9得到第m张图片pi,m的特征表示 式7~式9中,Wregion为图片区域特征表示的权重矩阵,Wtext为文本特征表示的权重矩阵,Wv为图片区域注意力得分的权重矩阵;表示第i条广告的视觉信息Ii中第m张图片pi,m中第z′个区域的特征表示,z′∈[1,Z],⊙表示元素乘积; 步骤3.3、使用注意力机制融合多张图片的特征,最终得到第i条广告的视觉信息Ii的特征表示 利用式10得到第i条广告的视觉信息Ii中第m张图片pi,m的隐特征表示hi,m∈RQ,利用式11计算第m张图片pi,m的注意力得分ai,m∈R,利用式12得到最终学习到的第i条广告的视觉信息Ii的特征表示 式10~式12中,Wimage为图片隐特征表示的权重矩阵,bimage为图片隐特征表示的偏置向量,Wh为图片注意力得分的权重矩阵;hi,m′表示第i条广告的视觉信息Ii中第m′张图片pi,m′的隐特征表示,m′∈[1,Mi]; 步骤4、融合多模态广告的文本与视觉特征; 利用式13所示的线性函数对文本特征与视觉特征进行融合,得到第i条广告的融合表示 式13中,为外积;[]表示向量矩阵的线性化; 步骤5、利用融合后的全局特征预测流行度得分; 步骤5.1、将连接起来,得到第i条广告的全局特征fi global,从而得到所有广告的全局特征fglobal并输入如式14所示的分类器中预测流行度得分 式14中,Wg和bg为分类器的权重矩阵与偏差向量; 步骤5.2、采用如式15所示的二元交叉熵作为目标函数J: 式15中,C表示所述多模态数据集合D中作为训练集的数据条数,yc表示训练集中第c条广告的真实流行度得分,表示训练集中第c条广告的预测流行度得分;1<C<|D|; 步骤5.3、设置最大迭代次数epoch_number,利用反向传播和梯度下降法对目标函数J进行训练,使得J达到最小,当迭代次数达到epoch_number时,停止训练,从而得到最优预测模型,用于对所输入的多模态广告数据进行流行度得分的预测。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人合肥工业大学,其通讯地址为:230009 安徽省合肥市包河区屯溪路193号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。