文章快速检索     高级检索
  重庆邮电大学学报(自然科学版)  2020, Vol. 32 Issue (3): 452-458  DOI: 10.3979/j.issn.1673-825X.2020.03.015
0

引用本文 

吴建, 许镜, 丁韬. 基于集成迁移学习的细粒度图像分类算法[J]. 重庆邮电大学学报(自然科学版), 2020, 32(3): 452-458.   DOI: 10.3979/j.issn.1673-825X.2020.03.015.
WU Jian, XU Jing, DING Tao. Fine-grained image classification algorithm based on ensemble methods of transfer learning[J]. Journal of Chongqing University of Posts and Telecommunications (Natural Science Edition), 2020, 32(3): 452-458.   DOI: 10.3979/j.issn.1673-825X.2020.03.015.

基金项目

重庆市教委科学技术研究项目(KJQN201800642)

Foundation item

The Science and Technology Research Program of Chongqing Municipal Education Commission(KJQN201800642)

作者简介

吴建(1970-),男,重庆人,正高级工程师,主要研究方向为计算机图像处理。E-mail:wujian@cqupt.edu.cn; 许镜(1993-),男,湖北黄石人,硕士研究生,主要研究方向为计算机图形处理、机器学习。E-mail:1330059550@qq.com; 丁韬(1992-),男,安徽合肥人,硕士研究生,主要研究方向为计算机视觉。

通讯作者

吴建 wujian@cqupt.edu.cn.

文章历史

收稿日期: 2018-12-18
修订日期: 2019-12-12
基于集成迁移学习的细粒度图像分类算法
吴建, 许镜, 丁韬     
重庆邮电大学 通信与信息工程学院,重庆 400065
摘要: 针对现有的大部分细粒度图像分类算法都忽略了局部定位和局部特征学习是相互关联的问题,提出了一种基于集成迁移学习的细粒度图像分类算法。该算法的分类网络由区域检测分类和多尺度特征组合组成。区域检测分类网络通过类别激活映射(class activation mapping,CAM)方法获得局部区域,以相互强化学习的方式,从定位的局部区域中学习图像的细微特征,组合各局部区域特征作为最终的特征表示进行分类。该细粒度图像分类网络在训练过程中结合提出的集成迁移学习方法,基于迁移学习,通过随机加权平均方法集成局部训练模型,从而获得更好的最终分类模型。使用该算法在数据集CUB-200-2011和Stanford Cars上进行实验,结果表明,与原有大部分算法对比,该算法具有更优的细粒度分类结果。
关键词: 细粒度图像分类    集成迁移学习    类别激活映射    随机加权平均    
Fine-grained image classification algorithm based on ensemble methods of transfer learning
WU Jian , XU Jing , DING Tao     
School of Communication and Information Engineering, Chongqing University of Posts and Telecommunications, Chongqing 400065, P.R. China
Abstract: Aiming at the problem that most existing fine-grained image classification algorithms ignore the correlation between local localization and local feature learning, this paper proposes a fine-grained image classification algorithm based on ensemble methods of transfer learning. The classification network of the algorithm consists of region detection classification and multi-scale feature combination. The regional detection classification network obtains local regions by class activation mapping (CAM), and learns fine-grained features from the localized regions in a mutually reinforcing way. Finally, the local features are combined as the final feature representation to classify. The classification network combines the proposed ensemble methods of transfer learning in the training process, and ensemble the local training model by stochastic weight averaging method based on transfer learning to obtain a better classification model. Experiments on datasets CUB-200-2011 and Stanford Cars show that the algorithm has better fine-grained classification results than most of the previous algorithms.
Keywords: fine-grained image classification    ensemble methods of transfer learning    class activation mapping    stochastic weight averaging    
0 引言

随着计算机图像识别分类技术的进步,细粒度图像分类在计算机视觉和模式识别上已经成为一个活跃的研究课题。目前已广泛应用于工业,例如对不同种类的鸟类或植物进行分类,以评估自然生态系统的变化,或识别用于视觉普查估计的车模型。物体的细粒度分类与物体的普通分类的主要区别为物体的细粒度分类是经过构造高度特征化的图像特征,利用机器学习的方法,对大量的图像样本进行训练,对某种物体进行子分类。细粒度图像分类是非常具有挑战性的,因为同一类别的样本之间存在显著差异,而且不同类别之间有明显的相似之处[1, 2]。同时,细粒度物体识别的关键点在于对物体的关键部件进行定位和准确的描述,以及细粒度物体之间差别细微,加上其他环境的干扰,就使得对于细粒度物体的分类极富挑战性和研究意义。

1 相关工作

近年来,随着许多研究人员的参与,这一领域取得了飞速的进展。一般情况下,部件定位和特征提取是影响细粒度分类准确度的2个关键因素。从现有研究成果来看,为了寻求更精确的部件定位,文献[3]在卷积神经网络(convolutional neural network,CNN)基础上,在局部定位、局部提取和细分类方面做了改进,明显优于之前依赖于人工特征提取的一些研究。Zhang等[4]采用由上而下的选择性搜索[5]生成含有所需部分的区域,通过使用R-CNN[6]进行定位。在特征提取方面,传统方法最具代表的是基于视觉词袋模型,通过SIFT等提取底层描述子,最终生成词袋作为图像的最终表示,但是该类方法受限于人工提取的特征,分类结果很难得到提升。因此,现在主流的细粒度图像分类方法都是基于卷积神经网络来提取特征,达到分类目的。Wang等[7]通过不同尺度的卷积神经网络提取图像的不同区域特征并组合,使用支持向量机进行分类。Lin等[8]提出了一种Bilinear CNN模型,由2个CNN组成,且都作为特征提取器,虽然提取的是全局特征,但也包含了局部信息,具有良好的分类效果。数据集也是细粒度图像分类的一个很大的影响因素。现实中,大部分数据集规模不大,无法能够完整地训练参数量如此庞大的深度卷积神经网络,所以不能从头开始随机初始化训练模型。为得到训练良好的卷积神经网络,很多分类工作都基于迁移学习,将预训练的模型或是参数迁移到自己的模型中。经过适当训练,得到良好的卷积神经网络。

本文中,为了提高细粒度图像识别的性能,利用集成迁移学习方法训练多尺度卷积神经网络模型,提出基于多尺度特征和集成迁移学习的细粒度图像分类算法。首先依据CNN提取多个特征图,对各特征图加权平均得到热成像图,获得区域激活值,精确检测局部区域,并得出各个尺度网络的分类准确率。最后,通过将多尺度特征融合,并输入分类器进行识别,在CUB-200-2011数据集上,实验结果准确率优于现有的精度。为了进一步提升精度,引进集成学习[9]和迁移学习[10],通过基于集成迁移学习的模型输出分类结果,其准确率优于上面提出的方法的精度。本文的主要创新有以下几个方面:①设计一个端到端训练的多尺度卷积神经网络,并最终结合各尺度网络的区域特征进行细粒度图像分类;②多尺度网络通过分类的损失函数相互强化学习,加强区域检测和区域特征学习的联系;③用集成迁移学习的方法得到训练权重参数完整的最佳分类模型,提高分类准确率。

2 基于集成迁移学习的细粒度图像分类算法 2.1 多尺度卷积神经网络设计

局部区域检测是细粒度识别的核心问题之一,在分类过程中将区域检测问题转化为目标分类问题。近年来,对目标检测的研究是一个活跃的课题,利用深层神经网络对目标检测的性能进行了研究[5, 11-12]。对于有判别力区域定位,早期的工作[4]使用R-CNN[13]来探测物体并定位其部件以供识别,类似工作还有Mask R-CNN[14]等。然而,该类算法是以一种强有力的监督方式进行的,严重依赖人工标注信息,这严重制约了算法的实用性。且特征提取方面都是较为单一的特征,在细粒度图像分类中,不同特征组合有着不同的结果。因此,本文依赖类别标签检测局部区域,结合多尺度卷积神经网络解决细粒度图像分类问题。

本文基于Zhou等[15]提出的类别激活映射(class activation mapping, CAM)方法生成热力图,即注意区域,对局部区域进行定位。将定位的图像裁剪,输入到卷积神经网络中,进一步细粒度分类。本文中,区域检测分类网络是将VGG-16[16]进行修改,去掉最后一个卷积层的全连接层,换成由1个卷积层和平均池化层组成的全局平均池化层,然后训练1个Softmax层,由Softmax得出最终分类结果。网络结构如图 1

图 1 区域检测分类网络 Fig.1 Region detection classification network

本文中的分类网络是由多个不同尺度卷积神经网络组成,每个网络结构相同。多尺度分类网络结构如图 2,3个不同尺度网络通过CAM算法检测局部区域并对输入的图像细粒度分类,同时各网络之间通过获取局部区域获得联系。多尺度特征分类网络和区域检测分类网络共享提取特征的卷积层,为了减小参数量和得到更好的特征表示,在各个卷积层后串联最大池化层和平均池化层作为图像的特征表示,分别得到由2个512维串联成1 024维的特征向量表示,然后将图像特征表示串联在一起,得到3×1 024=3 072维的特征向量,最后连接全连接层和Softmax分类器,得到最终分类类别。

图 2 多尺度特征分类网络 Fig.2 Multi-scale feature classification network

多尺度特征分类网络是一个端到端训练的网络模型,依次由上到下训练各区域检测分类网络,迭代训练,直至3个不同尺度网络的分类损失函数值不再变化,此时各卷积层已训练完整。对于整个多尺度特征分类网络融合特征后面的网络层,训练时固定前面各卷积层,且仅训练全连接层和Softmax。

2.2 集成迁移学习

针对数据集规模小和训练时间长的问题,本文基于迁移学习进行训练,结合集成学习的集成输出特性,提出集成迁移学习的方法,提高卷积神经网络模型的性能以及最终分类的准确率。

迁移学习是一种通过对原已有域的学习来解决目标域问题的方法。算法思想是将预训练的卷积神经网络模型或参数迁移到新的模型中,作为新模型的权重参数。该方法减少了训练模型的时间,也降低了训练模型的迭代次数,可以使网络快速收敛。迁移学习的策略分为微调(fine-tuning)和冻结(freezen)2种。微调策略是先在预训练集与测试集上训练完成整个CNN,然后再根据目标数据集的特异性对输出层进行微调后识别出目标图像;冻结策略是由于CNN前几层卷积层滤波器对权重的会产生较大的影响,所以采用冻结前面几层,再对余下的神经网络层进行微调。通过迁移学习,可以使数据集数量小的问题得到一定的解决,同时也能为模型训练节约大量时间,只需对参数进行适当的微调即可得到适合于目标域问题的模型参数。

集成学习是一种即便一个分类器输出错误的分类结果,其他分类器也能将错误的结果纠正回来的算法。传统的集成方法Bagging和Boosting[17]等,都是集成几种不同的模型进行预测,然后使用某种方法来确定集成模型的最终预测。虽然该方法能够提升系统的最终性能,但是有很明显的缺点,增加了系统的复杂度。目前,Izmailov等[18]提出了随机加权平均(stochastic weight averaging, SWA)方法,该方法不是传统意义上的集成学习方法,基于权重更新的集成方法,采用这个方法,训练时仅需要训练一个模型,存储2个模型,该方法不需要额外多的训练,不增加训练成本,结果也优于传统的集成神经网络模型。该算法的思想是

$ {w_{{\rm{SWA}}}} \leftarrow \frac{{{w_{{\rm{SWA}}}} \cdot {n_{{\rm{models}}}} + w}}{{{n_{{\rm{models}}}} + 1}} $ (1)

(1) 式是随机加权平均权重更新公式,wSWA是第1个模型存储模型权重的平均值wSWA,该模型训练结束后是最终预测模型。第2个模型则用于变换权重空间,wSWA利用线性分段的循环学习率策略(如图 3)找到最优权重空间w,学习率为(a2a1)。训练时,第2个模型线性循环学习率,按照随机梯度下降方法(stochastic gradient descent, SGD)更新权重,得到最优权重空间w。每次学习率循环周期结束时,第2个模型所得到的最优权重w会被用于更新第1个模型的权重,即对第1个模型已有的平均权重和第2个模型产生的新权重再次加权平均。2个模型的权重更新直至迭代次数完成,在预测阶段,只需要第1个具有平均权重的模型,并对其进行预测。

图 3 线性循环学习率策略 Fig.3 Linear cyclic learning rate strategy

本文提出一种结合集成学习和迁移学习的集成迁移学习方法。该算法思想是先利用迁移学习将已训练好的卷积神经网络模型权重参数迁移到本文要训练的模型上,然后利用集成学习的思想,将本文训练好的模型通过集成学习方法集成后进行决策,其集成的最终结果为输出预测结果。由于在CNN的训练过程中,学习率的设置对CNN的准确率影响很大。而随机加权平均算法可以使学习率在一定范围内循环变化,设置学习率在范围内变化训练仍可以达到很好的收敛效果。本文中,提出的集成迁移学习方法是随机加权平均方法和迁移学习的结合,冻结卷积神经网络的一部分网络层,对剩下的网络层进行微调训练,而微调训练过程中采用随机加权平均方法,获得最终预测模型。该算法的结构图如图 4

图 4 集成迁移学习 Fig.4 Ensemble methods of transfer learning
3 算法测试 3.1 实验数据集

为测试本文模型方法的效果,选取了CUB-200-2011和Stanford-cars 2个标准数据集进行测试。CUB-200-2011是一个鸟类数据集,按照鸟的不同种类分为200类,该数据集共有11 788幅图像,按照训练集和测试集分为2部分,分别含有5 994和5 794张图像。Stanford-cars是一个汽车数据集,其中按照制造商、型号和年份分成了196类,该数据集共有16 185幅图像,按照训练集和测试集分为2部分,分别含有8 144和8 041张图像。

3.2 实验设置

本实验的主要硬件环境是显卡为NVidia Tesla P100 GPU,显卡为16 GByte。软件环境为操作系统是Linux,深度学习平台使用Keras和TensorFlow的组合。文中主要在数据集CUB-200-2011上进行细粒度分类实验,文中设置epoch为150。对于每组测试集中的图像,设置输入图像大小为224×224,区域图像通过双线性插值设定为224×224,使用本文学习模型CNN将数据集进行精确的分类。

3.3 实验结果

在本文中,将在ImageNet数据集上预训练的卷积神经网络模型的卷积层参数迁移到本文区域检测分类网络模型的卷积层中,且仅对区域检测分类网络使用集成迁移学习的策略,使用数据集CUB-200-2011在该模型上微调。其中,训练策略为3个区域检测分类网络依次逐个从上到下训练,直至3个区域检测分类网络的分类损失函数值不变。训练完成后,固定各卷积层参数,对整个分类网络最后的全连接层和Softmax训练,完成最终分类。

区域的获取过程中,后2个不同尺度网络通过CAM方法获得输入的图片,如表 1,取4种鸟类图片为例,获得2张不同尺度的图片并输入网络。该部分为获取更适合的区域,训练过程中从上到下依次循坏迭代训练3个网络的卷积层,直至3个网络的损失函数值不变时结束训练。

表 1 获得不同尺度区域 Tab.1 Get regions at different scales

在细粒度图像分类中,为了增加实验对比性,对不使用集成迁移学习方法和使用集成迁移学习方法后的不同参数设置分别进行实验对比。

在不使用集成迁移学习方法的情况下,区域检测分类模型训练时将整个卷积层参数载入,仅训练全连接层和Softmax层,通过SGD更新参数,学习率为0.001。比较了不同尺度网络Scale1, Scale2, Scale3, Scale1+Scale2以及多尺度特征(Scale1+Scale2+Scale3)分类网络的分类实验准确率,实验结果如表 2

表 2 不同网络的分类准确率对比(无集成迁移学习) Tab.2 Classification accuracy contrast of different network (without ensemble methods of transfer learning)  

根据表 2中的实验结果可知,在仅使用传统的迁移学习下,各不同尺度网络的分类准确率依次递增,最接近头部区域的网络的细粒度分类准确率最好,其分类准确率为78.0%。将3个不同尺度网络提取特征进行融合分类,准确率比3个单个网络准确率要有所提高,达到80.3%。

在使用集成迁移学习算法的前提下,本文又对该算法进行了不同参数设置实验对比。为了确定区域检测分类网络模型迁移学习时需要微调到中间某一层能得到更好准确率的情况,设置不同微调深度进行实验并观察最终分类结果。首先冻结区域检测分类网络中的前L层卷积层,微调训练剩下的网络层。同时,本文将第2个模型训练不同次数N后将权重作为第1个模型参数的初始化,并开始对第1个模型进行平均权重更新。然后设定3种不同训练次数:N=37,N=75和N=112(即对于epoch约占比0.25, 0.5和0.75)进行比较。在本实验中,3个区域检测分类网络训练时学习率(a2a1)设置为(0.000 5,0.05),同时也分别设置不同的训练次数N和冻结卷积层层数L,进行实验结果对比。

表 2知多尺度特征的分类准确率高于单个尺度网络,因此,此次实验只对多尺度特征的分类结果对比,其实验结果对比如表 3

表 3 不同冻结层数和初始化训练次数的分类准确率(%) Tab.3 Classification accuracy contrast of different frozen layers and initial training times  

表 3可知,在使用集成迁移学习情况下,多尺度特征分类网络的图像分类准确率得到提高。最低的分类准确度为80.9%,高于未使用集成迁移学习的准确率80.3%。对第1个模型初始化时第2个模型的训练次数为0.75 epoch和训练时冻结前4层卷积层的情况下分类准确率最高,达到85.3%。

实验表明在集成迁移学习中,网络冻结层并不是越少越好或是越多越好,需要实验才能得出结论。同时,由文献[18]知,当第2个模型训练次数大于0.75 epoch时对第1个模型参数初始化,其对最终模型的结果有少量的提升直至稳定。可知当迭代训练次数达到一定次数之后,第2个模型权重会更加优化,使得第1个模型更新权重的次数减少,且不会受第2个模型前期未训练完整的影响。

此外,将本文的算法和现有的个别细粒度图像分类算法在数据集CUB-200-2011下进行了实验对比,结果如表 4,从最终的分类准确率对比结果可以看出,本文所提出的算法在细粒度图像分类上有较好的效果。

表 4 数据集CUB-200-2011下的各方法分类准确率对比 Tab.4 Classification accuracy contrast of different methods in CUB-200-2011 dataset  

表 4可知,在本文实验参数设置中,N=0.75 epoch,L=4时,在CUB-200-2011数据集上分类准确率最高。按照该设置将本文模型在数据集Stanford Cars上按照集成迁移学习方法训练,并与其他实验结果作对比,如表 5表 5中,最终的分类准确率对比结果显示,本文算法在该数据集上仍然有较好的细粒度图像分类的效果。

表 5 数据集Stanford Cars下的各方法分类准确率对比 Tab.5 Classification accuracy contrast of different methods in Stanford Cars dataset  
3.4 时间复杂度分析

将本文方法与传统模型在测试过程中的时间复杂度进行分析。线性SVM的测试时间复杂度为O(dn),d为特征维数,n为支持向量个数。假设底层特征为128维的SIFT,那么文献[21]中,每张图像的特征维数为1 048 576维。文献[22]采用PCA算法对SIFT进行降维,最后每张图像都用256 000维的向量表示。而本文模型中3个不同尺度网络是基于VGG-16的,网络的Pool 5层之前都被保留了,因此,输出的卷积层特征是7×7×512维,即有49个512维向量,文中各子网络的卷积层后接最大池化层和平均池化层后融合特征,得到3×1 024=4 072维的向量表示。

可知,本文方法的特征维数远低于传统方法的特征维数,且同原来的VGG-16网络相比减少了向量表示个数及本文模型的参数量。

4 结语

本文提出了多尺度特征和集成迁移学习的细粒度图像分类算法。利用CAM方法获取局部区域,将所得区域输入多尺度网络中通过多特征组合得到最终细粒度分类结果。为了减少区域检测网络训练时间以及获取完整权重参数的模型,将在ImageNet数据集上预训练的VGG-16权重参数迁移到本文模型中,且通过非传统意义上的集成学习随机加权平均算法,得出最优预测模型,同时探究合适的微调深度,得到更好的模型参数,提高最终输出分类类别准确率。虽然本文的分类准确率有所提升,但数据集都是仅包含一个目标,下一步研究可以在一张图中含有多个目标进行定位检测分类方向进行。

参考文献
[1]
罗建豪, 吴建鑫. 基于深度卷积特征的细粒度图像分类研究综述[J]. 自动化学报, 2017, 43(8): 1306-1318.
LUO J H, WU J X. A survey on Fine-grained image categorization using deep convolutional features[J]. Acta Automatic Sinica, 2017, 43(8): 1306-1318.
[2]
ZHENG H, FU J, MEI T, et al. LearningMulti-attention Convolutional Neural Network for Fine-Grained Image Recognition[C]//IEEE International Conference on Computer Vision. Venice, Italy: IEEE Computer Society, 2017: 5219-5227.
[3]
KRAUSE J, JIN H, YANG J, et al. Fine-grained recognition without part annotations[C]//IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA: IEEE, 2015: 5546-5555.
[4]
ZHANG N, DONAHUE J, GIRSHICK R, et al. Part-based R-CNNs for fine-grained category detection[C]//ECCV 2014: 13th European Conference on Computer Vision. Zurich, Switzerland: Springer, 2014: 834-849.
[5]
GIRSHICK R, DONAHUE J, DARRELL T, et al.Rich feature hierarchies for accurate object detection and semantic segmentation[C]//IEEE Conference on Computer Vision and Pattern Recognition. Columbus, OH, USA: IEEE, 2014: 580-587.
[6]
UIJLINGS J R R, SANDE K E A V D, GEVERS T, et al. Selective Search for Object Recognition[J]. International Journal of Computer Vision, 2013, 104(2): 154-171.
[7]
WANG D, SHEN Z, SHAO J, et al. Multiple Granularity Descriptors for Fine-Grained Categorization[C]//IEEE International Conference on Computer Vision. Santiago, Chile: IEEE Computer Society, 2015: 2399-2406.
[8]
LIN T Y, ROYCHOWDHURY A, MAJI S. Bilinear Convolutional Nerual Networks for Fine-grained Visual Recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 1309-1322.
[9]
OZA N C. Online Ensemble Learning[D]. Berkeley: University of California, 2001.
[10]
PAN S J, YANG Q. A Survey on Transfer Learning[J]. IEEE Transactions on Knowledge & Data Engineering, 2010, 22(10): 1345-1359.
[11]
王小平. 基于运动背景的自适应视频对象分割算法[J]. 重庆邮电大学学报(自然科学版), 2016, 28(1): 95-99.
WANG X P. Adaptive video object segmentation algorithm based on background motion[J]. Journal of Chongqing University of Posts and Telecommunications (Natural Science Edition), 2016, 28(1): 95-99.
[12]
REDMON J, DIVVALA S, GIRSHICK R, et al. You Only Look Once: Unified, Real-Time Object Detection[C]//IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE Computer Science, 2016: 779-788.
[13]
REN S, HE K, GIRSHICK R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149. DOI:10.1109/TPAMI.2016.2577031
[14]
HE K, GKIOXARI G, DOLLAR P, et al. Mask R-CNN[J]. IEEE Transactions on Pattern Analysisand Machine Intelligence, 2018, 1-1.
[15]
ZHOU B, KHOSLA A, LAPEDRIZA A, et al. Learning Deep Features for Discriminative Localization[C]//IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE Computer Science, 2016: 2921-2929.
[16]
SIMONYAN K, ZISSERMAN A. Very Deep Convolutional Networks for Large-Scale Image Recognition[J] Computer Science, 2014.
[17]
沈学华, 周志华, 吴建鑫, 等. Boosting和Bagging综述[J]. 计算机工程与应用, 2000, 36(12): 31-32.
SHEN X H, ZHOU Z H, WU J X, et al. Survey of Boosting and Bagging[J]. Computer Engineering and Applications, 2000, 36(12): 31-32. DOI:10.3321/j.issn:1002-8331.2000.12.012
[18]
IZMAILOV P, PODOPRIKHIN D, GARIPOV T, et al. Averaging Weights Leads to Wider Optima and Better Generalization[C]//The Conference on Uncertainty in Artificial Intelligence. Monterey, California, USA: IEEE, 2018: 876-885.
[19]
ZHAO B, WU X, FENG J, et al. Diversified Visual Attention Networks for Fine-Grained Object Classification[J]. IEEE Transactionson Multimedia, 2017, 1-1.
[20]
KRAUSE J, JIN H, YANG J, et al. Fine-grained recognition without part annotations[C]//IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA: IEEE, 2015: 5546-5555.
[21]
GOSSELIN P H, MURRAY N, JÉGOU H, et al. Revisiting the Fisher vector for fine-grained classification[J]. Pattern Recognition Letters, 2014(49): 92-98.
[22]
CIMPOI M, MAJI S, VEDALDI A. Deep filter banks for texture recognition and segmentation[C]//IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA: IEEE Computer Society, 2015: 3828-3836.