0%

CNN图像分类学习记录(三)——VGGNet

LeNet,证明多层的CNN是有价值的,可以拿来做图像识别

AlexNet,提出数据多,网络深就可以有好结果,但是计算速度、过拟合是问题,所以给出了ReLU,Dropout

VGG,说他们有效是因为用了很小的filters(3*3),因为小的filter可以让网络变得很深。VGG说LRN没啥效果。

使用小filter可以使参数变少,计算量变小。3层3*3就相当于是一层7*7,同时因为之间加入了ReLU,所以使得判定函数(decision function)更加具有判别力,不知道这个的根据是啥?

VGG训练时,是一点点涨起来的,先训练11层的,等稳定了,把网络扩展13层,旧的layer还用原来的参数,新的layer随机初始化参数。

实际在测试VGG时,感觉不是那么好用,首先我用的1060的卡,只能跑很小的batch_size,这样训练就很慢。而且再cifar100上,也没看到特别明显的效果。还不如直接在AlexNet上加几层3*3的Conv Layer。这可能也和数据集有关,可能在ImageNet2012上VGG表现更好。

Vgg Acc@1能到 63%,AlexNet Acc@1能到50%左右