UPDP
Bamboo Lv3

UPDP: A Unified Progressive Depth Pruner for CNN and Vision Transformer

简要介绍:一种很厉害的剪枝方法,适用于cnn和transformer

传统剪枝(pruning)

模型剪枝算是模型压缩的一种,直接减少参数量,为了减少对硬件的要求、加速模型推理和落地。(模型稀疏化)

做法:直接删除部分不重要的权重参数,减少参数量和计算量,尽量使精度不受影响。

在神经网络中,非结构化稀疏包括权重稀疏、激活稀疏、梯度稀疏

权重稀疏

权重的数值分布比较像正态分布,而且越接近0,权重越多。

image-20240624201620571

卷积层的剪枝敏感性大于全连接层,且第一层卷积层最为敏感。

剪枝三段式工作 pipeline :训练、剪枝、微调

image-20240624201850731

对硬件加速不友好,尤其是GPU,因为稀疏后得到的矩阵是高度非规则的矩阵。

激活稀疏

image-20240624205508674

APoZ高 –> 冗余

image-20240624205700813

剪枝三段式工作:

  1. 正常训练,然后在大型数据集上运行网络以获得每个神经元的APoZ。
  2. 根据标准修剪高APoZ的神经元,并移除相应的神经元连接。
  3. 使用修建前的权重初始化之后再重新训练一遍。

结构化稀疏(粗粒系稀疏、块稀疏)

  • channel/filter-wise 减少网络通道
  • shape-wise

一般都是丢弃整行或整列的权重,或者卷积层中的整个滤波器。

结构化剪枝包含通道剪枝和块剪枝等技术。通道修剪侧重于消除内核内的整个通道过滤器,而块修剪则在更大范围内进行,通常针对完整块。

摘要

提出一种新颖的子网块修剪策略和渐进式训练方法,而且扩展到transformer模型,效果很好

介绍

主要贡献:

(1)我们提出了一种统一且高效的深度剪枝方法来优化 CNN 和视觉 Transformer 模型。

(2)我们提出了一种用于子网优化的渐进式训练策略,以及一种使用重新参数化技术的新颖的块修剪策略

(3) 对 CNN 和视觉 Transformer 模型进行全面的实验,以展示我们的深度剪枝方法的优越剪枝性能。

深度卷积减少计算量和参数,但是内存占用增加

相关工作

(未完待续)

Powered by Hexo & Theme Keep
Total words 28.5k Unique Visitor Page View