一文看懂深度学习模型压缩和加速–part2

4,668次阅读

共计 1911 个字符，预计需要花费 5 分钟才能阅读完成。

总体结构

重点来看下 TinyBERT，它是由华为出品，非常值得深入研究。TinyBERT 对 embedding 层，transformer层（包括hidden layer和attention）和 prediction 层均进行了拟合。如下图所示。

TinyBERT 蒸馏过程

其中Embeddings采用MSE, Prediction采用KL散度, Transformer层的hidden layer和attention，均采用MSE。loss如下

一文看懂深度学习模型压缩和加速–part2

其中m为层数。

效果分析

一文看懂深度学习模型压缩和加速–part2

表2: glue任务上的performance。在glue任务上，可达到bert-base的96%，几乎无损失。表3: tinyBERT模型大小和推理速度。缩小7.5倍，加速9.4倍。压缩和加速效果十分明显。

消融分析

一文看懂深度学习模型压缩和加速–part2

表6：分析embedding、prediction、attention、hidden layer软标签作用，其中attention和hidden layer作用最大。这个也很好理解，transformer层本来就是整个BERT中最关键的部分。

一文看懂深度学习模型压缩和加速–part2

表7：分析老师学生不同层对应方法的效果，uniform为隔层对应，top为全部对应老师顶部几层，bottom为全部对应老师底部几层。Uniform效果明显好很多。这个也很好理解，浅层可以捕捉低阶特征，深层可以捕捉高阶特征。全是低阶或者高阶显然不合适，我们要尽量荤素搭配。

3.1 手机端AI能力

目前移动端AI框架也比较多，包括谷歌的tf-lite，腾讯的NCNN，阿里的MNN，百度的PaddleLite, 小米的MACE等。他们都不同程度的进行了模型压缩和加速的支持。特别是端上推理的加速。这个可以参考“手机端AI性能排名“。

3.2 端侧AI框架加速优化方法

个人总结的主要方法如下，可能有遗漏哈，各位看官请轻拍：

基于基本的C++编译器优化。
1. 打开编译器的优化选项，选择O2等加速选项。
2. 小函数内联，概率大分支优先，避免除法，查表空间换时间，函数参数不超过4个等。
利用C，而不是C++，C++有不少冗余的东西。
缓存优化
1. 小块内存反复使用，提升cache命中率，尽量减少内存申请。比如上一层计算完后，接着用作下一层计算。
2. 连续访问，内存连续访问有利于一次同时取数，相近位置cache命中概率更高。比如纵向访问数组时，可以考虑转置后变为横向访问。
3. 对齐访问，比如224224的尺寸，补齐为256224，从而提高缓存命中率。
4. 缓存预取，CPU计算的时候，preload后面的数据到cache中。
多线程。
1. 为循环分配线程。
2. 动态调度，某个子循环过慢的时候，调度一部分循环到其他线程中。
稀疏化
1. 稀疏索引和存储方案，采用eigen的sparseMatrix方案。
内存复用和提前申请
1. 扫描整个网络，计算每层网络内存复用的情况下，最低的内存消耗。推理刚开始的时候就提前申请好。避免推理过程中反复申请和释放内存，避免推理过程中因为内存不足而失败，复用提升内存访问效率和cache命中率。
ARM NEON指令的使用，和ARM的深度融合。NEON可以单指令多取值（SIMD），感兴趣可针对学习，这一块水也很深。
手工汇编，毕竟机器编译出来的代码还是有不少冗余的。可以针对运行频次特别高的代码进行手工汇编优化。当然如果你汇编功底惊天地泣鬼神的强，也可以全方位手工汇编。
算子支持：比如支持GPU加速，支持定点化等。有时候需要重新开发端侧的算子。