PAB

作者发现在推理过程中,attention的输出差(相邻步数)呈现一个U型的曲线,如下图所示,具有一个稳定的过程,因此可以复用这个过程中的attention输出来加速模型的推理,其复用的步数由输出差的大小来决定,呈‘金字塔’状,即差别越大,复用的步数越少;差别越小,复用的步数越多。值得注意的是,PAB复用的步数是固定的,这也启发了后续工作在这方面进行优化。