Micro23-Spatula

一些需要记录的问题

GPU在小的矩阵上表现糟糕,因为小矩阵的吞吐量非常低。并且,小型super node阻碍了GPU的利用率。

Batching 是一种处理数据依赖性的粗糙方式,会错失很多并行性的机会 而且batching会导致负载不均衡

Spatula 在小矩阵上实现了更高的性能 有他的处理复杂的数据依赖性,从而在超节点内部和之间 释放出更多的并行性

Tile方法 Tile大小是一个重要的参数 Tile大小的选择需要考虑到内存的限制,以及计算的复杂度

T=16