识别并量化了最先进的视频 DiT 中的 3D 局部性和头部 specialization,揭示了完整 3D 注意力中的大量冗余。 引入了SLIDING TILE ATTENTION,一种基于分块的滑动窗口注意力机制。优化内核与 FlashAttention 3 相比实现了最小的开销,MFU 达到 58.79%。 STA 将注意力加速超过 10 倍 ...