问题

稀疏注意力机制(通常采用 top-k 选择)并不能消除内存容量瓶颈。实际上,为了实现快速访问,即使在任何给定的解码步骤中只有一小部分条目处于活动状态,完整上下文的键值缓存也必须保留在 GPU 的 HBM 内存中。因此,稀疏注意力机制通常受限于内存容量而非计算能力,从而限制了可实现的批处理大小和整体吞吐量。

原理

vllm 会把一个请求需要的所有前缀的 block 都加载,但是 HiSparse 只加载命中的。