[2411.17116v1] Star Attention: Efficient LLM Inference over Long Sequences

04-14-2025
Note:
由于自我注意机制的二次方复杂性,基于变换器的大型语言模型(LLM)在长序列上的推理既昂贵又缓慢。我们引入了 Star Attention,这是一种分两个阶段的块稀疏近似方法它通过在多个主机之间分片处理注意力来提高计算效率,同时最大限度地减少通信开销在第一阶段,使用跨主机的分块本地注意力并行处理上下文。在第二阶段,查询和响应标记会通过序列全局注意力关注所有先前缓存的标记。Star Attention 可以与大多数使用全局注意力训练的基于 Transformer 的 LLM 无缝集成,将内存需求和推理时间最多减少 11倍,同时保持 95-100% 的准确率。