FlashAttention 的 MQA/GQA:共享 KV 的等价、收益与实现要点(含可运行验证)

解释 FlashAttention 在 MQA/GQA 下如何利用共享 KV:从数学等价(复制 KV)到工程收益(KV cache 与带宽),并给出可运行代码验证。

2026年1月25日 · 10 分钟 · map[name:Jeanphilo]