Kernel-Fusion on Jeanphilo Blog

Kernel-Fusion on Jeanphilo Bloghttps://shio-chan-dev.github.io/jeanblog/zh/tags/kernel-fusion/Recent content in Kernel-Fusion on Jeanphilo BlogHugo -- 0.159.2zh-cnSun, 25 Jan 2026 12:51:14 +0800FlashAttention 为什么能 one-pass：在线 softmax（m/l）与 Tiling 的核心思想https://shio-chan-dev.github.io/jeanblog/zh/ai/attention/flash-attention-one-pass-and-tiling/Sun, 25 Jan 2026 12:51:14 +0800https://shio-chan-dev.github.io/jeanblog/zh/ai/attention/flash-attention-one-pass-and-tiling/解释 FlashAttention 的 one-pass 计算原理与 tiling 策略：在线 softmax（m,l）更新、流式累积输出、不落地 $QK^\top$ 与概率矩阵，并给出可运行的块级注意力验证与访存算账。Softmax 工程实现与 GPU 访存优化：在线更新、融合与带宽算账（含可运行验证）https://shio-chan-dev.github.io/jeanblog/zh/ai/attention/softmax-gpu-memory-io-optimization/Sun, 25 Jan 2026 12:51:13 +0800https://shio-chan-dev.github.io/jeanblog/zh/ai/attention/softmax-gpu-memory-io-optimization/拆解 softmax 标准计算的访存问题，并给出在线 softmax 与融合实现的工程优化思路，包含可运行示例与带宽算账。