<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>Kernel-Fusion on Jeanphilo Blog</title><link>https://shio-chan-dev.github.io/jeanblog/zh/tags/kernel-fusion/</link><description>Recent content in Kernel-Fusion on Jeanphilo Blog</description><generator>Hugo -- 0.159.2</generator><language>zh-cn</language><lastBuildDate>Sun, 25 Jan 2026 12:51:14 +0800</lastBuildDate><atom:link href="https://shio-chan-dev.github.io/jeanblog/zh/tags/kernel-fusion/index.xml" rel="self" type="application/rss+xml"/><item><title>FlashAttention 为什么能 one-pass：在线 softmax（m/l）与 Tiling 的核心思想</title><link>https://shio-chan-dev.github.io/jeanblog/zh/ai/attention/flash-attention-one-pass-and-tiling/</link><pubDate>Sun, 25 Jan 2026 12:51:14 +0800</pubDate><guid>https://shio-chan-dev.github.io/jeanblog/zh/ai/attention/flash-attention-one-pass-and-tiling/</guid><description>解释 FlashAttention 的 one-pass 计算原理与 tiling 策略：在线 softmax（m,l）更新、流式累积输出、不落地 $QK^\top$ 与概率矩阵，并给出可运行的块级注意力验证与访存算账。</description></item><item><title>Softmax 工程实现与 GPU 访存优化：在线更新、融合与带宽算账（含可运行验证）</title><link>https://shio-chan-dev.github.io/jeanblog/zh/ai/attention/softmax-gpu-memory-io-optimization/</link><pubDate>Sun, 25 Jan 2026 12:51:13 +0800</pubDate><guid>https://shio-chan-dev.github.io/jeanblog/zh/ai/attention/softmax-gpu-memory-io-optimization/</guid><description>拆解 softmax 标准计算的访存问题，并给出在线 softmax 与融合实现的工程优化思路，包含可运行示例与带宽算账。</description></item></channel></rss>