Inference on Jeanphilo Blog

Inference on Jeanphilo Bloghttps://shio-chan-dev.github.io/jeanblog/zh/tags/inference/Recent content in Inference on Jeanphilo BlogHugo -- 0.159.2zh-cnSun, 25 Jan 2026 12:51:15 +0800FlashAttention 的 MQA/GQA：共享 KV 的等价、收益与实现要点（含可运行验证）https://shio-chan-dev.github.io/jeanblog/zh/ai/attention/flash-attention-mqa-gqa/Sun, 25 Jan 2026 12:51:15 +0800https://shio-chan-dev.github.io/jeanblog/zh/ai/attention/flash-attention-mqa-gqa/解释 FlashAttention 如何处理 MQA/GQA：共享 KV、按组计算与内存复用策略，并附可运行示例验证等价性。BN 与 Dropout：训练与推理时的关键区别https://shio-chan-dev.github.io/jeanblog/zh/ai/llm/bn-vs-dropout-train-infer/Sat, 24 Jan 2026 16:24:44 +0800https://shio-chan-dev.github.io/jeanblog/zh/ai/llm/bn-vs-dropout-train-infer/系统对比 BatchNorm 与 Dropout 在训练/推理阶段的行为差异，并提供最小 PyTorch 示例。BLIP/BLIP-2 实战原理与最小推理示例https://shio-chan-dev.github.io/jeanblog/zh/ai/blip/blip-blip2-principles-minimal-inference/Sat, 24 Jan 2026 15:40:51 +0800https://shio-chan-dev.github.io/jeanblog/zh/ai/blip/blip-blip2-principles-minimal-inference/按 ACERS 结构讲清 BLIP 与 BLIP-2 的原理差异，并给出最小 PyTorch 推理示例。