Pytorch on Jeanphilo Blog

Pytorch on Jeanphilo Bloghttps://shio-chan-dev.github.io/jeanblog/zh/tags/pytorch/Recent content in Pytorch on Jeanphilo BlogHugo -- 0.159.2zh-cnSun, 25 Jan 2026 12:50:33 +0800Self-Attention 计算公式与 Softmax 数值稳定：从推导到工程实现https://shio-chan-dev.github.io/jeanblog/zh/ai/attention/self-attention-softmax-formula-and-stability/Sun, 25 Jan 2026 12:50:33 +0800https://shio-chan-dev.github.io/jeanblog/zh/ai/attention/self-attention-softmax-formula-and-stability/用公式与可运行示例讲清 Self-Attention 的计算流程、softmax 的数值问题与工程实现要点。空洞卷积（Dilated Convolution）：扩大感受野的工程利器https://shio-chan-dev.github.io/jeanblog/zh/ai/vision/dilated-convolution/Sat, 24 Jan 2026 16:33:00 +0800https://shio-chan-dev.github.io/jeanblog/zh/ai/vision/dilated-convolution/系统讲清空洞卷积的原理、复杂度与工程应用，并给出最小 PyTorch 示例。NMS 描述：非极大值抑制的原理与工程实践https://shio-chan-dev.github.io/jeanblog/zh/ai/vision/nms-overview/Sat, 24 Jan 2026 16:32:59 +0800https://shio-chan-dev.github.io/jeanblog/zh/ai/vision/nms-overview/系统讲清 NMS 的核心流程、IoU 计算与工程取舍，并给出最小 PyTorch 示例。CNN 参数量计算：从卷积核到整网规模https://shio-chan-dev.github.io/jeanblog/zh/ai/vision/cnn-parameter-count/Sat, 24 Jan 2026 16:28:40 +0800https://shio-chan-dev.github.io/jeanblog/zh/ai/vision/cnn-parameter-count/系统讲清 CNN 参数量计算方法与常见陷阱，并给出最小 PyTorch 示例。动量（Momentum）优化的过程：从直觉到公式https://shio-chan-dev.github.io/jeanblog/zh/ai/llm/momentum-optimizer-process/Sat, 24 Jan 2026 16:28:18 +0800https://shio-chan-dev.github.io/jeanblog/zh/ai/llm/momentum-optimizer-process/解释动量优化的更新过程、直觉与工程取舍，并给出最小 PyTorch 示例。图像自编码是怎么做的：原理、流程与最小实现https://shio-chan-dev.github.io/jeanblog/zh/ai/vision/image-autoencoder-how/Sat, 24 Jan 2026 16:26:15 +0800https://shio-chan-dev.github.io/jeanblog/zh/ai/vision/image-autoencoder-how/系统讲清图像自编码的结构、训练目标与工程场景，并给出最小 PyTorch 示例。ViT 结构描述：从 Patch Embedding 到 Transformer 编码器https://shio-chan-dev.github.io/jeanblog/zh/ai/vision/vit-architecture-overview/Sat, 24 Jan 2026 16:25:35 +0800https://shio-chan-dev.github.io/jeanblog/zh/ai/vision/vit-architecture-overview/系统讲清 ViT 的结构组件、工作流程与工程实践，并给出最小 PyTorch 示例。BN 与 Dropout：训练与推理时的关键区别https://shio-chan-dev.github.io/jeanblog/zh/ai/llm/bn-vs-dropout-train-infer/Sat, 24 Jan 2026 16:24:44 +0800https://shio-chan-dev.github.io/jeanblog/zh/ai/llm/bn-vs-dropout-train-infer/系统对比 BatchNorm 与 Dropout 在训练/推理阶段的行为差异，并提供最小 PyTorch 示例。BN 与 LN 的区别：训练稳定性与工程取舍https://shio-chan-dev.github.io/jeanblog/zh/ai/llm/batchnorm-vs-layernorm/Sat, 24 Jan 2026 16:23:47 +0800https://shio-chan-dev.github.io/jeanblog/zh/ai/llm/batchnorm-vs-layernorm/对比 BatchNorm 与 LayerNorm 的原理、适用场景与工程代价，并提供最小 PyTorch 示例。为什么注意力要除以 √(d_k)：从数值稳定到工程收益https://shio-chan-dev.github.io/jeanblog/zh/ai/attention/why-scale-attention-by-sqrt-dk/Sat, 24 Jan 2026 16:22:25 +0800https://shio-chan-dev.github.io/jeanblog/zh/ai/attention/why-scale-attention-by-sqrt-dk/解释注意力中 QK^T 为何需要除以 √(d_k)，并给出最小 PyTorch 示例与工程场景。SGD vs Adam：优化器原理与工程取舍https://shio-chan-dev.github.io/jeanblog/zh/ai/llm/sgd-vs-adam-optimizer/Sat, 24 Jan 2026 16:12:12 +0800https://shio-chan-dev.github.io/jeanblog/zh/ai/llm/sgd-vs-adam-optimizer/对比 SGD 与 Adam 的原理、收敛特性与应用场景，并提供最小 PyTorch 示例。LoRA 初始化的常见方法与工程取舍https://shio-chan-dev.github.io/jeanblog/zh/ai/llm/lora-initialization-methods/Sat, 24 Jan 2026 16:00:02 +0800https://shio-chan-dev.github.io/jeanblog/zh/ai/llm/lora-initialization-methods/系统对比 LoRA 的常见初始化方式，并给出最小 PyTorch 示例与工程实践建议。LLaMA 中 RMSNorm 相比 LayerNorm 的优势https://shio-chan-dev.github.io/jeanblog/zh/ai/llm/rmsnorm-vs-layernorm-llama/Sat, 24 Jan 2026 15:52:58 +0800https://shio-chan-dev.github.io/jeanblog/zh/ai/llm/rmsnorm-vs-layernorm-llama/从公式、复杂度与工程实践出发，解析 LLaMA 选择 RMSNorm 的原因，并给出最小 PyTorch 示例。BLIP/BLIP-2 实战原理与最小推理示例https://shio-chan-dev.github.io/jeanblog/zh/ai/blip/blip-blip2-principles-minimal-inference/Sat, 24 Jan 2026 15:40:51 +0800https://shio-chan-dev.github.io/jeanblog/zh/ai/blip/blip-blip2-principles-minimal-inference/按 ACERS 结构讲清 BLIP 与 BLIP-2 的原理差异，并给出最小 PyTorch 推理示例。CLIP 系列（2/3）：PyTorch 完整可复现实战——从数据到训练闭环https://shio-chan-dev.github.io/jeanblog/zh/ai/clip/2-clip-pytorch-reproducible-implementation/Sat, 24 Jan 2026 12:46:49 +0800https://shio-chan-dev.github.io/jeanblog/zh/ai/clip/2-clip-pytorch-reproducible-implementation/用 CIFAR-10 + 文本提示搭建最小 CLIP 训练闭环，提供完整可复现的 PyTorch 实战脚本。