Training on Jeanphilo Blog

Training on Jeanphilo Bloghttps://shio-chan-dev.github.io/jeanblog/zh/tags/training/Recent content in Training on Jeanphilo BlogHugo -- 0.159.2zh-cnSat, 24 Jan 2026 16:28:18 +0800动量（Momentum）优化的过程：从直觉到公式https://shio-chan-dev.github.io/jeanblog/zh/ai/llm/momentum-optimizer-process/Sat, 24 Jan 2026 16:28:18 +0800https://shio-chan-dev.github.io/jeanblog/zh/ai/llm/momentum-optimizer-process/解释动量优化的更新过程、直觉与工程取舍，并给出最小 PyTorch 示例。优化器的了解：从 SGD 到 Adam 的工程取舍https://shio-chan-dev.github.io/jeanblog/zh/ai/llm/optimizer-overview/Sat, 24 Jan 2026 16:27:20 +0800https://shio-chan-dev.github.io/jeanblog/zh/ai/llm/optimizer-overview/系统讲清常见优化器原理与工程取舍，含最小 PyTorch 示例与实践建议。BN 与 Dropout：训练与推理时的关键区别https://shio-chan-dev.github.io/jeanblog/zh/ai/llm/bn-vs-dropout-train-infer/Sat, 24 Jan 2026 16:24:44 +0800https://shio-chan-dev.github.io/jeanblog/zh/ai/llm/bn-vs-dropout-train-infer/系统对比 BatchNorm 与 Dropout 在训练/推理阶段的行为差异，并提供最小 PyTorch 示例。Transformer 中可以用 BatchNorm 吗？https://shio-chan-dev.github.io/jeanblog/zh/ai/llm/batchnorm-in-transformer/Sat, 24 Jan 2026 16:24:03 +0800https://shio-chan-dev.github.io/jeanblog/zh/ai/llm/batchnorm-in-transformer/讨论 Transformer 使用 BatchNorm 的可行性、限制与工程取舍，并给出最小示例。残差连接的作用：为什么深度网络离不开它https://shio-chan-dev.github.io/jeanblog/zh/ai/llm/residual-connection-role/Sat, 24 Jan 2026 16:22:22 +0800https://shio-chan-dev.github.io/jeanblog/zh/ai/llm/residual-connection-role/解释残差连接在深度网络中的作用与原理，并提供最小可运行示例。SGD vs Adam：优化器原理与工程取舍https://shio-chan-dev.github.io/jeanblog/zh/ai/llm/sgd-vs-adam-optimizer/Sat, 24 Jan 2026 16:12:12 +0800https://shio-chan-dev.github.io/jeanblog/zh/ai/llm/sgd-vs-adam-optimizer/对比 SGD 与 Adam 的原理、收敛特性与应用场景，并提供最小 PyTorch 示例。CLIP 系列（2/3）：PyTorch 完整可复现实战——从数据到训练闭环https://shio-chan-dev.github.io/jeanblog/zh/ai/clip/2-clip-pytorch-reproducible-implementation/Sat, 24 Jan 2026 12:46:49 +0800https://shio-chan-dev.github.io/jeanblog/zh/ai/clip/2-clip-pytorch-reproducible-implementation/用 CIFAR-10 + 文本提示搭建最小 CLIP 训练闭环，提供完整可复现的 PyTorch 实战脚本。