LLM on Jeanphilo Blog

LLM on Jeanphilo Bloghttps://shio-chan-dev.github.io/jeanblog/zh/categories/llm/Recent content in LLM on Jeanphilo BlogHugo -- 0.159.2zh-cnSat, 24 Jan 2026 16:28:18 +0800动量（Momentum）优化的过程：从直觉到公式https://shio-chan-dev.github.io/jeanblog/zh/ai/llm/momentum-optimizer-process/Sat, 24 Jan 2026 16:28:18 +0800https://shio-chan-dev.github.io/jeanblog/zh/ai/llm/momentum-optimizer-process/解释动量优化的更新过程、直觉与工程取舍，并给出最小 PyTorch 示例。优化器的了解：从 SGD 到 Adam 的工程取舍https://shio-chan-dev.github.io/jeanblog/zh/ai/llm/optimizer-overview/Sat, 24 Jan 2026 16:27:20 +0800https://shio-chan-dev.github.io/jeanblog/zh/ai/llm/optimizer-overview/系统讲清常见优化器原理与工程取舍，含最小 PyTorch 示例与实践建议。BN 与 Dropout：训练与推理时的关键区别https://shio-chan-dev.github.io/jeanblog/zh/ai/llm/bn-vs-dropout-train-infer/Sat, 24 Jan 2026 16:24:44 +0800https://shio-chan-dev.github.io/jeanblog/zh/ai/llm/bn-vs-dropout-train-infer/系统对比 BatchNorm 与 Dropout 在训练/推理阶段的行为差异，并提供最小 PyTorch 示例。Transformer 中可以用 BatchNorm 吗？https://shio-chan-dev.github.io/jeanblog/zh/ai/llm/batchnorm-in-transformer/Sat, 24 Jan 2026 16:24:03 +0800https://shio-chan-dev.github.io/jeanblog/zh/ai/llm/batchnorm-in-transformer/讨论 Transformer 使用 BatchNorm 的可行性、限制与工程取舍，并给出最小示例。BN 与 LN 的区别：训练稳定性与工程取舍https://shio-chan-dev.github.io/jeanblog/zh/ai/llm/batchnorm-vs-layernorm/Sat, 24 Jan 2026 16:23:47 +0800https://shio-chan-dev.github.io/jeanblog/zh/ai/llm/batchnorm-vs-layernorm/对比 BatchNorm 与 LayerNorm 的原理、适用场景与工程代价，并提供最小 PyTorch 示例。残差连接的作用：为什么深度网络离不开它https://shio-chan-dev.github.io/jeanblog/zh/ai/llm/residual-connection-role/Sat, 24 Jan 2026 16:22:22 +0800https://shio-chan-dev.github.io/jeanblog/zh/ai/llm/residual-connection-role/解释残差连接在深度网络中的作用与原理，并提供最小可运行示例。Transformer 结构描述：从编码器到解码器https://shio-chan-dev.github.io/jeanblog/zh/ai/llm/transformer-architecture-overview/Sat, 24 Jan 2026 16:18:19 +0800https://shio-chan-dev.github.io/jeanblog/zh/ai/llm/transformer-architecture-overview/用 ACERS 框架讲清 Transformer 结构、模块职责与工程场景，并给出最小可运行示例。为什么 GPT 是 Decoder-Only：自回归生成的最佳形态https://shio-chan-dev.github.io/jeanblog/zh/ai/llm/why-gpt-decoder-only/Sat, 24 Jan 2026 16:15:34 +0800https://shio-chan-dev.github.io/jeanblog/zh/ai/llm/why-gpt-decoder-only/解释 GPT 选择 decoder-only 结构的原因，并与 encoder-only / encoder-decoder 做工程对比。BERT vs GPT：预训练任务与应用差异https://shio-chan-dev.github.io/jeanblog/zh/ai/llm/bert-vs-gpt-pretraining-objectives/Sat, 24 Jan 2026 16:12:12 +0800https://shio-chan-dev.github.io/jeanblog/zh/ai/llm/bert-vs-gpt-pretraining-objectives/对比 BERT 与 GPT 的预训练目标、架构假设与工程场景，并给出最小可运行示例。SGD vs Adam：优化器原理与工程取舍https://shio-chan-dev.github.io/jeanblog/zh/ai/llm/sgd-vs-adam-optimizer/Sat, 24 Jan 2026 16:12:12 +0800https://shio-chan-dev.github.io/jeanblog/zh/ai/llm/sgd-vs-adam-optimizer/对比 SGD 与 Adam 的原理、收敛特性与应用场景，并提供最小 PyTorch 示例。LoRA 初始化的常见方法与工程取舍https://shio-chan-dev.github.io/jeanblog/zh/ai/llm/lora-initialization-methods/Sat, 24 Jan 2026 16:00:02 +0800https://shio-chan-dev.github.io/jeanblog/zh/ai/llm/lora-initialization-methods/系统对比 LoRA 的常见初始化方式，并给出最小 PyTorch 示例与工程实践建议。LLaMA 中 RMSNorm 相比 LayerNorm 的优势https://shio-chan-dev.github.io/jeanblog/zh/ai/llm/rmsnorm-vs-layernorm-llama/Sat, 24 Jan 2026 15:52:58 +0800https://shio-chan-dev.github.io/jeanblog/zh/ai/llm/rmsnorm-vs-layernorm-llama/从公式、复杂度与工程实践出发，解析 LLaMA 选择 RMSNorm 的原因，并给出最小 PyTorch 示例。