Momentum

副标题 / 摘要动量通过累积历史梯度“惯性”来加速收敛、减少震荡。本文用 ACERS 框架拆解动量更新过程、公式与工程场景，并提供最小 PyTorch 示例。预计阅读时长：12~16 分钟标签：momentum、sgd、optimizer SEO 关键词：动量, Momentum, SGD, 优化器元描述：系统讲清动量优化的更新过程与工程实践。目标读者想理解动量优化机制的入门读者需要解决训练震荡与收敛慢问题的工程实践者关注优化器调参的开发者背景 / 动机纯 SGD 在陡峭方向上容易震荡、在平缓方向上推进缓慢。动量引入“速度”概念，让更新方向更稳定、收敛更快。它是许多优化器（如 Adam）的核心组件之一。核心概念速度（Velocity）：累计梯度形成的方向与幅度。动量系数：控制历史梯度影响程度。平滑更新：减少梯度噪声带来的震荡。 A — Algorithm（题目与算法）用通俗语言说明主题内容动量可以理解为：每一步不仅看当前梯度，还看过去的梯度方向。像滚小球一样，惯性会让它更容易越过浅坑。基础示例（1）在狭长“谷地”里，纯 SGD 左右摆动，而动量能沿谷底快速前进。基础示例（2）在噪声梯度场景，动量能平均掉噪声，方向更稳定。实践指南 / 步骤选择 momentum（常见 0.9）。如果震荡明显，适当提高动量或降低学习率。观察训练/验证曲线，确认收敛速度。可运行示例（最小 PyTorch 动量更新） import torch torch.manual_seed(42) w = torch.tensor([5.0], requires_grad=True) velocity = torch.zeros_like(w) lr = 0.1 mu = 0.9 for _ in range(5): loss = (w - 1.0).pow(2) loss.backward() with torch.no_grad(): velocity = mu * velocity + w.grad w -= lr * velocity w.grad.zero_() print(w.item()) 解释与原理速度累积让更新方向“更平滑”。在弯曲损失面上，动量减少横向摆动。学习率与动量需要联合调参。 C — Concepts（核心思想）方法类型动量属于一阶优化增强策略，通过历史梯度平滑更新。 ...