Dropout

副标题 / 摘要 BatchNorm 在训练使用 batch 统计、推理使用滑动均值方差；Dropout 训练时随机失活、推理时关闭。本文用 ACERS 框架解释两者差异并给出最小 PyTorch 示例。预计阅读时长：12~16 分钟标签：batchnorm、dropout、training SEO 关键词：BatchNorm, Dropout, 训练, 推理元描述：对比 BN 与 Dropout 在训练与推理阶段的行为与工程取舍。目标读者想系统理解 BN/Dropout 差异的入门读者需要调试训练/推理不一致问题的工程实践者关注模型稳定性与泛化的开发者背景 / 动机很多线上问题来自“训练正常、推理异常”。 BN 与 Dropout 在训练/推理阶段的行为不同，是常见根因。理解它们的机制差异，能显著减少定位成本。核心概念 BatchNorm：用 batch 统计归一化特征，并维护 running mean/var。 Dropout：训练时随机失活部分神经元以正则化。 Train/Eval 模式：控制 BN/Dropout 行为的关键开关。 A — Algorithm（题目与算法）用通俗语言说明主题内容 BN 训练时用当前 batch 的均值与方差；推理时用历史统计。 Dropout 训练时随机丢弃；推理时关闭、输出稳定。基础示例（1） BN：小 batch 训练可能统计不稳定，推理偏移明显。基础示例（2） Dropout：训练输出有噪声，推理输出确定。实践指南 / 步骤训练时使用 model.train()。推理时使用 model.eval()。如果 batch 很小，考虑替代 BN（LayerNorm/GroupNorm）。可运行示例（最小 PyTorch 对比） import torch import torch.nn as nn torch.manual_seed(42) model = nn.Sequential( nn.Linear(4, 4), nn.BatchNorm1d(4), nn.Dropout(p=0.5), ) x = torch.randn(3, 4) model.train() train_out1 = model(x) train_out2 = model(x) model.eval() eval_out1 = model(x) eval_out2 = model(x) print(torch.allclose(train_out1, train_out2)) # False (Dropout) print(torch.allclose(eval_out1, eval_out2)) # True 解释与原理 BN 在训练中依赖 batch 统计，推理依赖 running 统计。 Dropout 在训练中丢弃神经元以提升泛化，推理关闭以稳定输出。 C — Concepts（核心思想）方法类型 BN 属于归一化技术，Dropout 属于正则化技术。 ...