推荐阅读
- 先读 Transformer 与预训练-微调范式
- 再看提示工程、对齐与评测方法
- 最后看推理部署、成本优化与安全控制
副标题 / 摘要 动量通过累积历史梯度“惯性”来加速收敛、减少震荡。本文用 ACERS 框架拆解动量更新过程、公式与工程场景,并提供最小 PyTorch 示例。 预计阅读时长:12~16 分钟 标签:momentum、sgd、optimizer SEO 关键词:动量, Momentum, SGD, 优化器 元描述:系统讲清动量优化的更新过程与工程实践。 目标读者 想理解动量优化机制的入门读者 需要解决训练震荡与收敛慢问题的工程实践者 关注优化器调参的开发者 背景 / 动机 纯 SGD 在陡峭方向上容易震荡、在平缓方向上推进缓慢。 动量引入“速度”概念,让更新方向更稳定、收敛更快。 它是许多优化器(如 Adam)的核心组件之一。 核心概念 速度(Velocity):累计梯度形成的方向与幅度。 动量系数:控制历史梯度影响程度。 平滑更新:减少梯度噪声带来的震荡。 A — Algorithm(题目与算法) 用通俗语言说明主题内容 动量可以理解为: 每一步不仅看当前梯度,还看过去的梯度方向。 像滚小球一样,惯性会让它更容易越过浅坑。 基础示例(1) 在狭长“谷地”里,纯 SGD 左右摆动,而动量能沿谷底快速前进。 基础示例(2) 在噪声梯度场景,动量能平均掉噪声,方向更稳定。 实践指南 / 步骤 选择 momentum(常见 0.9)。 如果震荡明显,适当提高动量或降低学习率。 观察训练/验证曲线,确认收敛速度。 可运行示例(最小 PyTorch 动量更新) import torch torch.manual_seed(42) w = torch.tensor([5.0], requires_grad=True) velocity = torch.zeros_like(w) lr = 0.1 mu = 0.9 for _ in range(5): loss = (w - 1.0).pow(2) loss.backward() with torch.no_grad(): velocity = mu * velocity + w.grad w -= lr * velocity w.grad.zero_() print(w.item()) 解释与原理 速度累积让更新方向“更平滑”。 在弯曲损失面上,动量减少横向摆动。 学习率与动量需要联合调参。 C — Concepts(核心思想) 方法类型 动量属于一阶优化增强策略,通过历史梯度平滑更新。 ...
副标题 / 摘要 优化器决定训练速度、稳定性与最终泛化。本文按 ACERS 框架对比 SGD、Momentum、Adam、AdamW 等主流优化器,并给出最小可运行示例与工程实践建议。 预计阅读时长:15~18 分钟 标签:optimizer、sgd、adam、adamw SEO 关键词:优化器, SGD, Adam, AdamW 元描述:对比主流优化器原理与工程场景,给出可运行示例。 目标读者 刚入门深度学习训练的读者 需要在速度与泛化之间权衡的工程实践者 想系统理解优化器选择的开发者 背景 / 动机 在训练大模型时,损失函数不是唯一关键,优化器同样决定成败。 同一模型下,不同优化器会带来完全不同的收敛曲线与最终效果。 理解优化器差异,是做出稳定工程方案的前提。 核心概念 梯度下降:沿损失函数梯度方向更新参数。 动量(Momentum):引入历史梯度方向,减少震荡。 自适应学习率:为不同参数分配不同步长。 权重衰减(Weight Decay):控制参数规模,提升泛化。 A — Algorithm(题目与算法) 用通俗语言说明主题内容 SGD:每次更新都沿着当前梯度方向。 Momentum:带“惯性”的 SGD,加速收敛。 Adam:对每个参数自适应调整学习率。 AdamW:把权重衰减从 Adam 的梯度中解耦。 基础示例(1) SGD 在陡峭峡谷会来回震荡。 Adam 会自动缩小震荡方向的步长。 基础示例(2) Adam 收敛快但可能泛化弱。 SGD 收敛慢但往往更稳。 实践指南 / 步骤 快速验证模型可行性 → Adam/AdamW。 追求最终泛化性能 → SGD + 动量。 训练大模型时优先 AdamW。 用验证集曲线而非训练 loss 评估。 可运行示例(最小 PyTorch 对比) import torch import torch.nn as nn torch.manual_seed(42) x = torch.randn(256, 10) y = torch.randn(256, 1) model = nn.Linear(10, 1) loss_fn = nn.MSELoss() # SGD sgd = torch.optim.SGD(model.parameters(), lr=0.1, momentum=0.9) for _ in range(5): pred = model(x) loss = loss_fn(pred, y) sgd.zero_grad() loss.backward() sgd.step() # AdamW adamw = torch.optim.AdamW(model.parameters(), lr=1e-3, weight_decay=0.01) for _ in range(5): pred = model(x) loss = loss_fn(pred, y) adamw.zero_grad() loss.backward() adamw.step() print("done") 解释与原理 Adam 引入一阶与二阶动量,提升收敛速度。 AdamW 通过“解耦权重衰减”更稳定。 SGD 的优势在于更好的泛化表现。 C — Concepts(核心思想) 方法类型 优化器属于数值优化方法,核心目标是稳定、快速、可泛化地找到最优解。 ...
副标题 / 摘要 BatchNorm 在训练使用 batch 统计、推理使用滑动均值方差;Dropout 训练时随机失活、推理时关闭。本文用 ACERS 框架解释两者差异并给出最小 PyTorch 示例。 预计阅读时长:12~16 分钟 标签:batchnorm、dropout、training SEO 关键词:BatchNorm, Dropout, 训练, 推理 元描述:对比 BN 与 Dropout 在训练与推理阶段的行为与工程取舍。 目标读者 想系统理解 BN/Dropout 差异的入门读者 需要调试训练/推理不一致问题的工程实践者 关注模型稳定性与泛化的开发者 背景 / 动机 很多线上问题来自“训练正常、推理异常”。 BN 与 Dropout 在训练/推理阶段的行为不同,是常见根因。 理解它们的机制差异,能显著减少定位成本。 核心概念 BatchNorm:用 batch 统计归一化特征,并维护 running mean/var。 Dropout:训练时随机失活部分神经元以正则化。 Train/Eval 模式:控制 BN/Dropout 行为的关键开关。 A — Algorithm(题目与算法) 用通俗语言说明主题内容 BN 训练时用当前 batch 的均值与方差;推理时用历史统计。 Dropout 训练时随机丢弃;推理时关闭、输出稳定。 基础示例(1) BN:小 batch 训练可能统计不稳定,推理偏移明显。 基础示例(2) Dropout:训练输出有噪声,推理输出确定。 实践指南 / 步骤 训练时使用 model.train()。 推理时使用 model.eval()。 如果 batch 很小,考虑替代 BN(LayerNorm/GroupNorm)。 可运行示例(最小 PyTorch 对比) import torch import torch.nn as nn torch.manual_seed(42) model = nn.Sequential( nn.Linear(4, 4), nn.BatchNorm1d(4), nn.Dropout(p=0.5), ) x = torch.randn(3, 4) model.train() train_out1 = model(x) train_out2 = model(x) model.eval() eval_out1 = model(x) eval_out2 = model(x) print(torch.allclose(train_out1, train_out2)) # False (Dropout) print(torch.allclose(eval_out1, eval_out2)) # True 解释与原理 BN 在训练中依赖 batch 统计,推理依赖 running 统计。 Dropout 在训练中丢弃神经元以提升泛化,推理关闭以稳定输出。 C — Concepts(核心思想) 方法类型 BN 属于归一化技术,Dropout 属于正则化技术。 ...
副标题 / 摘要 Transformer 默认使用 LayerNorm,但在某些视觉模型中也能看到 BatchNorm。本文解释 BN 在 Transformer 中的可行性、限制与适用场景,并提供最小 PyTorch 示例。 预计阅读时长:14~18 分钟 标签:transformer、batchnorm、layernorm SEO 关键词:BatchNorm, Transformer, LayerNorm 元描述:分析 Transformer 中使用 BatchNorm 的利弊与工程建议。 目标读者 想理解归一化策略差异的入门读者 需要提升训练稳定性的工程实践者 从事 NLP/视觉 Transformer 研发的开发者 背景 / 动机 Transformer 结构中常用 LayerNorm,但很多工程师会问:能不能用 BN? BN 在 CNN 中非常有效,但在序列模型上常受 batch 维度影响。 理解其差异能帮助你在不同场景下做更合理的选择。 核心概念 BatchNorm(BN):按 batch 维度归一化。 LayerNorm(LN):按特征维度归一化。 统计依赖:BN 依赖 batch 统计,LN 不依赖。 A — Algorithm(题目与算法) 用通俗语言说明主题内容 BN 会把“整批样本”的均值/方差作为归一化基准。 LN 只看单个样本内部特征,更稳定。 基础示例(1) 小 batch 训练时,BN 的均值/方差噪声大,容易不稳定。 基础示例(2) CV Transformer 大 batch 训练时,BN 有时能提供更快收敛。 实践指南 / 步骤 NLP/小 batch → LN 更稳。 CV/大 batch → 可尝试 BN。 先做对比实验,再决定归一化方案。 可运行示例(最小 PyTorch 对比) import torch import torch.nn as nn torch.manual_seed(42) x = torch.randn(4, 8, 16) # batch, seq, dim # LayerNorm:按特征维度 ln = nn.LayerNorm(16) out_ln = ln(x) # BatchNorm:需要把特征维度转为 channel bn = nn.BatchNorm1d(16) out_bn = bn(x.transpose(1, 2)).transpose(1, 2) print(out_ln.mean(dim=-1).shape) print(out_bn.mean(dim=-1).shape) 解释与原理 BN 依赖 batch 统计,推理时使用滑动均值/方差。 LN 不依赖 batch,训练/推理一致。 Transformer 多用 LN 是为了适配小 batch 与序列任务。 C — Concepts(核心思想) 方法类型 BN/LN 都属于归一化方法,用于稳定训练与加速收敛。 ...
副标题 / 摘要 BatchNorm 利用批内统计稳定训练,LayerNorm 基于单样本统计适配变长序列。本文用 ACERS 框架对比两者原理、场景与取舍,并给出最小 PyTorch 示例。 预计阅读时长:14~18 分钟 标签:batchnorm、layernorm、normalization SEO 关键词:BatchNorm, LayerNorm, 归一化 元描述:系统对比 BN 与 LN 的机制差异、工程成本与适用场景。 目标读者 想理解归一化差异的入门读者 需要在 CNN/Transformer 中做结构选型的工程实践者 关注训练稳定性与推理一致性的开发者 背景 / 动机 归一化是深度学习训练稳定性的核心技术。 BN 在视觉模型中表现优秀,但在 NLP/小批量场景中常不稳定。 LN 则不依赖 batch 大小,成为 Transformer 的默认选择。 核心概念 BatchNorm(BN):按 batch 维度统计均值/方差。 LayerNorm(LN):按特征维度统计均值/方差。 训练/推理差异:BN 需要 running stats,LN 不需要。 A — Algorithm(题目与算法) 用通俗语言说明主题内容 BN:用“整批样本”的统计量做归一化。 LN:用“单个样本”的特征统计量做归一化。 基础示例(1) CNN 大 batch 训练时,BN 统计稳定,收敛更快。 基础示例(2) Transformer 小 batch/变长序列时,LN 更稳定。 实践指南 / 步骤 图像模型 + 大 batch → 首选 BN。 语言模型/小 batch → 首选 LN。 多卡训练 → 评估 SyncBN 或改用 LN。 推理时注意 BN 的 running stats 是否正确。 可运行示例(最小 PyTorch 对比) import torch import torch.nn as nn torch.manual_seed(42) x = torch.randn(4, 8) bn = nn.BatchNorm1d(8) ln = nn.LayerNorm(8) out_bn = bn(x) out_ln = ln(x) print(out_bn.mean(dim=0)) print(out_ln.mean(dim=1)) 解释与原理 BN 使用 batch 统计,训练时依赖 batch size。 LN 使用样本内统计,不依赖 batch。 推理阶段 BN 使用 running mean/var,而 LN 直接使用当前样本。 C — Concepts(核心思想) 方法类型 BN 与 LN 都属于特征归一化,用于稳定训练与改善梯度流。 ...
副标题 / 摘要 残差连接通过“旁路”让梯度更容易传播,是深层网络可训练的关键。本文从原理到工程实践梳理残差的作用,并给出最小 PyTorch 示例。 预计阅读时长:12~16 分钟 标签:residual、skip-connection、transformer SEO 关键词:残差连接, ResNet, Transformer 元描述:系统解释残差连接为何能提升深度网络训练稳定性,并给出可运行示例。 目标读者 想理解残差连接价值的入门读者 在深层网络训练中遇到不稳定的工程实践者 关注 Transformer/ResNet 结构设计的开发者 背景 / 动机 深层网络容易梯度消失或爆炸,训练难以收敛。 残差连接通过“恒等映射”提供一条更短的梯度通道,使深层网络可训练。 它也是 ResNet 与 Transformer 的基础结构之一。 核心概念 残差连接(Skip/Residual):输出 = 输入 + 子层变换。 恒等映射:让网络学习“增量”而非全部映射。 梯度流动:减少梯度衰减,提高可训练性。 A — Algorithm(题目与算法) 用通俗语言说明主题内容 残差连接的思路是: 如果一个深层网络难以直接学习映射 H(x),那就让它学习 F(x) = H(x) - x。 这样输出变成 x + F(x),训练更容易。 基础示例(1) 深层 MLP 加残差后 loss 更稳定、收敛更快。 基础示例(2) Transformer 每个子层都带残差,保证梯度可传播。 实践指南 / 步骤 在深层块中加入 x + f(x) 结构。 若维度不一致,用线性投影对齐。 配合 LayerNorm/RMSNorm 提升稳定性。 可运行示例(最小残差对比) import torch import torch.nn as nn torch.manual_seed(42) class PlainMLP(nn.Module): def __init__(self, dim=64, depth=6): super().__init__() layers = [] for _ in range(depth): layers += [nn.Linear(dim, dim), nn.ReLU()] self.net = nn.Sequential(*layers) def forward(self, x): return self.net(x) class ResMLP(nn.Module): def __init__(self, dim=64, depth=6): super().__init__() self.blocks = nn.ModuleList([ nn.Sequential(nn.Linear(dim, dim), nn.ReLU()) for _ in range(depth) ]) def forward(self, x): for block in self.blocks: x = x + block(x) return x x = torch.randn(8, 64) plain = PlainMLP() res = ResMLP() print(plain(x).shape, res(x).shape) 解释与原理 残差提供恒等路径,使梯度能绕过非线性层。 深层网络更容易学习“增量”,降低优化难度。 在 Transformer 中,残差 + 归一化是稳定训练核心。 C — Concepts(核心思想) 方法类型 残差连接属于架构层面的优化技巧,目的是改善训练稳定性与可扩展性。 ...
副标题 / 摘要 Transformer 由编码器与解码器堆叠而成,核心是自注意力与前馈网络。本文从结构出发解释各模块职责,并提供最小可运行示例与工程场景。 预计阅读时长:16~20 分钟 标签:transformer、attention、encoder-decoder SEO 关键词:Transformer, 编码器, 解码器, 注意力机制 元描述:系统描述 Transformer 结构与工程应用,含最小示例。 目标读者 想理解 Transformer 结构的入门读者 需要搭建 NLP/多模态模型的工程实践者 关注模型架构取舍的开发者 背景 / 动机 在 Transformer 出现之前,序列建模主要依赖 RNN。 Transformer 用注意力替代循环,大幅提升并行性与可扩展性。 理解其结构,是学习大模型的起点。 核心概念 Encoder/Decoder:编码器负责理解输入,解码器负责生成输出。 Self-Attention:同一序列内部建模依赖。 Cross-Attention:解码器对编码器输出做对齐。 FFN:逐位置前馈网络。 A — Algorithm(题目与算法) 用通俗语言说明主题内容 Transformer 的流程可以理解为: 编码器把输入序列变成上下文表示。 解码器在生成时,通过 cross-attention 读取编码器信息。 多层堆叠形成深层表达。 基础示例(1) 机器翻译:编码器读英文,解码器生成中文。 基础示例(2) 文本生成:只保留解码器,逐词预测下一个 token。 实践指南 / 步骤 选择结构:encoder-decoder(翻译)或 decoder-only(生成)。 设置模型参数:层数、隐藏维度、注意力头数。 训练:使用适当的损失(MLM/CLM)。 推理:启用因果 mask 或 cross-attention。 可运行示例(最小 Transformer 模块) import torch import torch.nn as nn torch.manual_seed(42) model = nn.Transformer( d_model=32, nhead=4, num_encoder_layers=2, num_decoder_layers=2, dim_feedforward=64, batch_first=True, ) src = torch.randn(2, 5, 32) tgt = torch.randn(2, 4, 32) out = model(src, tgt) print(out.shape) 解释与原理 编码器输出为“上下文记忆”。 解码器 self-attn 保证自回归顺序。 cross-attn 让解码器读取编码器信息。 C — Concepts(核心思想) 方法类型 Transformer 属于注意力驱动的序列建模架构。 ...
副标题 / 摘要 GPT 采用 decoder-only 结构是为了极致匹配自回归生成任务:因果注意力保证顺序一致性,结构简化降低训练与推理成本。本文对比 encoder-only 与 encoder-decoder,并给出最小 PyTorch 示例。 预计阅读时长:14~18 分钟 标签:gpt、decoder-only、autoregressive SEO 关键词:GPT, Decoder-Only, 自回归, Causal Attention 元描述:从任务目标到工程成本,解释 GPT 为什么选择 decoder-only 结构。 目标读者 想理解 GPT 架构选择的入门读者 需要做生成模型选型的工程实践者 想对比不同 Transformer 结构的开发者 背景 / 动机 在文本生成任务中,模型必须严格遵循“从左到右”的因果顺序。 GPT 的 decoder-only 结构天然满足这一目标,同时简化了模型设计。 但它与 encoder-only、encoder-decoder 的差异常被混淆,需要系统梳理。 核心概念 Decoder-only:仅使用解码器堆叠 + 因果自注意力。 Encoder-only:双向自注意力,擅长理解任务。 Encoder-decoder:编码输入再解码输出,擅长序列到序列任务。 Causal Mask:确保 token 只能看见左侧历史。 A — Algorithm(题目与算法) 用通俗语言说明主题内容 GPT 的任务是“预测下一个词”,所以只需要解码器并遵守因果顺序。 Encoder-only(如 BERT)不适合生成,因为它能看到未来词。 Encoder-decoder(如 T5)适合翻译/摘要,但结构更复杂。 基础示例(1) 输入:“今天是” → 模型预测“周五”。 这要求模型只能看到“今天是”,不能看到未来词。 基础示例(2) 机器翻译需要“源序列 → 目标序列”,更适合 encoder-decoder。 实践指南 / 步骤 任务为生成/续写 → 优先 decoder-only。 任务为理解/分类 → 优先 encoder-only。 任务为序列到序列 → 优先 encoder-decoder。 可运行示例(最小因果注意力) import torch import torch.nn.functional as F def causal_attention(x): # x: (batch, seq, dim) scores = x @ x.transpose(-2, -1) seq = x.size(1) mask = torch.tril(torch.ones(seq, seq)).bool() scores = scores.masked_fill(~mask, float("-inf")) weights = F.softmax(scores, dim=-1) return weights @ x x = torch.randn(1, 4, 8) out = causal_attention(x) print(out.shape) 解释与原理 因果 mask 保证 token 只依赖左侧历史。 这与自回归目标完全一致,避免信息泄露。 Decoder-only 结构也更容易并行化与扩展模型规模。 C — Concepts(核心思想) 方法类型 GPT 属于自回归生成模型,采用 decoder-only 结构 + 因果自注意力。 ...
副标题 / 摘要 BERT 通过 MLM/NSP 学习双向语义,GPT 通过 CLM 学习自回归生成。本文用 ACERS 框架对比两者预训练任务与应用场景,并提供最小 PyTorch 示例。 预计阅读时长:14~18 分钟 标签:bert、gpt、pretraining SEO 关键词:BERT, GPT, MLM, CLM 元描述:对比 BERT 与 GPT 的预训练目标与工程应用差异。 目标读者 想入门理解 BERT 与 GPT 核心差异的读者 需要做模型选型的工程实践者 关注 NLP 任务适配策略的开发者 背景 / 动机 BERT 和 GPT 经常被混用,但它们的预训练目标决定了“擅长什么”。 理解 MLM 与 CLM 的差异,能更快做出任务匹配与架构选型。 核心概念 MLM(Masked Language Modeling):随机遮蔽词,预测被遮蔽词。 NSP(Next Sentence Prediction):判断两句是否相邻(BERT 原版)。 CLM(Causal Language Modeling):预测下一个词(自回归)。 A — Algorithm(题目与算法) 用通俗语言说明主题内容 BERT 是“看全句补空词”的双向理解模型。 GPT 是“从左到右续写”的生成模型。 基础示例(1) 输入:“北京是[MASK]国首都” → BERT 预测“中”。 基础示例(2) 输入:“北京是中国” → GPT 预测下一个词“首都”。 实践指南 / 步骤 任务是理解/分类 → 首选 BERT 类模型。 任务是生成/续写 → 首选 GPT 类模型。 推理时注意:BERT 需要 [MASK],GPT 需要 prompt。 可运行示例(最小 PyTorch 逻辑) import torch import torch.nn.functional as F # MLM: 预测被遮蔽位置 vocab = 100 seq = torch.tensor([[1, 2, 3, 4]]) mask_pos = 2 logits = torch.randn(1, 4, vocab) mlm_loss = F.cross_entropy(logits[:, mask_pos], torch.tensor([3])) print("MLM loss:", mlm_loss.item()) # CLM: 预测下一个 token logits = torch.randn(1, 4, vocab) labels = torch.tensor([[2, 3, 4, 5]]) clm_loss = F.cross_entropy(logits[:, :-1].reshape(-1, vocab), labels[:, 1:].reshape(-1)) print("CLM loss:", clm_loss.item()) 解释与原理 MLM 学到双向上下文,因此更适合理解类任务。 CLM 强调顺序生成,因此更适合生成类任务。 GPT 不需要特殊 [MASK],推理更自然。 C — Concepts(核心思想) 方法类型 BERT 属于双向编码器预训练,GPT 属于自回归生成预训练。 ...
副标题 / 摘要 SGD 简洁稳定,Adam 自适应学习率收敛更快。本文用 ACERS 框架对比两者原理与工程取舍,并给出最小 PyTorch 示例。 预计阅读时长:14~18 分钟 标签:sgd、adam、optimizer SEO 关键词:SGD, Adam, 优化器, 动量 元描述:对比 SGD 与 Adam 的训练特性与使用场景。 目标读者 想理解优化器差异的入门读者 需要做训练稳定性与收敛速度取舍的工程实践者 想掌握常见调参策略的开发者 背景 / 动机 优化器决定训练速度与最终性能。 SGD 以稳定著称,Adam 以快速收敛著称。 理解两者差异有助于在不同任务中做更合理的选择。 核心概念 SGD:基于当前梯度更新参数。 Momentum:引入历史梯度方向,加速收敛。 Adam:结合动量与 RMSProp,自适应学习率。 A — Algorithm(题目与算法) 用通俗语言说明主题内容 SGD:每步朝“当前梯度方向”走。 Adam:用历史梯度估计方向,同时对每个参数自适应调节步长。 基础示例(1) SGD 在噪声大时会“抖动”,收敛慢但稳定。 基础示例(2) Adam 在稀疏梯度场景(NLP)通常收敛更快。 实践指南 / 步骤 快速验证效果 → Adam。 追求最终泛化 → SGD + 动量。 对比验证集曲线,而非只看训练 loss。 可运行示例(最小 PyTorch 对比) import torch import torch.nn as nn torch.manual_seed(42) x = torch.randn(128, 10) y = torch.randn(128, 1) model = nn.Linear(10, 1) loss_fn = nn.MSELoss() sgd = torch.optim.SGD(model.parameters(), lr=0.1, momentum=0.9) for _ in range(5): pred = model(x) loss = loss_fn(pred, y) sgd.zero_grad() loss.backward() sgd.step() adam = torch.optim.Adam(model.parameters(), lr=1e-2) for _ in range(5): pred = model(x) loss = loss_fn(pred, y) adam.zero_grad() loss.backward() adam.step() print("done") 解释与原理 SGD 只依赖当前梯度,步长固定。 Adam 用一阶/二阶动量估计,使得学习率对每个参数自适应。 C — Concepts(核心思想) 方法类型 SGD 是一阶优化基线,Adam 是自适应学习率优化。 ...