LLM | Jeanphilo Blog

Attention-Based Seq2Seq：为什么会自然过渡到 Transformer

副标题 / 摘要这篇文章专门解释一个关键过渡：为什么 fixed-length 的 seq2seq 很快会不够用，attention-based seq2seq 是怎么补上“按需读取源序列”这个能力的，以及这个思路为什么几乎会自然长成 Transformer。最后会收束到一份最小可运行的 PyTorch GRU + additive attention 实现。从“苹果”为什么老翻不准开始还是用这个最小翻译任务： src: <bos> I really love green apples <eos> tgt: <bos> 我真的喜欢青苹果 <eos> 当 decoder 走到要生成“苹果”这一步时，最理想的行为其实很明确：它应该重点回头看源序列里的 apples 它可能顺手也看一眼 green 它不能只依赖一个已经被反复压缩过很多轮的最终隐藏状态如果你用上一篇里那个最小 seq2seq： encoder 把整句读完只把最后一个 hidden_enc 交给 decoder decoder 后面每一步都只靠这个固定长度状态和自己的历史那么句子一长，这里就会出现一个很具体的问题： decoder 明明需要“现在按需去看源序列的某几个位置”，但 fixed-length seq2seq 只给了它“一次性打包好的整句摘要”。这就是 attention-based seq2seq 出现的真实压力。它不是为了“概念更高级”，而是因为 decoder 在每个时间步都需要重新决定自己该看源序列的哪里。快速掌握地图 fixed-length seq2seq：encoder outputs -> 丢弃大部分，只保留 final hidden attention-based seq2seq：decoder step t -> 对所有 encoder outputs 打分 -> 加权求和得到 context_t 核心收益：不同目标位置可以读取不同源位置仍然存在的限制：encoder 和 decoder 还是循环结构，时间上依然串行通向 Transformer 的关键桥：decoder state 作为 query，encoder outputs 作为 memory 这篇文章重点深挖的两个概念对齐分数与上下文向量：decoder 怎样在每一步决定“该看源序列哪里” 从 attention-based seq2seq 到 Transformer 的结构映射：哪些东西被保留了，哪些东西被替换了大师级心智模型 fixed-length seq2seq 的核心假设是： ...

Seq2Seq 与 Encoder-Decoder：从翻译任务到最小可运行 PyTorch 实现

副标题 / 摘要这篇文章不把 seq2seq 和 encoder-decoder 当成术语表来讲，而是从一个最小翻译任务出发，解释为什么“输入一段序列、输出另一段序列”会自然逼出编码器和解码器的分工，最后收束成一份最小可运行的 PyTorch GRU 实现。从一个最小翻译任务开始假设源序列是： <bos> I love apples <eos> 目标序列是： <bos> 我喜欢苹果 <eos> 当模型要生成“苹果”时，它至少要解决三件事：它必须知道整句英文大意，而不只是当前一个词它必须记住自己前面已经生成了“我喜欢” 它必须按顺序一个词一个词地产生输出，而不是一次吐出整个目标序列如果你只用一个普通分类器把源句子映射成一个类别，这个任务做不成。因为这里的输出不是一个固定标签，而是长度可变的目标序列。所以这里天然会逼出一个更具体的数据流：先把源序列读完，压成可传递的状态再从 <bos> 开始，逐步生成目标序列每生成一步，都要同时依赖“源侧信息”和“目标侧历史” 这就是 sequence-to-sequence 的最小问题形态。 seq2seq 说的是任务：输入一段序列，输出另一段序列。 encoder-decoder 说的是实现：先编码输入，再逐步解码输出。下面不先堆名词，直接按这个压力把代码一步一步长出来。快速掌握地图问题形态：src -> encoder -> hidden/context -> decoder -> logits 核心目标：学习条件概率 p(y_t | y_{<t}, x) 最小实现：Embedding + GRU Encoder + GRU Decoder + output projection 何时适用：翻译、摘要、改写、问答这类“输入序列 -> 输出序列”任务明显局限：如果所有源信息都被压进一个固定长度向量，长句子会吃力这篇文章重点深挖的两个概念隐藏状态交接：encoder 到底把什么交给 decoder 右移目标序列与 teacher forcing：训练时 decoder 为什么不能直接喂完整真实答案大师级心智模型这类模型的核心抽象不是“两个 RNN 拼起来”，而是： ...

Transformer 结构推导：一步一步搭出最小可运行 PyTorch 实现

副标题 / 摘要这篇文章不把 Transformer 当成一个现成黑盒来介绍，而是直接从一个最小翻译任务开始，让需要的结构一层一层长出来，最后收束成一份最小可运行的 PyTorch encoder-decoder Transformer。从一个最小翻译任务开始假设源序列是： <bos> I love apples <eos> 目标序列是： <bos> 我喜欢苹果当模型要生成“苹果”时：它不能看目标序列里未来还没生成的位置它需要重点读取源序列中的 apples 它可能还需要参考前面的“我喜欢”来决定当前词所以这里天然会逼出三件事：目标侧必须有因果约束源侧和目标侧都需要全局读取解码器不仅要读自己，还要读编码器输出 RNN 和 CNN 也能处理序列，但它们在长距离依赖和全并行训练上都有明显限制。所以这里真正要解决的，不只是“做一个更深的网络”，而是让任意位置能直接交互，并且显式控制信息流方向。下面开始按这个压力一步一步长代码。 Step 1：先有输入表示，但先不谈注意力先看一个已经分词并编号后的最小输入： <bos> I love apples <eos> -> [1, 15, 982, 204, 2] 这里的 1, 15, 982, 204, 2 还不是模型已经理解后的表示。它们只是词表里的编号，作用更接近“标签”或“学号”： 15 比 204 小，不代表它们语义上更接近直接拿这种离散编号去做线性变换或点积，含义也不对所以第一步只解决一个更具体的问题：怎样把“词表编号”变成“模型后面可以继续计算的一组连续数值”？这里再引入两个词： token id：分词后查词表得到的离散编号 embedding：把每个离散编号映射成长度为 d_model 的可学习向量先写最小版，不额外引入别的机制： ...

动量（Momentum）优化的过程：从直觉到公式

副标题 / 摘要动量通过累积历史梯度“惯性”来加速收敛、减少震荡。本文用 ACERS 框架拆解动量更新过程、公式与工程场景，并提供最小 PyTorch 示例。预计阅读时长：12~16 分钟标签：momentum、sgd、optimizer SEO 关键词：动量, Momentum, SGD, 优化器元描述：系统讲清动量优化的更新过程与工程实践。目标读者想理解动量优化机制的入门读者需要解决训练震荡与收敛慢问题的工程实践者关注优化器调参的开发者背景 / 动机纯 SGD 在陡峭方向上容易震荡、在平缓方向上推进缓慢。动量引入“速度”概念，让更新方向更稳定、收敛更快。它是许多优化器（如 Adam）的核心组件之一。核心概念速度（Velocity）：累计梯度形成的方向与幅度。动量系数：控制历史梯度影响程度。平滑更新：减少梯度噪声带来的震荡。 A — Algorithm（题目与算法）用通俗语言说明主题内容动量可以理解为：每一步不仅看当前梯度，还看过去的梯度方向。像滚小球一样，惯性会让它更容易越过浅坑。基础示例（1）在狭长“谷地”里，纯 SGD 左右摆动，而动量能沿谷底快速前进。基础示例（2）在噪声梯度场景，动量能平均掉噪声，方向更稳定。实践指南 / 步骤选择 momentum（常见 0.9）。如果震荡明显，适当提高动量或降低学习率。观察训练/验证曲线，确认收敛速度。可运行示例（最小 PyTorch 动量更新） import torch torch.manual_seed(42) w = torch.tensor([5.0], requires_grad=True) velocity = torch.zeros_like(w) lr = 0.1 mu = 0.9 for _ in range(5): loss = (w - 1.0).pow(2) loss.backward() with torch.no_grad(): velocity = mu * velocity + w.grad w -= lr * velocity w.grad.zero_() print(w.item()) 解释与原理速度累积让更新方向“更平滑”。在弯曲损失面上，动量减少横向摆动。学习率与动量需要联合调参。 C — Concepts（核心思想）方法类型动量属于一阶优化增强策略，通过历史梯度平滑更新。 ...

优化器的了解：从 SGD 到 Adam 的工程取舍

副标题 / 摘要优化器决定训练速度、稳定性与最终泛化。本文按 ACERS 框架对比 SGD、Momentum、Adam、AdamW 等主流优化器，并给出最小可运行示例与工程实践建议。预计阅读时长：15~18 分钟标签：optimizer、sgd、adam、adamw SEO 关键词：优化器, SGD, Adam, AdamW 元描述：对比主流优化器原理与工程场景，给出可运行示例。目标读者刚入门深度学习训练的读者需要在速度与泛化之间权衡的工程实践者想系统理解优化器选择的开发者背景 / 动机在训练大模型时，损失函数不是唯一关键，优化器同样决定成败。同一模型下，不同优化器会带来完全不同的收敛曲线与最终效果。理解优化器差异，是做出稳定工程方案的前提。核心概念梯度下降：沿损失函数梯度方向更新参数。动量（Momentum）：引入历史梯度方向，减少震荡。自适应学习率：为不同参数分配不同步长。权重衰减（Weight Decay）：控制参数规模，提升泛化。 A — Algorithm（题目与算法）用通俗语言说明主题内容 SGD：每次更新都沿着当前梯度方向。 Momentum：带“惯性”的 SGD，加速收敛。 Adam：对每个参数自适应调整学习率。 AdamW：把权重衰减从 Adam 的梯度中解耦。基础示例（1） SGD 在陡峭峡谷会来回震荡。 Adam 会自动缩小震荡方向的步长。基础示例（2） Adam 收敛快但可能泛化弱。 SGD 收敛慢但往往更稳。实践指南 / 步骤快速验证模型可行性 → Adam/AdamW。追求最终泛化性能 → SGD + 动量。训练大模型时优先 AdamW。用验证集曲线而非训练 loss 评估。可运行示例（最小 PyTorch 对比） import torch import torch.nn as nn torch.manual_seed(42) x = torch.randn(256, 10) y = torch.randn(256, 1) model = nn.Linear(10, 1) loss_fn = nn.MSELoss() # SGD sgd = torch.optim.SGD(model.parameters(), lr=0.1, momentum=0.9) for _ in range(5): pred = model(x) loss = loss_fn(pred, y) sgd.zero_grad() loss.backward() sgd.step() # AdamW adamw = torch.optim.AdamW(model.parameters(), lr=1e-3, weight_decay=0.01) for _ in range(5): pred = model(x) loss = loss_fn(pred, y) adamw.zero_grad() loss.backward() adamw.step() print("done") 解释与原理 Adam 引入一阶与二阶动量，提升收敛速度。 AdamW 通过“解耦权重衰减”更稳定。 SGD 的优势在于更好的泛化表现。 C — Concepts（核心思想）方法类型优化器属于数值优化方法，核心目标是稳定、快速、可泛化地找到最优解。 ...

BN 与 Dropout：训练与推理时的关键区别

副标题 / 摘要 BatchNorm 在训练使用 batch 统计、推理使用滑动均值方差；Dropout 训练时随机失活、推理时关闭。本文用 ACERS 框架解释两者差异并给出最小 PyTorch 示例。预计阅读时长：12~16 分钟标签：batchnorm、dropout、training SEO 关键词：BatchNorm, Dropout, 训练, 推理元描述：对比 BN 与 Dropout 在训练与推理阶段的行为与工程取舍。目标读者想系统理解 BN/Dropout 差异的入门读者需要调试训练/推理不一致问题的工程实践者关注模型稳定性与泛化的开发者背景 / 动机很多线上问题来自“训练正常、推理异常”。 BN 与 Dropout 在训练/推理阶段的行为不同，是常见根因。理解它们的机制差异，能显著减少定位成本。核心概念 BatchNorm：用 batch 统计归一化特征，并维护 running mean/var。 Dropout：训练时随机失活部分神经元以正则化。 Train/Eval 模式：控制 BN/Dropout 行为的关键开关。 A — Algorithm（题目与算法）用通俗语言说明主题内容 BN 训练时用当前 batch 的均值与方差；推理时用历史统计。 Dropout 训练时随机丢弃；推理时关闭、输出稳定。基础示例（1） BN：小 batch 训练可能统计不稳定，推理偏移明显。基础示例（2） Dropout：训练输出有噪声，推理输出确定。实践指南 / 步骤训练时使用 model.train()。推理时使用 model.eval()。如果 batch 很小，考虑替代 BN（LayerNorm/GroupNorm）。可运行示例（最小 PyTorch 对比） import torch import torch.nn as nn torch.manual_seed(42) model = nn.Sequential( nn.Linear(4, 4), nn.BatchNorm1d(4), nn.Dropout(p=0.5), ) x = torch.randn(3, 4) model.train() train_out1 = model(x) train_out2 = model(x) model.eval() eval_out1 = model(x) eval_out2 = model(x) print(torch.allclose(train_out1, train_out2)) # False (Dropout) print(torch.allclose(eval_out1, eval_out2)) # True 解释与原理 BN 在训练中依赖 batch 统计，推理依赖 running 统计。 Dropout 在训练中丢弃神经元以提升泛化，推理关闭以稳定输出。 C — Concepts（核心思想）方法类型 BN 属于归一化技术，Dropout 属于正则化技术。 ...

Transformer 中可以用 BatchNorm 吗？

副标题 / 摘要 Transformer 默认使用 LayerNorm，但在某些视觉模型中也能看到 BatchNorm。本文解释 BN 在 Transformer 中的可行性、限制与适用场景，并提供最小 PyTorch 示例。预计阅读时长：14~18 分钟标签：transformer、batchnorm、layernorm SEO 关键词：BatchNorm, Transformer, LayerNorm 元描述：分析 Transformer 中使用 BatchNorm 的利弊与工程建议。目标读者想理解归一化策略差异的入门读者需要提升训练稳定性的工程实践者从事 NLP/视觉 Transformer 研发的开发者背景 / 动机 Transformer 结构中常用 LayerNorm，但很多工程师会问：能不能用 BN？ BN 在 CNN 中非常有效，但在序列模型上常受 batch 维度影响。理解其差异能帮助你在不同场景下做更合理的选择。核心概念 BatchNorm（BN）：按 batch 维度归一化。 LayerNorm（LN）：按特征维度归一化。统计依赖：BN 依赖 batch 统计，LN 不依赖。 A — Algorithm（题目与算法）用通俗语言说明主题内容 BN 会把“整批样本”的均值/方差作为归一化基准。 LN 只看单个样本内部特征，更稳定。基础示例（1）小 batch 训练时，BN 的均值/方差噪声大，容易不稳定。基础示例（2） CV Transformer 大 batch 训练时，BN 有时能提供更快收敛。实践指南 / 步骤 NLP/小 batch → LN 更稳。 CV/大 batch → 可尝试 BN。先做对比实验，再决定归一化方案。可运行示例（最小 PyTorch 对比） import torch import torch.nn as nn torch.manual_seed(42) x = torch.randn(4, 8, 16) # batch, seq, dim # LayerNorm：按特征维度 ln = nn.LayerNorm(16) out_ln = ln(x) # BatchNorm：需要把特征维度转为 channel bn = nn.BatchNorm1d(16) out_bn = bn(x.transpose(1, 2)).transpose(1, 2) print(out_ln.mean(dim=-1).shape) print(out_bn.mean(dim=-1).shape) 解释与原理 BN 依赖 batch 统计，推理时使用滑动均值/方差。 LN 不依赖 batch，训练/推理一致。 Transformer 多用 LN 是为了适配小 batch 与序列任务。 C — Concepts（核心思想）方法类型 BN/LN 都属于归一化方法，用于稳定训练与加速收敛。 ...

BN 与 LN 的区别：训练稳定性与工程取舍

副标题 / 摘要 BatchNorm 利用批内统计稳定训练，LayerNorm 基于单样本统计适配变长序列。本文用 ACERS 框架对比两者原理、场景与取舍，并给出最小 PyTorch 示例。预计阅读时长：14~18 分钟标签：batchnorm、layernorm、normalization SEO 关键词：BatchNorm, LayerNorm, 归一化元描述：系统对比 BN 与 LN 的机制差异、工程成本与适用场景。目标读者想理解归一化差异的入门读者需要在 CNN/Transformer 中做结构选型的工程实践者关注训练稳定性与推理一致性的开发者背景 / 动机归一化是深度学习训练稳定性的核心技术。 BN 在视觉模型中表现优秀，但在 NLP/小批量场景中常不稳定。 LN 则不依赖 batch 大小，成为 Transformer 的默认选择。核心概念 BatchNorm（BN）：按 batch 维度统计均值/方差。 LayerNorm（LN）：按特征维度统计均值/方差。训练/推理差异：BN 需要 running stats，LN 不需要。 A — Algorithm（题目与算法）用通俗语言说明主题内容 BN：用“整批样本”的统计量做归一化。 LN：用“单个样本”的特征统计量做归一化。基础示例（1） CNN 大 batch 训练时，BN 统计稳定，收敛更快。基础示例（2） Transformer 小 batch/变长序列时，LN 更稳定。实践指南 / 步骤图像模型 + 大 batch → 首选 BN。语言模型/小 batch → 首选 LN。多卡训练 → 评估 SyncBN 或改用 LN。推理时注意 BN 的 running stats 是否正确。可运行示例（最小 PyTorch 对比） import torch import torch.nn as nn torch.manual_seed(42) x = torch.randn(4, 8) bn = nn.BatchNorm1d(8) ln = nn.LayerNorm(8) out_bn = bn(x) out_ln = ln(x) print(out_bn.mean(dim=0)) print(out_ln.mean(dim=1)) 解释与原理 BN 使用 batch 统计，训练时依赖 batch size。 LN 使用样本内统计，不依赖 batch。推理阶段 BN 使用 running mean/var，而 LN 直接使用当前样本。 C — Concepts（核心思想）方法类型 BN 与 LN 都属于特征归一化，用于稳定训练与改善梯度流。 ...

残差连接的作用：为什么深度网络离不开它

副标题 / 摘要残差连接通过“旁路”让梯度更容易传播，是深层网络可训练的关键。本文从原理到工程实践梳理残差的作用，并给出最小 PyTorch 示例。预计阅读时长：12~16 分钟标签：residual、skip-connection、transformer SEO 关键词：残差连接, ResNet, Transformer 元描述：系统解释残差连接为何能提升深度网络训练稳定性，并给出可运行示例。目标读者想理解残差连接价值的入门读者在深层网络训练中遇到不稳定的工程实践者关注 Transformer/ResNet 结构设计的开发者背景 / 动机深层网络容易梯度消失或爆炸，训练难以收敛。残差连接通过“恒等映射”提供一条更短的梯度通道，使深层网络可训练。它也是 ResNet 与 Transformer 的基础结构之一。核心概念残差连接（Skip/Residual）：输出 = 输入 + 子层变换。恒等映射：让网络学习“增量”而非全部映射。梯度流动：减少梯度衰减，提高可训练性。 A — Algorithm（题目与算法）用通俗语言说明主题内容残差连接的思路是：如果一个深层网络难以直接学习映射 H(x)，那就让它学习 F(x) = H(x) - x。这样输出变成 x + F(x)，训练更容易。基础示例（1）深层 MLP 加残差后 loss 更稳定、收敛更快。基础示例（2） Transformer 每个子层都带残差，保证梯度可传播。实践指南 / 步骤在深层块中加入 x + f(x) 结构。若维度不一致，用线性投影对齐。配合 LayerNorm/RMSNorm 提升稳定性。可运行示例（最小残差对比） import torch import torch.nn as nn torch.manual_seed(42) class PlainMLP(nn.Module): def __init__(self, dim=64, depth=6): super().__init__() layers = [] for _ in range(depth): layers += [nn.Linear(dim, dim), nn.ReLU()] self.net = nn.Sequential(*layers) def forward(self, x): return self.net(x) class ResMLP(nn.Module): def __init__(self, dim=64, depth=6): super().__init__() self.blocks = nn.ModuleList([ nn.Sequential(nn.Linear(dim, dim), nn.ReLU()) for _ in range(depth) ]) def forward(self, x): for block in self.blocks: x = x + block(x) return x x = torch.randn(8, 64) plain = PlainMLP() res = ResMLP() print(plain(x).shape, res(x).shape) 解释与原理残差提供恒等路径，使梯度能绕过非线性层。深层网络更容易学习“增量”，降低优化难度。在 Transformer 中，残差 + 归一化是稳定训练核心。 C — Concepts（核心思想）方法类型残差连接属于架构层面的优化技巧，目的是改善训练稳定性与可扩展性。 ...

为什么 GPT 是 Decoder-Only：自回归生成的最佳形态

副标题 / 摘要 GPT 采用 decoder-only 结构是为了极致匹配自回归生成任务：因果注意力保证顺序一致性，结构简化降低训练与推理成本。本文对比 encoder-only 与 encoder-decoder，并给出最小 PyTorch 示例。预计阅读时长：14~18 分钟标签：gpt、decoder-only、autoregressive SEO 关键词：GPT, Decoder-Only, 自回归, Causal Attention 元描述：从任务目标到工程成本，解释 GPT 为什么选择 decoder-only 结构。目标读者想理解 GPT 架构选择的入门读者需要做生成模型选型的工程实践者想对比不同 Transformer 结构的开发者背景 / 动机在文本生成任务中，模型必须严格遵循“从左到右”的因果顺序。 GPT 的 decoder-only 结构天然满足这一目标，同时简化了模型设计。但它与 encoder-only、encoder-decoder 的差异常被混淆，需要系统梳理。核心概念 Decoder-only：仅使用解码器堆叠 + 因果自注意力。 Encoder-only：双向自注意力，擅长理解任务。 Encoder-decoder：编码输入再解码输出，擅长序列到序列任务。 Causal Mask：确保 token 只能看见左侧历史。 A — Algorithm（题目与算法）用通俗语言说明主题内容 GPT 的任务是“预测下一个词”，所以只需要解码器并遵守因果顺序。 Encoder-only（如 BERT）不适合生成，因为它能看到未来词。 Encoder-decoder（如 T5）适合翻译/摘要，但结构更复杂。基础示例（1）输入：“今天是” → 模型预测“周五”。这要求模型只能看到“今天是”，不能看到未来词。基础示例（2）机器翻译需要“源序列 → 目标序列”，更适合 encoder-decoder。实践指南 / 步骤任务为生成/续写 → 优先 decoder-only。任务为理解/分类 → 优先 encoder-only。任务为序列到序列 → 优先 encoder-decoder。可运行示例（最小因果注意力） import torch import torch.nn.functional as F def causal_attention(x): # x: (batch, seq, dim) scores = x @ x.transpose(-2, -1) seq = x.size(1) mask = torch.tril(torch.ones(seq, seq)).bool() scores = scores.masked_fill(~mask, float("-inf")) weights = F.softmax(scores, dim=-1) return weights @ x x = torch.randn(1, 4, 8) out = causal_attention(x) print(out.shape) 解释与原理因果 mask 保证 token 只依赖左侧历史。这与自回归目标完全一致，避免信息泄露。 Decoder-only 结构也更容易并行化与扩展模型规模。 C — Concepts（核心思想）方法类型 GPT 属于自回归生成模型，采用 decoder-only 结构 + 因果自注意力。 ...