Self-Attention 计算公式与 Softmax 数值稳定:从推导到工程实现

副标题 / 摘要 Self-Attention 的公式很短,但工程细节很长:从 Q/K/V 计算到 softmax 数值稳定、mask 与缩放,每一步都影响效果与性能。本文用 ACERS 结构给出推导、实践步骤与可运行示例。 预计阅读时长:12~16 分钟 标签:attention、transformer、softmax SEO 关键词:Self-Attention, Softmax, Scaled Dot-Product, 数值稳定 元描述:Self-Attention 的计算公式与 softmax 稳定实现方法,含工程实践与示例代码。 目标读者 想真正理解 Self-Attention 公式含义的学习者 需要处理训练不稳定/溢出的工程实践者 关注注意力数值稳定与实现细节的开发者 背景 / 动机 在 Transformer 中,Self-Attention 是计算量最大、数值最敏感的模块之一。 很多训练不稳定、输出 NaN 的问题,都来自 softmax 的溢出/下溢或 mask 的错误处理。 理解公式与稳定实现,可以显著减少工程“踩坑”。 核心概念 Q/K/V:查询、键和值,来自输入线性投影 缩放点积注意力:$\text{softmax}(QK^\top/\sqrt{d_k})V$ 数值稳定:通过减去行最大值避免 softmax 溢出 思路推导(从朴素到稳定实现) 朴素做法 先算所有相似度 $S = QK^\top$,再做 softmax 得到权重 $P$,最后 $O = PV$。 这个实现最直观,但当 $S$ 很大时会出现 exp 溢出。 关键观察 softmax 对每行同时加上或减去一个常数不改变输出: $\text{softmax}(x) = \text{softmax}(x - \max(x))$。 ...

2026年1月25日 · 3 分钟 · map[name:Jeanphilo]

空洞卷积(Dilated Convolution):扩大感受野的工程利器

副标题 / 摘要 空洞卷积通过插入“空洞”扩大感受野,在不显著增加参数的情况下捕获长距离上下文。本文按 ACERS 结构解析原理、复杂度与工程场景,并提供最小可运行示例。 预计阅读时长:14~18 分钟 标签:dilated-convolution、segmentation、vision SEO 关键词:空洞卷积, Dilated Convolution, Atrous 元描述:解释空洞卷积的原理、复杂度与工程应用,含最小示例。 目标读者 想理解感受野扩大策略的入门读者 从事语义分割、时序建模的工程实践者 需要在算力与效果间权衡的开发者 背景 / 动机 传统卷积增大感受野通常靠加深网络或增大核尺寸,但这会带来更多参数与计算。 空洞卷积用“稀疏采样”的方式扩大感受野,是更高效的替代方案。 核心概念 空洞率(dilation):卷积核元素之间的间隔。 感受野:输出特征与输入区域的覆盖范围。 稀疏采样:在输入上跳步取样。 A — Algorithm(题目与算法) 用通俗语言说明主题内容 空洞卷积就是“把卷积核撑开”,让核的元素之间有空洞,从而覆盖更大的输入范围。 基础示例(1) 3x3 卷积,dilation=2 → 覆盖 5x5 的感受野。 基础示例(2) 不增加参数数量,但能捕捉更大上下文。 实践指南 / 步骤 选择基础卷积核(如 3x3)。 设置 dilation(常用 2、4、8)。 观察感受野与特征分辨率变化。 避免过大 dilation 导致“栅格效应”。 可运行示例(最小 PyTorch 空洞卷积) import torch import torch.nn as nn x = torch.randn(1, 3, 32, 32) conv = nn.Conv2d(3, 8, kernel_size=3, dilation=2, padding=2) out = conv(x) print(out.shape) 解释与原理 有效感受野:k_eff = k + (k-1) * (d-1)。 参数量与标准卷积相同,计算量近似不变。 C — Concepts(核心思想) 方法类型 空洞卷积属于扩大感受野的卷积变体,常用于分割与时序模型。 ...

2026年1月24日 · 2 分钟 · map[name:Jeanphilo]

NMS 描述:非极大值抑制的原理与工程实践

副标题 / 摘要 NMS(Non-Maximum Suppression)是目标检测后处理的核心步骤。本文用 ACERS 框架拆解 NMS 的原理、流程与工程实践,并提供可运行的 PyTorch 示例。 预计阅读时长:14~18 分钟 标签:nms、object-detection、iou SEO 关键词:NMS, 非极大值抑制, IoU, 目标检测 元描述:讲清 NMS 的核心算法、复杂度与工程取舍。 目标读者 想理解目标检测后处理的初学者 需要调参 IoU 阈值的工程实践者 关注推理速度与精度平衡的开发者 背景 / 动机 检测模型通常会输出多个重叠框。 如果不做抑制,会出现“同一目标被重复检测”。 NMS 用最简单的规则实现去重,是工业界的标准方案。 核心概念 IoU(Intersection over Union):衡量两个框重叠程度。 score:置信度分数,决定优先保留的框。 阈值:IoU 超过阈值则抑制。 A — Algorithm(题目与算法) 用通俗语言说明主题内容 NMS 的逻辑很直观: 选出最高分的框。 删除与它重叠度过高的框。 重复直到没有框。 基础示例(1) 两个高度重叠的人脸框,只保留分数更高的一个。 基础示例(2) 多个类别的检测结果,先按类别分开再做 NMS(class-wise)。 实践指南 / 步骤 对检测框按 score 排序。 取最高分框作为保留结果。 计算 IoU,过滤高重叠框。 重复直到框集合为空。 可运行示例(最小 PyTorch NMS) import torch def iou(box, boxes): x1 = torch.maximum(box[0], boxes[:, 0]) y1 = torch.maximum(box[1], boxes[:, 1]) x2 = torch.minimum(box[2], boxes[:, 2]) y2 = torch.minimum(box[3], boxes[:, 3]) inter = torch.clamp(x2 - x1, min=0) * torch.clamp(y2 - y1, min=0) area1 = (box[2] - box[0]) * (box[3] - box[1]) area2 = (boxes[:, 2] - boxes[:, 0]) * (boxes[:, 3] - boxes[:, 1]) union = area1 + area2 - inter return inter / (union + 1e-6) def nms(boxes, scores, thresh=0.5): idx = scores.argsort(descending=True) keep = [] while idx.numel() > 0: i = idx[0] keep.append(i.item()) if idx.numel() == 1: break rest = idx[1:] ious = iou(boxes[i], boxes[rest]) idx = rest[ious <= thresh] return keep boxes = torch.tensor([ [0.0, 0.0, 1.0, 1.0], [0.1, 0.1, 1.1, 1.1], [2.0, 2.0, 3.0, 3.0], ]) scores = torch.tensor([0.9, 0.8, 0.7]) print(nms(boxes, scores, thresh=0.5)) 解释与原理 NMS 的核心是“先保留最可信框”。 IoU 阈值越大,保留框越多;越小,抑制越强。 C — Concepts(核心思想) 方法类型 NMS 属于后处理过滤算法,用局部贪心策略去重。 ...

2026年1月24日 · 2 分钟 · map[name:Jeanphilo]

CNN 参数量计算:从卷积核到整网规模

副标题 / 摘要 CNN 的参数量取决于卷积核大小、通道数与偏置项。本文用 ACERS 框架给出计算公式、示例与工程实践,帮助你快速评估模型规模。 预计阅读时长:12~16 分钟 标签:cnn、parameter-count、convolution SEO 关键词:CNN, 参数量, 卷积, 模型大小 元描述:讲清 CNN 参数量的计算公式与工程取舍。 目标读者 想快速估算模型规模的初学者 关注部署成本与显存预算的工程实践者 需要做模型压缩与设计取舍的开发者 背景 / 动机 模型参数量直接影响训练速度、推理成本与部署体积。 对于 CNN,参数量可精确计算,但容易被忽略或算错。 掌握计算方法是做结构设计与成本评估的基础。 核心概念 卷积核参数量:核高 * 核宽 * 输入通道 * 输出通道。 偏置项:每个输出通道一个偏置。 组卷积:参数量随 groups 减少。 A — Algorithm(题目与算法) 用通俗语言说明主题内容 CNN 参数量的核心是: “每个输出通道有一组卷积核,核大小覆盖所有输入通道”。 基础示例(1) 卷积:3x3, in=3, out=64 参数量:333*64 + 64 = 1,792 基础示例(2) 1x1 卷积:in=256, out=128 参数量:11256*128 + 128 = 32,896 实践指南 / 步骤 明确卷积核大小 (KxK)。 确认输入通道数 C_in 与输出通道数 C_out。 计算参数量:K*K*C_in*C_out + C_out。 若是组卷积,再除以 groups。 可运行示例(最小 PyTorch 计算) import torch import torch.nn as nn conv = nn.Conv2d(3, 64, kernel_size=3, bias=True) params = sum(p.numel() for p in conv.parameters()) print(params) # 1792 解释与原理 卷积层参数量与输入图像大小无关,只与核与通道有关。 1x1 卷积参数量依然可能很大,因为通道数通常很高。 C — Concepts(核心思想) 方法类型 CNN 参数量计算属于模型规模评估方法,用于衡量存储与计算成本。 ...

2026年1月24日 · 2 分钟 · map[name:Jeanphilo]

动量(Momentum)优化的过程:从直觉到公式

副标题 / 摘要 动量通过累积历史梯度“惯性”来加速收敛、减少震荡。本文用 ACERS 框架拆解动量更新过程、公式与工程场景,并提供最小 PyTorch 示例。 预计阅读时长:12~16 分钟 标签:momentum、sgd、optimizer SEO 关键词:动量, Momentum, SGD, 优化器 元描述:系统讲清动量优化的更新过程与工程实践。 目标读者 想理解动量优化机制的入门读者 需要解决训练震荡与收敛慢问题的工程实践者 关注优化器调参的开发者 背景 / 动机 纯 SGD 在陡峭方向上容易震荡、在平缓方向上推进缓慢。 动量引入“速度”概念,让更新方向更稳定、收敛更快。 它是许多优化器(如 Adam)的核心组件之一。 核心概念 速度(Velocity):累计梯度形成的方向与幅度。 动量系数:控制历史梯度影响程度。 平滑更新:减少梯度噪声带来的震荡。 A — Algorithm(题目与算法) 用通俗语言说明主题内容 动量可以理解为: 每一步不仅看当前梯度,还看过去的梯度方向。 像滚小球一样,惯性会让它更容易越过浅坑。 基础示例(1) 在狭长“谷地”里,纯 SGD 左右摆动,而动量能沿谷底快速前进。 基础示例(2) 在噪声梯度场景,动量能平均掉噪声,方向更稳定。 实践指南 / 步骤 选择 momentum(常见 0.9)。 如果震荡明显,适当提高动量或降低学习率。 观察训练/验证曲线,确认收敛速度。 可运行示例(最小 PyTorch 动量更新) import torch torch.manual_seed(42) w = torch.tensor([5.0], requires_grad=True) velocity = torch.zeros_like(w) lr = 0.1 mu = 0.9 for _ in range(5): loss = (w - 1.0).pow(2) loss.backward() with torch.no_grad(): velocity = mu * velocity + w.grad w -= lr * velocity w.grad.zero_() print(w.item()) 解释与原理 速度累积让更新方向“更平滑”。 在弯曲损失面上,动量减少横向摆动。 学习率与动量需要联合调参。 C — Concepts(核心思想) 方法类型 动量属于一阶优化增强策略,通过历史梯度平滑更新。 ...

2026年1月24日 · 2 分钟 · map[name:Jeanphilo]

图像自编码是怎么做的:原理、流程与最小实现

副标题 / 摘要 图像自编码通过“编码-解码-重构”学习紧凑表征。本文用 ACERS 框架讲清原理、训练流程与工程应用,并给出最小可运行的 PyTorch 示例。 预计阅读时长:14~18 分钟 标签:autoencoder、image、pytorch SEO 关键词:图像自编码, Autoencoder, 重构 元描述:讲解图像自编码的核心机制与工程场景,含最小示例。 目标读者 想理解自编码器原理的入门读者 需要构建图像表示学习的工程实践者 关注异常检测与去噪应用的开发者 背景 / 动机 标注数据昂贵,但图像数据充足。 自编码器通过“重构输入”学习特征表示,适合无监督或弱监督场景。 在去噪、压缩、异常检测等任务中,自编码器是一条高性价比路径。 核心概念 编码器(Encoder):把图像压缩成低维特征。 解码器(Decoder):从特征重建图像。 重构损失:衡量输入与输出差异(MSE/MAE)。 A — Algorithm(题目与算法) 用通俗语言说明主题内容 图像自编码器的流程很直观: 把图像压缩为低维向量。 用低维向量重建图像。 用重构误差训练模型。 基础示例(1) 去噪自编码:输入带噪图像,输出干净图像。 基础示例(2) 异常检测:正常样本重构误差小,异常样本误差大。 实践指南 / 步骤 选择编码器/解码器结构(CNN 或 MLP)。 设定瓶颈维度(压缩比)。 选择重构损失(MSE/MAE)。 训练后用重构误差评估应用效果。 可运行示例(最小 PyTorch 自编码器) import torch import torch.nn as nn torch.manual_seed(42) class AE(nn.Module): def __init__(self): super().__init__() self.encoder = nn.Sequential( nn.Conv2d(1, 8, 3, stride=2, padding=1), nn.ReLU(), nn.Conv2d(8, 16, 3, stride=2, padding=1), nn.ReLU(), ) self.decoder = nn.Sequential( nn.ConvTranspose2d(16, 8, 4, stride=2, padding=1), nn.ReLU(), nn.ConvTranspose2d(8, 1, 4, stride=2, padding=1), nn.Sigmoid(), ) def forward(self, x): z = self.encoder(x) return self.decoder(z) x = torch.randn(4, 1, 28, 28) model = AE() out = model(x) print(out.shape) 解释与原理 编码器学习“压缩表示”,解码器学习“重构映射”。 重构损失逼近输入分布,从而学习数据结构。 去噪版本在输入端加噪,输出仍对齐原图。 C — Concepts(核心思想) 方法类型 自编码器属于无监督表示学习与生成式重构模型范式。 ...

2026年1月24日 · 2 分钟 · map[name:Jeanphilo]

ViT 结构描述:从 Patch Embedding 到 Transformer 编码器

副标题 / 摘要 ViT 把图像切成 patch 序列,再交给 Transformer 编码器处理。本文用 ACERS 框架拆解 ViT 的核心结构与工程选择,并提供最小可运行的 PyTorch 示例。 预计阅读时长:16~20 分钟 标签:vit、transformer、vision SEO 关键词:ViT, Vision Transformer, Patch Embedding, 图像分类 元描述:系统描述 ViT 架构与工程实践,含最小 PyTorch 示例。 目标读者 想理解 ViT 架构的入门读者 需要做视觉模型选型的工程实践者 想从 CNN 迁移到 Transformer 的开发者 背景 / 动机 CNN 通过局部卷积捕获特征,但长程依赖与全局建模能力有限。 ViT 把图像当成序列,直接用自注意力做全局建模, 在大规模数据预训练下表现非常强。 核心概念 Patch Embedding:将图像切成 patch 并线性投影。 Position Embedding:补充位置信息。 [CLS] Token:聚合全局特征用于分类。 Transformer Encoder:多头自注意力 + FFN 堆叠。 A — Algorithm(题目与算法) 用通俗语言说明主题内容 ViT 的核心流程: 把图像切成固定大小 patch。 每个 patch 拉平成向量并投影成 token。 加上位置编码和 [CLS] token。 送入 Transformer Encoder 得到全局表征。 用 [CLS] token 输出做分类。 基础示例(1) 图像 224x224,patch 16x16 → 196 个 patch + 1 个 [CLS]。 基础示例(2) 只保留编码器,就能做图像分类与检索。 实践指南 / 步骤 选择 patch 大小(8/16/32)。 设置隐藏维度与层数(如 12 层,768 维)。 添加位置编码与 [CLS] token。 训练:优先用预训练权重再微调。 可运行示例(最小 ViT 前向) import torch import torch.nn as nn torch.manual_seed(42) class MiniViT(nn.Module): def __init__(self, img_size=32, patch=8, dim=64, depth=2, heads=4): super().__init__() self.patch = patch self.unfold = nn.Unfold(kernel_size=patch, stride=patch) num_patches = (img_size // patch) ** 2 self.proj = nn.Linear(3 * patch * patch, dim) self.cls = nn.Parameter(torch.zeros(1, 1, dim)) self.pos = nn.Parameter(torch.zeros(1, num_patches + 1, dim)) enc_layer = nn.TransformerEncoderLayer(d_model=dim, nhead=heads, batch_first=True) self.encoder = nn.TransformerEncoder(enc_layer, num_layers=depth) self.head = nn.Linear(dim, 10) def forward(self, x): patches = self.unfold(x).transpose(1, 2) # B, N, patch_dim tokens = self.proj(patches) cls = self.cls.expand(x.size(0), -1, -1) tokens = torch.cat([cls, tokens], dim=1) + self.pos z = self.encoder(tokens) return self.head(z[:, 0]) x = torch.randn(2, 3, 32, 32) model = MiniViT() print(model(x).shape) 解释与原理 patch embedding 把图像变成序列。 self-attention 能在全局范围建模依赖。 [CLS] token 作为全局聚合向量用于分类。 C — Concepts(核心思想) 方法类型 ViT 属于基于注意力的视觉表征模型,用 Transformer Encoder 替代卷积堆叠。 ...

2026年1月24日 · 2 分钟 · map[name:Jeanphilo]

BN 与 Dropout:训练与推理时的关键区别

副标题 / 摘要 BatchNorm 在训练使用 batch 统计、推理使用滑动均值方差;Dropout 训练时随机失活、推理时关闭。本文用 ACERS 框架解释两者差异并给出最小 PyTorch 示例。 预计阅读时长:12~16 分钟 标签:batchnorm、dropout、training SEO 关键词:BatchNorm, Dropout, 训练, 推理 元描述:对比 BN 与 Dropout 在训练与推理阶段的行为与工程取舍。 目标读者 想系统理解 BN/Dropout 差异的入门读者 需要调试训练/推理不一致问题的工程实践者 关注模型稳定性与泛化的开发者 背景 / 动机 很多线上问题来自“训练正常、推理异常”。 BN 与 Dropout 在训练/推理阶段的行为不同,是常见根因。 理解它们的机制差异,能显著减少定位成本。 核心概念 BatchNorm:用 batch 统计归一化特征,并维护 running mean/var。 Dropout:训练时随机失活部分神经元以正则化。 Train/Eval 模式:控制 BN/Dropout 行为的关键开关。 A — Algorithm(题目与算法) 用通俗语言说明主题内容 BN 训练时用当前 batch 的均值与方差;推理时用历史统计。 Dropout 训练时随机丢弃;推理时关闭、输出稳定。 基础示例(1) BN:小 batch 训练可能统计不稳定,推理偏移明显。 基础示例(2) Dropout:训练输出有噪声,推理输出确定。 实践指南 / 步骤 训练时使用 model.train()。 推理时使用 model.eval()。 如果 batch 很小,考虑替代 BN(LayerNorm/GroupNorm)。 可运行示例(最小 PyTorch 对比) import torch import torch.nn as nn torch.manual_seed(42) model = nn.Sequential( nn.Linear(4, 4), nn.BatchNorm1d(4), nn.Dropout(p=0.5), ) x = torch.randn(3, 4) model.train() train_out1 = model(x) train_out2 = model(x) model.eval() eval_out1 = model(x) eval_out2 = model(x) print(torch.allclose(train_out1, train_out2)) # False (Dropout) print(torch.allclose(eval_out1, eval_out2)) # True 解释与原理 BN 在训练中依赖 batch 统计,推理依赖 running 统计。 Dropout 在训练中丢弃神经元以提升泛化,推理关闭以稳定输出。 C — Concepts(核心思想) 方法类型 BN 属于归一化技术,Dropout 属于正则化技术。 ...

2026年1月24日 · 2 分钟 · map[name:Jeanphilo]

BN 与 LN 的区别:训练稳定性与工程取舍

副标题 / 摘要 BatchNorm 利用批内统计稳定训练,LayerNorm 基于单样本统计适配变长序列。本文用 ACERS 框架对比两者原理、场景与取舍,并给出最小 PyTorch 示例。 预计阅读时长:14~18 分钟 标签:batchnorm、layernorm、normalization SEO 关键词:BatchNorm, LayerNorm, 归一化 元描述:系统对比 BN 与 LN 的机制差异、工程成本与适用场景。 目标读者 想理解归一化差异的入门读者 需要在 CNN/Transformer 中做结构选型的工程实践者 关注训练稳定性与推理一致性的开发者 背景 / 动机 归一化是深度学习训练稳定性的核心技术。 BN 在视觉模型中表现优秀,但在 NLP/小批量场景中常不稳定。 LN 则不依赖 batch 大小,成为 Transformer 的默认选择。 核心概念 BatchNorm(BN):按 batch 维度统计均值/方差。 LayerNorm(LN):按特征维度统计均值/方差。 训练/推理差异:BN 需要 running stats,LN 不需要。 A — Algorithm(题目与算法) 用通俗语言说明主题内容 BN:用“整批样本”的统计量做归一化。 LN:用“单个样本”的特征统计量做归一化。 基础示例(1) CNN 大 batch 训练时,BN 统计稳定,收敛更快。 基础示例(2) Transformer 小 batch/变长序列时,LN 更稳定。 实践指南 / 步骤 图像模型 + 大 batch → 首选 BN。 语言模型/小 batch → 首选 LN。 多卡训练 → 评估 SyncBN 或改用 LN。 推理时注意 BN 的 running stats 是否正确。 可运行示例(最小 PyTorch 对比) import torch import torch.nn as nn torch.manual_seed(42) x = torch.randn(4, 8) bn = nn.BatchNorm1d(8) ln = nn.LayerNorm(8) out_bn = bn(x) out_ln = ln(x) print(out_bn.mean(dim=0)) print(out_ln.mean(dim=1)) 解释与原理 BN 使用 batch 统计,训练时依赖 batch size。 LN 使用样本内统计,不依赖 batch。 推理阶段 BN 使用 running mean/var,而 LN 直接使用当前样本。 C — Concepts(核心思想) 方法类型 BN 与 LN 都属于特征归一化,用于稳定训练与改善梯度流。 ...

2026年1月24日 · 2 分钟 · map[name:Jeanphilo]

为什么注意力要除以 √(d_k):从数值稳定到工程收益

副标题 / 摘要 注意力中的缩放项 \u221a(d_k) 不是装饰,而是数值稳定的关键:它控制 QK^T 的方差,避免 softmax 饱和和梯度消失。本文用公式与实验解释其必要性,并给出工程场景建议。 预计阅读时长:12~16 分钟 标签:attention、transformer、scaled-dot-product SEO 关键词:Attention, Scaled Dot-Product, \u221a(d_k) 元描述:解释注意力缩放项的数学动机与工程收益。 目标读者 想理解 Transformer 注意力细节的入门读者 需要排查训练不稳定问题的工程实践者 关注数值稳定性与性能优化的开发者 背景 / 动机 在点积注意力中,维度越大,QK^T 的数值越大,softmax 越容易饱和。 一旦饱和,梯度接近 0,训练会变慢甚至不稳定。 \u221a(d_k) 的缩放项就是为了解决这个问题。 核心概念 点积注意力:$QK^\top$ 衡量相似度。 缩放项 \u221a(d_k):控制相似度的尺度。 softmax 饱和:输入过大导致概率趋近 0/1,梯度变小。 A — Algorithm(题目与算法) 用通俗语言说明主题内容 维度大时,QK^T 变大,softmax 过于“自信”。 缩放 \u221a(d_k) 后,数值回到合理范围,梯度更健康。 基础示例(1) d_k=64 时,如果不缩放,softmax 输出会非常尖锐。 基础示例(2) d_k=512 时,缩放与否会直接影响训练是否稳定。 实践指南 / 步骤 使用标准缩放:$QK^\top / \sqrt{d_k}$。 如果做自定义注意力,先验证 softmax 分布是否过尖锐。 在混合精度训练下,缩放更重要。 可运行示例(缩放与不缩放的对比) import torch import torch.nn.functional as F def attn_scores(d, scale=True): q = torch.randn(1, 1, d) k = torch.randn(1, 8, d) scores = q @ k.transpose(-2, -1) if scale: scores = scores / (d ** 0.5) probs = F.softmax(scores, dim=-1) return probs.max().item(), probs.min().item() for d in [32, 128, 512]: mx_s, mn_s = attn_scores(d, scale=True) mx_u, mn_u = attn_scores(d, scale=False) print(f"d={d} scaled max={mx_s:.3f} min={mn_s:.3f} | unscaled max={mx_u:.3f} min={mn_u:.3f}") 解释与原理 如果 $q_i, k_i \sim \mathcal{N}(0, 1)$, ...

2026年1月24日 · 2 分钟 · map[name:Jeanphilo]