AI | Jeanphilo Blog

Attention Is All You Need：Transformer 的核心算法与工程落地

系统解释 Attention Is All You Need 的核心算法：自注意力、多头、位置编码与编码器-解码器结构，给出可运行示例与工程取舍。

FlashAttention 的 MQA/GQA：共享 KV 的等价、收益与实现要点（含可运行验证）

解释 FlashAttention 在 MQA/GQA 下如何利用共享 KV：从数学等价（复制 KV）到工程收益（KV cache 与带宽），并给出可运行代码验证。

FlashAttention 为什么能 one-pass：在线 softmax（m/l）与 Tiling 的核心思想

从标准注意力的显存 IO 账本出发，解释 FlashAttention 的核心：在线 softmax 维护 (m,l) 并流式累积输出，再配合 tiling 把数据驻留在片上存储，从而避免显式存储 $QK^\top$ 与 softmax 概率矩阵。本文给出可运行的 Numpy 分块注意力实现与数值等价验证，并用可复制的字节算账方法说明它为什么会快。

Softmax 工程实现与 GPU 访存优化：在线更新、融合与带宽算账（含可运行验证）

从标准两遍 softmax 的访存模式出发，推导在线 softmax（m,l）更新与正确性；进一步解释在 attention/cross-entropy 中如何通过融合避免落地概率矩阵，并用可运行代码验证等价与估算带宽收益。

Self-Attention 计算公式与 Softmax 数值稳定：从推导到工程实现

副标题 / 摘要 Self-Attention 的公式很短，但工程细节很长：从 Q/K/V 计算到 softmax 数值稳定、mask 与缩放，每一步都影响效果与性能。本文用 ACERS 结构给出推导、实践步骤与可运行示例。预计阅读时长：12~16 分钟标签：attention、transformer、softmax SEO 关键词：Self-Attention, Softmax, Scaled Dot-Product, 数值稳定元描述：Self-Attention 的计算公式与 softmax 稳定实现方法，含工程实践与示例代码。目标读者想真正理解 Self-Attention 公式含义的学习者需要处理训练不稳定/溢出的工程实践者关注注意力数值稳定与实现细节的开发者背景 / 动机在 Transformer 中，Self-Attention 是计算量最大、数值最敏感的模块之一。很多训练不稳定、输出 NaN 的问题，都来自 softmax 的溢出/下溢或 mask 的错误处理。理解公式与稳定实现，可以显著减少工程“踩坑”。核心概念 Q/K/V：查询、键和值，来自输入线性投影缩放点积注意力：$\text{softmax}(QK^\top/\sqrt{d_k})V$ 数值稳定：通过减去行最大值避免 softmax 溢出思路推导（从朴素到稳定实现）朴素做法先算所有相似度 $S = QK^\top$，再做 softmax 得到权重 $P$，最后 $O = PV$。这个实现最直观，但当 $S$ 很大时会出现 exp 溢出。关键观察 softmax 对每行同时加上或减去一个常数不改变输出： $\text{softmax}(x) = \text{softmax}(x - \max(x))$。 ...

单阶段 vs 双阶段目标检测：从候选集合到 NMS 的工程算账

从工程视角系统对比 one-stage 与 two-stage 检测：把它们统一成‘生成候选→打分→去重’的流程，然后用可复制的数字（anchors 数量、top-k、NMS 最坏复杂度）解释速度差异，并用 focal loss vs 采样策略解释训练差异。文末提供纯 NumPy 可运行的 NMS 与候选规模算账代码，帮助你做选型与排查。

Anchor-Based vs Anchor-Free：目标检测两条路线

副标题 / 摘要 Anchor-based 依赖预设锚框，Anchor-free 直接预测中心或边界。本文用 ACERS 框架对比两条路线的原理、优缺点与工程实践。预计阅读时长：15~18 分钟标签：object-detection、anchor-based、anchor-free SEO 关键词：Anchor-Based, Anchor-Free, 目标检测元描述：系统对比 anchor-based 与 anchor-free 的核心差异与工程取舍。目标读者想理解检测框架差异的初学者需要做检测模型选型的工程实践者关注推理速度与精度权衡的开发者背景 / 动机目标检测发展出了两条主路线：一条是预设锚框（anchor-based），一条是直接预测（anchor-free）。理解它们的本质差异，有助于工程选型与调参策略。核心概念 Anchor：预设的候选框模板。 Anchor-based：预测 anchor 的偏移与类别。 Anchor-free：直接预测中心点/边界或关键点。正负样本分配：训练时匹配策略不同。 A — Algorithm（题目与算法）用通俗语言说明主题内容 Anchor-based：先铺满锚框，再回归偏移。 Anchor-free：不需要锚框，直接预测目标位置。基础示例（1） Faster R-CNN/YOLOv2：典型 anchor-based。基础示例（2） FCOS/CenterNet：典型 anchor-free。实践指南 / 步骤数据集目标尺度多样 → anchor-based 更稳。追求简化后处理 → anchor-free 更简洁。先做小规模对比实验，再决定路线。可运行示例（最小框编码示意） import torch # anchor-based: 预测偏移 anchor = torch.tensor([10.0, 10.0, 50.0, 50.0]) target = torch.tensor([12.0, 14.0, 52.0, 56.0]) delta = target - anchor print(delta) # anchor-free: 直接预测中心与宽高 center = torch.tensor([(target[0]+target[2])/2, (target[1]+target[3])/2]) wh = torch.tensor([target[2]-target[0], target[3]-target[1]]) print(center, wh) 解释与原理 Anchor-based 需要精心设计 anchor 尺度与比例。 Anchor-free 省掉 anchor 设计，但依赖中心点分配策略。 C — Concepts（核心思想）方法类型 Anchor-based 与 anchor-free 都属于密集检测框架，差异在于候选框设计。 ...

IoU 是什么：目标检测评估的核心指标

副标题 / 摘要 IoU（Intersection over Union）衡量两个边界框的重叠程度，是目标检测评估的核心指标。本文用 ACERS 框架拆解公式、计算步骤与工程应用。预计阅读时长：12~16 分钟标签：iou、object-detection、bbox SEO 关键词：IoU, 交并比, 目标检测, BBox 元描述：讲清 IoU 的计算方法、阈值含义与工程实践。目标读者想快速理解 IoU 公式与计算的入门读者需要调试检测指标的工程实践者关注视觉评估标准的开发者背景 / 动机目标检测不仅要“找对类别”，还要“框得准确”。 IoU 是衡量框是否准确的标准指标，直接影响 AP、mAP 等评估结果。理解 IoU 的定义与阈值意义，是检测工程的基本功。核心概念 BBox（边界框）：用 (x1, y1, x2, y2) 表示左上与右下坐标。交集面积：两个框重叠部分的面积。并集面积：两个框面积之和减去交集。 A — Algorithm（题目与算法）用通俗语言说明主题内容 IoU 就是“重叠面积 / 总面积”。重叠越大，IoU 越接近 1；完全不相交则为 0。基础示例（1）框 A：[(0,0),(2,2)] 框 B：[(1,1),(3,3)] 交集面积 = 1，A 面积 = 4，B 面积 = 4 → IoU = 1 / (4 + 4 - 1) = 1/7。基础示例（2） IoU ≥ 0.5 → 常视为检测正确（TP）。 IoU ≥ 0.75 → 更严格的高质量检测。实践指南 / 步骤计算交集框坐标。得到交集面积。计算两框面积。交并比 = 交集 / 并集。可运行示例（最小 IoU 计算） def iou(box1, box2): x1 = max(box1[0], box2[0]) y1 = max(box1[1], box2[1]) x2 = min(box1[2], box2[2]) y2 = min(box1[3], box2[3]) inter_w = max(0, x2 - x1) inter_h = max(0, y2 - y1) inter = inter_w * inter_h area1 = (box1[2] - box1[0]) * (box1[3] - box1[1]) area2 = (box2[2] - box2[0]) * (box2[3] - box2[1]) union = area1 + area2 - inter return inter / union if union > 0 else 0.0 box_a = (0, 0, 2, 2) box_b = (1, 1, 3, 3) print(iou(box_a, box_b)) 解释与原理 IoU 是一个归一化指标，与尺度无关。交集为 0 时，IoU 为 0。在训练时常用 IoU 作为正负样本匹配标准。 C — Concepts（核心思想）方法类型 IoU 属于几何评估指标，用于衡量两个区域的重叠程度。 ...

空洞卷积（Dilated Convolution）：扩大感受野的工程利器

副标题 / 摘要空洞卷积通过插入“空洞”扩大感受野，在不显著增加参数的情况下捕获长距离上下文。本文按 ACERS 结构解析原理、复杂度与工程场景，并提供最小可运行示例。预计阅读时长：14~18 分钟标签：dilated-convolution、segmentation、vision SEO 关键词：空洞卷积, Dilated Convolution, Atrous 元描述：解释空洞卷积的原理、复杂度与工程应用，含最小示例。目标读者想理解感受野扩大策略的入门读者从事语义分割、时序建模的工程实践者需要在算力与效果间权衡的开发者背景 / 动机传统卷积增大感受野通常靠加深网络或增大核尺寸，但这会带来更多参数与计算。空洞卷积用“稀疏采样”的方式扩大感受野，是更高效的替代方案。核心概念空洞率（dilation）：卷积核元素之间的间隔。感受野：输出特征与输入区域的覆盖范围。稀疏采样：在输入上跳步取样。 A — Algorithm（题目与算法）用通俗语言说明主题内容空洞卷积就是“把卷积核撑开”，让核的元素之间有空洞，从而覆盖更大的输入范围。基础示例（1） 3x3 卷积，dilation=2 → 覆盖 5x5 的感受野。基础示例（2）不增加参数数量，但能捕捉更大上下文。实践指南 / 步骤选择基础卷积核（如 3x3）。设置 dilation（常用 2、4、8）。观察感受野与特征分辨率变化。避免过大 dilation 导致“栅格效应”。可运行示例（最小 PyTorch 空洞卷积） import torch import torch.nn as nn x = torch.randn(1, 3, 32, 32) conv = nn.Conv2d(3, 8, kernel_size=3, dilation=2, padding=2) out = conv(x) print(out.shape) 解释与原理有效感受野：k_eff = k + (k-1) * (d-1)。参数量与标准卷积相同，计算量近似不变。 C — Concepts（核心思想）方法类型空洞卷积属于扩大感受野的卷积变体，常用于分割与时序模型。 ...

NMS 描述：非极大值抑制的原理与工程实践

副标题 / 摘要 NMS（Non-Maximum Suppression）是目标检测后处理的核心步骤。本文用 ACERS 框架拆解 NMS 的原理、流程与工程实践，并提供可运行的 PyTorch 示例。预计阅读时长：14~18 分钟标签：nms、object-detection、iou SEO 关键词：NMS, 非极大值抑制, IoU, 目标检测元描述：讲清 NMS 的核心算法、复杂度与工程取舍。目标读者想理解目标检测后处理的初学者需要调参 IoU 阈值的工程实践者关注推理速度与精度平衡的开发者背景 / 动机检测模型通常会输出多个重叠框。如果不做抑制，会出现“同一目标被重复检测”。 NMS 用最简单的规则实现去重，是工业界的标准方案。核心概念 IoU（Intersection over Union）：衡量两个框重叠程度。 score：置信度分数，决定优先保留的框。阈值：IoU 超过阈值则抑制。 A — Algorithm（题目与算法）用通俗语言说明主题内容 NMS 的逻辑很直观：选出最高分的框。删除与它重叠度过高的框。重复直到没有框。基础示例（1）两个高度重叠的人脸框，只保留分数更高的一个。基础示例（2）多个类别的检测结果，先按类别分开再做 NMS（class-wise）。实践指南 / 步骤对检测框按 score 排序。取最高分框作为保留结果。计算 IoU，过滤高重叠框。重复直到框集合为空。可运行示例（最小 PyTorch NMS） import torch def iou(box, boxes): x1 = torch.maximum(box[0], boxes[:, 0]) y1 = torch.maximum(box[1], boxes[:, 1]) x2 = torch.minimum(box[2], boxes[:, 2]) y2 = torch.minimum(box[3], boxes[:, 3]) inter = torch.clamp(x2 - x1, min=0) * torch.clamp(y2 - y1, min=0) area1 = (box[2] - box[0]) * (box[3] - box[1]) area2 = (boxes[:, 2] - boxes[:, 0]) * (boxes[:, 3] - boxes[:, 1]) union = area1 + area2 - inter return inter / (union + 1e-6) def nms(boxes, scores, thresh=0.5): idx = scores.argsort(descending=True) keep = [] while idx.numel() > 0: i = idx[0] keep.append(i.item()) if idx.numel() == 1: break rest = idx[1:] ious = iou(boxes[i], boxes[rest]) idx = rest[ious <= thresh] return keep boxes = torch.tensor([ [0.0, 0.0, 1.0, 1.0], [0.1, 0.1, 1.1, 1.1], [2.0, 2.0, 3.0, 3.0], ]) scores = torch.tensor([0.9, 0.8, 0.7]) print(nms(boxes, scores, thresh=0.5)) 解释与原理 NMS 的核心是“先保留最可信框”。 IoU 阈值越大，保留框越多；越小，抑制越强。 C — Concepts（核心思想）方法类型 NMS 属于后处理过滤算法，用局部贪心策略去重。 ...