Transformer 结构推导:一步一步搭出最小可运行 PyTorch 实现

副标题 / 摘要 这篇文章不把 Transformer 当成一个现成黑盒来介绍,而是直接从一个最小翻译任务开始,让需要的结构一层一层长出来,最后收束成一份最小可运行的 PyTorch encoder-decoder Transformer。 从一个最小翻译任务开始 假设源序列是: <bos> I love apples <eos> 目标序列是: <bos> 我 喜欢 苹果 当模型要生成“苹果”时: 它不能看目标序列里未来还没生成的位置 它需要重点读取源序列中的 apples 它可能还需要参考前面的“我 喜欢”来决定当前词 所以这里天然会逼出三件事: 目标侧必须有因果约束 源侧和目标侧都需要全局读取 解码器不仅要读自己,还要读编码器输出 RNN 和 CNN 也能处理序列,但它们在长距离依赖和全并行训练上都有明显限制。 所以这里真正要解决的,不只是“做一个更深的网络”,而是让任意位置能直接交互,并且显式控制信息流方向。 下面开始按这个压力一步一步长代码。 Step 1:先有输入表示,但先不谈注意力 先看一个已经分词并编号后的最小输入: <bos> I love apples <eos> -> [1, 15, 982, 204, 2] 这里的 1, 15, 982, 204, 2 还不是模型已经理解后的表示。 它们只是词表里的编号,作用更接近“标签”或“学号”: 15 比 204 小,不代表它们语义上更接近 直接拿这种离散编号去做线性变换或点积,含义也不对 所以第一步只解决一个更具体的问题: 怎样把“词表编号”变成“模型后面可以继续计算的一组连续数值”? 这里再引入两个词: token id:分词后查词表得到的离散编号 embedding:把每个离散编号映射成长度为 d_model 的可学习向量 先写最小版,不额外引入别的机制: ...

2026年4月23日 · 10 分钟 · map[name:Jeanphilo]

Attention Is All You Need:Transformer 的核心算法与工程落地

系统解释 Attention Is All You Need 的核心算法:自注意力、多头、位置编码与编码器-解码器结构,给出可运行示例与工程取舍。

2026年1月25日 · 8 分钟 · map[name:Jeanphilo]

为什么使用多头注意力机制:能力、稳定性与工程取舍

副标题 / 摘要 多头注意力并不是“多次重复”,而是让模型在不同子空间中同时关注不同关系。本文从原理、复杂度与工程场景出发解释其必要性,并给出最小 PyTorch 示例。 预计阅读时长:14~18 分钟 标签:multi-head-attention、attention、transformer SEO 关键词:多头注意力, Multi-Head Attention, Transformer 元描述:系统解释多头注意力机制的优势与工程取舍,含最小示例。 目标读者 想理解 Transformer 关键设计的入门读者 需要做模型结构选型的工程实践者 关注注意力可解释性与效率的开发者 背景 / 动机 单头注意力只能在一个投影空间里“看关系”。 而自然语言/多模态里存在多种关系(语法、语义、位置、对齐)。 多头注意力让模型并行捕捉多种关系,提高表达能力与泛化。 核心概念 Head(注意力头):一个独立的注意力子空间。 子空间投影:每个头有独立的 Q/K/V 线性投影。 拼接与映射:多个头输出拼接后再线性映射回模型维度。 A — Algorithm(题目与算法) 用通俗语言说明主题内容 单头注意力像“单一视角”。 多头注意力像“多视角协作”,同时关注不同关系。 基础示例(1) 机器翻译中,一个头关注语法对齐,另一个头关注实体对齐。 基础示例(2) 同一序列中,一个头关注局部邻近词,另一个头关注长距离依赖。 实践指南 / 步骤 选择头数 h,保持 d_model % h == 0。 每个头在子空间 d_head = d_model / h 中计算注意力。 拼接各头输出,线性投影回 d_model。 观察注意力分布是否更丰富。 可运行示例(最小多头注意力) import torch import torch.nn as nn torch.manual_seed(42) mha = nn.MultiheadAttention(embed_dim=32, num_heads=4, batch_first=True) x = torch.randn(2, 5, 32) attn_out, attn_weights = mha(x, x, x) print(attn_out.shape) print(attn_weights.shape) 解释与原理 每个头在不同线性子空间建模关系。 多头输出拼接后,模型获得更丰富的特征组合。 这使得同一层能同时学习多种依赖模式。 C — Concepts(核心思想) 方法类型 多头注意力属于并行子空间注意力建模范式。 ...

2026年1月24日 · 2 分钟 · map[name:Jeanphilo]

Self-Attention vs Cross-Attention:机制、差异与工程应用

副标题 / 摘要 Self-attention 在同一序列内建模元素关系,Cross-attention 在两个序列之间做对齐。本文用公式、示例与最小可运行代码解释两者差异,并给出工程场景建议。 预计阅读时长:14~18 分钟 标签:attention、self-attention、cross-attention SEO 关键词:Self-Attention, Cross-Attention, 注意力机制, Transformer 元描述:系统对比 self-attention 与 cross-attention 的机制差异与应用场景。 目标读者 想理解 Transformer 关键机制的入门读者 需要区分编码器/解码器注意力的工程实践者 从事多模态应用、关注对齐策略的开发者 背景 / 动机 注意力机制是 Transformer 的核心。 但很多工程误用来自于“分不清 self 和 cross”。 理解两者的计算图和适用场景,能直接减少模型设计与性能调优的试错成本。 核心概念 Query / Key / Value(Q/K/V):注意力的三元组。 Self-attention:Q、K、V 来自同一序列。 Cross-attention:Q 来自目标序列,K、V 来自源序列。 对齐(Alignment):跨序列的语义匹配。 A — Algorithm(题目与算法) 用通俗语言说明主题内容 Self-attention:自己“看自己”,适合建模序列内部依赖。 Cross-attention:一个序列“看另一个序列”,适合对齐或条件生成。 基础示例(1) 机器翻译的解码器在生成当前词时,需要关注源语言句子 → cross-attention。 基础示例(2) 语言模型内部每个 token 关注上下文 → self-attention。 实践指南 / 步骤 明确是否需要跨序列对齐:是 → cross-attention。 仅建模单序列依赖:用 self-attention。 组合使用:编码器 self-attn + 解码器 self-attn + 交叉注意力。 可运行示例(最小注意力计算) import torch import torch.nn.functional as F def attention(q, k, v): scores = q @ k.transpose(-2, -1) / (q.size(-1) ** 0.5) weights = F.softmax(scores, dim=-1) return weights @ v # Self-attention: Q/K/V 同源 x = torch.randn(2, 4, 8) # batch, seq, dim self_out = attention(x, x, x) print(self_out.shape) # Cross-attention: Q 来自目标序列, K/V 来自源序列 q = torch.randn(2, 3, 8) kv = torch.randn(2, 5, 8) cross_out = attention(q, kv, kv) print(cross_out.shape) 解释与原理 Self-attention 输出与输入序列长度一致。 Cross-attention 输出长度与 Query 序列一致。 在编码器-解码器结构中,cross-attn 是桥梁。 C — Concepts(核心思想) 方法类型 Self-attention 属于序列内部建模,cross-attention 属于跨序列对齐。 ...

2026年1月24日 · 2 分钟 · map[name:Jeanphilo]