Self-Attention vs Cross-Attention:机制、差异与工程应用

副标题 / 摘要 Self-attention 在同一序列内建模元素关系,Cross-attention 在两个序列之间做对齐。本文用公式、示例与最小可运行代码解释两者差异,并给出工程场景建议。 预计阅读时长:14~18 分钟 标签:attention、self-attention、cross-attention SEO 关键词:Self-Attention, Cross-Attention, 注意力机制, Transformer 元描述:系统对比 self-attention 与 cross-attention 的机制差异与应用场景。 目标读者 想理解 Transformer 关键机制的入门读者 需要区分编码器/解码器注意力的工程实践者 从事多模态应用、关注对齐策略的开发者 背景 / 动机 注意力机制是 Transformer 的核心。 但很多工程误用来自于“分不清 self 和 cross”。 理解两者的计算图和适用场景,能直接减少模型设计与性能调优的试错成本。 核心概念 Query / Key / Value(Q/K/V):注意力的三元组。 Self-attention:Q、K、V 来自同一序列。 Cross-attention:Q 来自目标序列,K、V 来自源序列。 对齐(Alignment):跨序列的语义匹配。 A — Algorithm(题目与算法) 用通俗语言说明主题内容 Self-attention:自己“看自己”,适合建模序列内部依赖。 Cross-attention:一个序列“看另一个序列”,适合对齐或条件生成。 基础示例(1) 机器翻译的解码器在生成当前词时,需要关注源语言句子 → cross-attention。 基础示例(2) 语言模型内部每个 token 关注上下文 → self-attention。 实践指南 / 步骤 明确是否需要跨序列对齐:是 → cross-attention。 仅建模单序列依赖:用 self-attention。 组合使用:编码器 self-attn + 解码器 self-attn + 交叉注意力。 可运行示例(最小注意力计算) import torch import torch.nn.functional as F def attention(q, k, v): scores = q @ k.transpose(-2, -1) / (q.size(-1) ** 0.5) weights = F.softmax(scores, dim=-1) return weights @ v # Self-attention: Q/K/V 同源 x = torch.randn(2, 4, 8) # batch, seq, dim self_out = attention(x, x, x) print(self_out.shape) # Cross-attention: Q 来自目标序列, K/V 来自源序列 q = torch.randn(2, 3, 8) kv = torch.randn(2, 5, 8) cross_out = attention(q, kv, kv) print(cross_out.shape) 解释与原理 Self-attention 输出与输入序列长度一致。 Cross-attention 输出长度与 Query 序列一致。 在编码器-解码器结构中,cross-attn 是桥梁。 C — Concepts(核心思想) 方法类型 Self-attention 属于序列内部建模,cross-attention 属于跨序列对齐。 ...

2026年1月24日 · 2 分钟 · map[name:Jeanphilo]