Seq2seq

Attention-Based Seq2Seq：为什么会自然过渡到 Transformer

副标题 / 摘要这篇文章专门解释一个关键过渡：为什么 fixed-length 的 seq2seq 很快会不够用，attention-based seq2seq 是怎么补上“按需读取源序列”这个能力的，以及这个思路为什么几乎会自然长成 Transformer。最后会收束到一份最小可运行的 PyTorch GRU + additive attention 实现。从“苹果”为什么老翻不准开始还是用这个最小翻译任务： src: <bos> I really love green apples <eos> tgt: <bos> 我真的喜欢青苹果 <eos> 当 decoder 走到要生成“苹果”这一步时，最理想的行为其实很明确：它应该重点回头看源序列里的 apples 它可能顺手也看一眼 green 它不能只依赖一个已经被反复压缩过很多轮的最终隐藏状态如果你用上一篇里那个最小 seq2seq： encoder 把整句读完只把最后一个 hidden_enc 交给 decoder decoder 后面每一步都只靠这个固定长度状态和自己的历史那么句子一长，这里就会出现一个很具体的问题： decoder 明明需要“现在按需去看源序列的某几个位置”，但 fixed-length seq2seq 只给了它“一次性打包好的整句摘要”。这就是 attention-based seq2seq 出现的真实压力。它不是为了“概念更高级”，而是因为 decoder 在每个时间步都需要重新决定自己该看源序列的哪里。快速掌握地图 fixed-length seq2seq：encoder outputs -> 丢弃大部分，只保留 final hidden attention-based seq2seq：decoder step t -> 对所有 encoder outputs 打分 -> 加权求和得到 context_t 核心收益：不同目标位置可以读取不同源位置仍然存在的限制：encoder 和 decoder 还是循环结构，时间上依然串行通向 Transformer 的关键桥：decoder state 作为 query，encoder outputs 作为 memory 这篇文章重点深挖的两个概念对齐分数与上下文向量：decoder 怎样在每一步决定“该看源序列哪里” 从 attention-based seq2seq 到 Transformer 的结构映射：哪些东西被保留了，哪些东西被替换了大师级心智模型 fixed-length seq2seq 的核心假设是： ...

Seq2Seq 与 Encoder-Decoder：从翻译任务到最小可运行 PyTorch 实现

副标题 / 摘要这篇文章不把 seq2seq 和 encoder-decoder 当成术语表来讲，而是从一个最小翻译任务出发，解释为什么“输入一段序列、输出另一段序列”会自然逼出编码器和解码器的分工，最后收束成一份最小可运行的 PyTorch GRU 实现。从一个最小翻译任务开始假设源序列是： <bos> I love apples <eos> 目标序列是： <bos> 我喜欢苹果 <eos> 当模型要生成“苹果”时，它至少要解决三件事：它必须知道整句英文大意，而不只是当前一个词它必须记住自己前面已经生成了“我喜欢” 它必须按顺序一个词一个词地产生输出，而不是一次吐出整个目标序列如果你只用一个普通分类器把源句子映射成一个类别，这个任务做不成。因为这里的输出不是一个固定标签，而是长度可变的目标序列。所以这里天然会逼出一个更具体的数据流：先把源序列读完，压成可传递的状态再从 <bos> 开始，逐步生成目标序列每生成一步，都要同时依赖“源侧信息”和“目标侧历史” 这就是 sequence-to-sequence 的最小问题形态。 seq2seq 说的是任务：输入一段序列，输出另一段序列。 encoder-decoder 说的是实现：先编码输入，再逐步解码输出。下面不先堆名词，直接按这个压力把代码一步一步长出来。快速掌握地图问题形态：src -> encoder -> hidden/context -> decoder -> logits 核心目标：学习条件概率 p(y_t | y_{<t}, x) 最小实现：Embedding + GRU Encoder + GRU Decoder + output projection 何时适用：翻译、摘要、改写、问答这类“输入序列 -> 输出序列”任务明显局限：如果所有源信息都被压进一个固定长度向量，长句子会吃力这篇文章重点深挖的两个概念隐藏状态交接：encoder 到底把什么交给 decoder 右移目标序列与 teacher forcing：训练时 decoder 为什么不能直接喂完整真实答案大师级心智模型这类模型的核心抽象不是“两个 RNN 拼起来”，而是： ...

Attention Is All You Need：Transformer 的核心算法与工程落地

系统解释 Attention Is All You Need 的核心算法：自注意力、多头、位置编码与编码器-解码器结构，给出可运行示例与工程取舍。