Seq2Seq 与 Encoder-Decoder：从翻译任务到最小可运行 PyTorch 实现

Thu, 23 Apr 2026 15:27:55 +0800

副标题 / 摘要 这篇文章不把 seq2seq 和 encoder-decoder 当成术语表来讲，而是从一个最小翻译任务出发，解释为什么“输入一段序列、输出另一段序列”会自然逼出编码器和解码器的分工，最后收束成一份最小可运行的 PyTorch GRU 实现。

从一个最小翻译任务开始

假设源序列是：

<bos> I love apples <eos>

目标序列是：

<bos> 我 喜欢 苹果 <eos>

当模型要生成“苹果”时，它至少要解决三件事：

如果你只用一个普通分类器把源句子映射成一个类别，这个任务做不成。因为这里的输出不是一个固定标签，而是长度可变的目标序列。

所以这里天然会逼出一个更具体的数据流：

这就是 sequence-to-sequence 的最小问题形态。 seq2seq 说的是任务：输入一段序列，输出另一段序列。 encoder-decoder 说的是实现：先编码输入，再逐步解码输出。

下面不先堆名词，直接按这个压力把代码一步一步长出来。

这类模型的核心抽象不是“两个 RNN 拼起来”，而是：