Attention Is All You Need:Transformer 的核心算法与工程落地系统解释 Attention Is All You Need 的核心算法:自注意力、多头、位置编码与编码器-解码器结构,给出可运行示例与工程取舍。