16.3.2 学习语言模型:解码器和掩码多头注意力