15.3 TensorFlow 构建 Transformer 模型

TensorFlow构建Transformer模型：从多头注意力到完整实现

TensorFlow 中文手册

本章节详细介绍如何使用TensorFlow的MultiHeadAttention层和自定义编码器/解码器层构建Transformer模型，适合初学者学习，提供简单易懂的步骤和代码示例。

使用TensorFlow构建Transformer模型

在本章中，我们将学习如何使用TensorFlow的高级功能来构建Transformer模型，重点关注多头注意力层、自定义编码器和解码器层的实现，以及整体模型的拼接。内容适合深度学习新手，结合代码示例逐步讲解。

什么是Transformer模型？

Transformer是一种基于注意力机制的神经网络架构，广泛用于自然语言处理任务，如机器翻译和文本生成。它摒弃了传统的循环神经网络（RNN），依赖自注意力机制并行处理序列数据，提高了训练效率和性能。

多头注意力层（tf.keras.layers.MultiHeadAttention）

多头注意力是Transformer的核心，它允许模型同时关注输入序列的不同部分。在TensorFlow中，我们可以使用tf.keras.layers.MultiHeadAttention层轻松实现多头注意力。

如何设置和使用

MultiHeadAttention层需要指定注意力头的数量（num_heads）和每个头的维度（如key_dim、value_dim）。通常，我们用它处理查询（query）、键（key）和值（value）张量。

示例代码：

import tensorflow as tf

# 定义一个多头注意力层
multi_head_attention = tf.keras.layers.MultiHeadAttention(
    num_heads=8,  # 设置8个注意力头
    key_dim=64,   # 每个头的键维度为64
    dropout=0.1   # dropout率0.1，防止过拟合
)

# 创建示例输入张量：形状为(batch_size, sequence_length, embedding_dim)
query = tf.random.normal(shape=(2, 10, 512))  # 批量大小2，序列长度10，嵌入维度512
key = tf.random.normal(shape=(2, 10, 512))
value = tf.random.normal(shape=(2, 10, 512))

# 应用多头注意力层
attention_output = multi_head_attention(query, key, value)
print("注意力输出形状:", attention_output.shape)  # 输出应保持query的形状(2, 10, 512)

在Transformer中，多头注意力用于编码器的自注意力和解码器的自注意力与编码器-解码器注意力。

自定义编码器层

编码器层通常包括多头自注意力、前馈网络、残差连接和层归一化。我们可以继承tf.keras.layers.Layer类来自定义编码器层。

构建步骤

继承tf.keras.layers.Layer并初始化子层。
实现call方法进行前向传播。

示例代码：

class EncoderLayer(tf.keras.layers.Layer):
    def __init__(self, d_model, num_heads, dff, dropout_rate=0.1):
        super(EncoderLayer, self).__init__()
        self.d_model = d_model  # 模型维度
        self.num_heads = num_heads  # 注意力头数量
        self.dff = dff  # 前馈网络内部维度
        
        # 定义子层
        self.mha = tf.keras.layers.MultiHeadAttention(num_heads=num_heads, key_dim=d_model)
        self.ffn = tf.keras.Sequential([
            tf.keras.layers.Dense(dff, activation='relu'),  # 前馈网络第一层
            tf.keras.layers.Dense(d_model)  # 前馈网络第二层，输出与输入维度相同
        ])
        self.layernorm1 = tf.keras.layers.LayerNormalization(epsilon=1e-6)
        self.layernorm2 = tf.keras.layers.LayerNormalization(epsilon=1e-6)
        self.dropout1 = tf.keras.layers.Dropout(dropout_rate)
        self.dropout2 = tf.keras.layers.Dropout(dropout_rate)
    
    def call(self, x, training, mask=None):
        # 多头自注意力部分
        attn_output = self.mha(query=x, key=x, value=x, attention_mask=mask)
        attn_output = self.dropout1(attn_output, training=training)  # 在训练时应用dropout
        out1 = self.layernorm1(x + attn_output)  # 残差连接和层归一化
        
        # 前馈网络部分
        ffn_output = self.ffn(out1)
        ffn_output = self.dropout2(ffn_output, training=training)
        out2 = self.layernorm2(out1 + ffn_output)  # 另一个残差连接和层归一化
        
        return out2

自定义解码器层

解码器层结构类似编码器，但添加了编码器-解码器注意力层，以处理编码器的输出。

构建步骤

继承tf.keras.layers.Layer，初始化两个多头注意力层：一个用于自注意力，一个用于编码器-解码器注意力。
在call方法中处理各种掩码（如填充掩码和前瞻掩码）。

示例代码：

class DecoderLayer(tf.keras.layers.Layer):
    def __init__(self, d_model, num_heads, dff, dropout_rate=0.1):
        super(DecoderLayer, self).__init__()
        self.d_model = d_model
        self.num_heads = num_heads
        self.dff = dff
        
        # 定义子层
        self.mha1 = tf.keras.layers.MultiHeadAttention(num_heads=num_heads, key_dim=d_model)  # 自注意力
        self.mha2 = tf.keras.layers.MultiHeadAttention(num_heads=num_heads, key_dim=d_model)  # 编码器-解码器注意力
        self.ffn = tf.keras.Sequential([
            tf.keras.layers.Dense(dff, activation='relu'),
            tf.keras.layers.Dense(d_model)
        ])
        self.layernorm1 = tf.keras.layers.LayerNormalization(epsilon=1e-6)
        self.layernorm2 = tf.keras.layers.LayerNormalization(epsilon=1e-6)
        self.layernorm3 = tf.keras.layers.LayerNormalization(epsilon=1e-6)
        self.dropout1 = tf.keras.layers.Dropout(dropout_rate)
        self.dropout2 = tf.keras.layers.Dropout(dropout_rate)
        self.dropout3 = tf.keras.layers.Dropout(dropout_rate)
    
    def call(self, x, enc_output, training, look_ahead_mask, padding_mask):
        # 自注意力（处理目标序列，使用前瞻掩码防止未来信息泄漏）
        attn1 = self.mha1(query=x, key=x, value=x, attention_mask=look_ahead_mask)
        attn1 = self.dropout1(attn1, training=training)
        out1 = self.layernorm1(x + attn1)
        
        # 编码器-解码器注意力（将编码器输出作为键和值，使用填充掩码）
        attn2 = self.mha2(query=out1, key=enc_output, value=enc_output, attention_mask=padding_mask)
        attn2 = self.dropout2(attn2, training=training)
        out2 = self.layernorm2(out1 + attn2)
        
        # 前馈网络
        ffn_output = self.ffn(out2)
        ffn_output = self.dropout3(ffn_output, training=training)
        out3 = self.layernorm3(out2 + ffn_output)
        
        return out3

Transformer模型的整体拼接

现在，我们将多个编码器和解码器层组合起来，添加必要的组件（如嵌入层和位置编码），以构建完整的Transformer模型。

构建步骤

定义输入和输出层。
添加词嵌入和位置编码（本章简化，实际应用中需实现）。
使用tf.keras.Sequential或循环堆叠编码器和解码器层。
添加最终输出层（如全连接层和softmax激活）。

示例代码：

class Transformer(tf.keras.Model):
    def __init__(self, num_layers, d_model, num_heads, dff, input_vocab_size, target_vocab_size, dropout_rate=0.1):
        super(Transformer, self).__init__()
        # 使用Sequential堆叠多个编码器层
        self.encoder = tf.keras.Sequential([
            EncoderLayer(d_model, num_heads, dff, dropout_rate) for _ in range(num_layers)
        ])
        # 使用Sequential堆叠多个解码器层
        self.decoder = tf.keras.Sequential([
            DecoderLayer(d_model, num_heads, dff, dropout_rate) for _ in range(num_layers)
        ])
        # 最终输出层，将解码器输出映射到目标词汇表大小
        self.final_layer = tf.keras.layers.Dense(target_vocab_size)
        
        # 为了简化，省略了嵌入层和位置编码的详细实现；在实际模型中，需要添加
        # self.embedding = tf.keras.layers.Embedding(input_vocab_size, d_model)
        # self.positional_encoding = ...  # 实现位置编码
    
    def call(self, inp, tar, training, enc_padding_mask, look_ahead_mask, dec_padding_mask):
        # 假设输入和tar已经通过嵌入和位置编码处理
        # 编码器部分
        enc_output = self.encoder(inp, training=training, mask=enc_padding_mask)
        
        # 解码器部分
        dec_output = self.decoder(tar, enc_output, training=training, look_ahead_mask=look_ahead_mask, padding_mask=dec_padding_mask)
        
        # 最终输出
        final_output = self.final_layer(dec_output)
        return final_output

# 示例使用
num_layers = 6  # 编码器和解码器各6层
d_model = 512  # 模型维度
num_heads = 8  # 注意力头数量
dff = 2048  # 前馈网络内部维度
input_vocab_size = 10000  # 输入词汇表大小
target_vocab_size = 8000  # 目标词汇表大小

transformer = Transformer(num_layers, d_model, num_heads, dff, input_vocab_size, target_vocab_size)
print("Transformer模型构建完成")

总结

本章通过分步讲解和代码示例，介绍了如何使用TensorFlow的MultiHeadAttention层和自定义层构建Transformer模型。我们从多头注意力开始，实现了自定义的编码器和解码器层，最后将它们拼接成完整的模型。这些组件是构建高级NLP应用的基础，如机器翻译或文本生成。

对于新手，建议先运行示例代码，理解每个部分的工作原理，然后根据自己的需求调整参数和扩展功能。通过实践，可以更好地掌握深度学习模型的构建和优化。

上一章 15.2 Transformer 经典结构

下一章 15.4 Transformer 实战案例

TensorFlow 中文手册

15.3 TensorFlow 构建 Transformer 模型

使用TensorFlow构建Transformer模型

什么是Transformer模型？

多头注意力层（tf.keras.layers.MultiHeadAttention）

如何设置和使用

自定义编码器层

构建步骤

自定义解码器层

构建步骤

Transformer模型的整体拼接

构建步骤

总结

相关文档

Python 教程

FastAPI 教程

Django 6中文教程

Flask 中文教程

NumPy 中文教程

Scikit-learn 中文教程