15.4 Transformer 实战案例

TensorFlow实战：Transformer模型应用于文本分类、机器翻译及BERT迁移学习

TensorFlow 中文手册

本章节作为TensorFlow中文学习手册的一部分，通过实战案例详细讲解Transformer模型的实现，包括基于Transformer的情感分析、英中机器翻译（小数据集训练），以及预训练BERT模型的迁移学习，适合初学者快速上手。

TensorFlow实战：Transformer模型在NLP中的应用

本章节将深入探讨Transformer模型在实际任务中的应用，包括文本分类、机器翻译和预训练模型使用。我们将使用TensorFlow框架，确保内容简单易懂，适合新人学习。

1. 介绍Transformer模型

Transformer是一种基于自注意力机制的神经网络架构，在自然语言处理（NLP）中表现出色。它通过并行处理序列数据，解决了传统RNN的长距离依赖问题。在本章中，我们将通过三个实战案例来学习如何使用TensorFlow实现Transformer模型。

2. 基于Transformer的情感分析（文本分类）

情感分析是NLP中常见的文本分类任务，旨在判断文本的情感倾向（如积极或消极）。

2.1 任务概述

输入：文本序列
输出：情感标签（如0表示消极，1表示积极）
模型：使用Transformer的编码器部分进行分类。

2.2 TensorFlow实现步骤

步骤1：准备数据集

假设我们有一个简单的中文情感分析数据集。

import tensorflow as tf
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences

# 示例数据
texts = ["我爱这个产品", "糟糕的体验"]
labels = [1, 0]  # 1表示积极，0表示消极

# 文本预处理
tokenizer = Tokenizer(num_words=1000, oov_token="<OOV>")
tokenizer.fit_on_texts(texts)
sequences = tokenizer.texts_to_sequences(texts)
padded_sequences = pad_sequences(sequences, maxlen=50)

步骤2：构建Transformer编码器模型

使用TensorFlow的tf.keras.layers实现一个简化版Transformer编码器。

import tensorflow as tf
from tensorflow.keras.layers import Input, Dense, Dropout, LayerNormalization
from tensorflow.keras.models import Model

def transformer_encoder_block(units, d_model, num_heads, dropout_rate=0.1):
    inputs = Input(shape=(None, d_model))
    attention_output = tf.keras.layers.MultiHeadAttention(num_heads=num_heads, key_dim=d_model)(inputs, inputs)
    attention_output = Dropout(dropout_rate)(attention_output)
    attention_output = LayerNormalization(epsilon=1e-6)(inputs + attention_output)
    ffn_output = Dense(units, activation='relu')(attention_output)
    ffn_output = Dense(d_model)(ffn_output)
    ffn_output = Dropout(dropout_rate)(ffn_output)
    outputs = LayerNormalization(epsilon=1e-6)(attention_output + ffn_output)
    return Model(inputs, outputs)

# 构建完整分类模型
d_model = 128
num_heads = 8
vocab_size = 1000
input_layer = Input(shape=(50,))
embedding = tf.keras.layers.Embedding(vocab_size, d_model)(input_layer)
encoder_output = transformer_encoder_block(units=512, d_model=d_model, num_heads=num_heads)(embedding)
pooled_output = tf.keras.layers.GlobalAveragePooling1D()(encoder_output)
output_layer = Dense(1, activation='sigmoid')(pooled_output)

model = Model(inputs=input_layer, outputs=output_layer)
model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

步骤3：训练模型

model.fit(padded_sequences, labels, epochs=5, batch_size=2)

2.3 解释

Self-Attention机制让模型关注文本中重要的部分。
通过编码器提取特征后，使用全局平均池化来获取序列表示。
最后用一个全连接层进行分类。

3. 机器翻译（简单英中翻译，小数据集训练）

机器翻译是将一种语言转换为另一种语言的任务，这里我们实现英译中的简单模型。

3.1 任务概述

输入：英文句子
输出：中文翻译
小数据集训练：使用少量数据演示，强调数据增强或简化模型以防止过拟合。

3.2 TensorFlow实现步骤

步骤1：准备英中数据集

# 示例小数据集
english_sentences = ["hello world", "how are you"]
chinese_sentences = ["你好世界", "你好吗"]

# 分词和编码
en_tokenizer = Tokenizer(num_words=500, oov_token="<OOV>")
cn_tokenizer = Tokenizer(num_words=500, oov_token="<OOV>")
en_tokenizer.fit_on_texts(english_sentences)
cn_tokenizer.fit_on_texts(chinese_sentences)

en_sequences = en_tokenizer.texts_to_sequences(english_sentences)
cn_sequences = cn_tokenizer.texts_to_sequences(chinese_sentences)
en_padded = pad_sequences(en_sequences, maxlen=10)
cn_padded = pad_sequences(cn_sequences, maxlen=10)

步骤2：构建Seq2Seq Transformer模型

使用编码器-解码器架构，简化版以适应小数据。

# 编码器
encoder_inputs = Input(shape=(10,))
encoder_embedding = tf.keras.layers.Embedding(input_dim=500, output_dim=128)(encoder_inputs)
encoder_output = transformer_encoder_block(units=256, d_model=128, num_heads=8)(encoder_embedding)

# 解码器
decoder_inputs = Input(shape=(10,))
decoder_embedding = tf.keras.layers.Embedding(input_dim=500, output_dim=128)(decoder_inputs)
decoder_output = tf.keras.layers.MultiHeadAttention(num_heads=8, key_dim=128)(decoder_embedding, encoder_output)
decoder_output = Dense(500, activation='softmax')(decoder_output)  # 输出中文词汇的概率

translation_model = Model(inputs=[encoder_inputs, decoder_inputs], outputs=decoder_output)
translation_model.compile(optimizer='adam', loss='sparse_categorical_crossentropy')

步骤3：训练和使用

# 简化训练：使用教师强制（teacher forcing）
translation_model.fit([en_padded, cn_padded], cn_padded, epochs=10, batch_size=1)

# 预测示例
predicted = translation_model.predict([en_padded, cn_padded])  # 实际中需要迭代解码

3.3 解释

Seq2Seq模型将输入序列编码为上下文向量，解码器生成目标序列。
由于小数据集，模型简单化以避免过拟合。

4. 预训练Transformer模型使用（BERT，迁移学习）

BERT（Bidirectional Encoder Representations from Transformers）是一种预训练Transformer模型，可用于各种下游任务。

4.1 介绍BERT和迁移学习

BERT通过在大规模文本上预训练，学习通用语言表示。
迁移学习：将预训练模型微调于特定任务，如情感分析，以减少训练时间和数据需求。

4.2 使用TensorFlow Hub加载BERT

TensorFlow Hub提供预训练模型的便捷接口。

import tensorflow_hub as hub
import tensorflow as tf

# 加载预训练BERT模型
bert_layer = hub.KerasLayer("https://tfhub.dev/tensorflow/bert_zh_L-12_H-768_A-12/4", trainable=True)

# 构建分类模型
input_word_ids = tf.keras.layers.Input(shape=(128,), dtype=tf.int32)
input_mask = tf.keras.layers.Input(shape=(128,), dtype=tf.int32)
input_type_ids = tf.keras.layers.Input(shape=(128,), dtype=tf.int32)

pooled_output, sequence_output = bert_layer([input_word_ids, input_mask, input_type_ids])
output = tf.keras.layers.Dense(1, activation='sigmoid')(pooled_output)

bert_model = tf.keras.Model(inputs=[input_word_ids, input_mask, input_type_ids], outputs=output)
bert_model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

4.3 应用于情感分析示例

# 假设有预处理好的数据
# 输入需要转化为BERT格式：word IDs, mask, type IDs
bert_model.fit(bert_inputs, labels, epochs=3, batch_size=16)

4.4 解释

BERT模型提供上下文嵌入，适合任务微调。
迁移学习显著提升在小数据集上的性能。

总结

本章通过三个实战案例，展示了Transformer模型在TensorFlow中的实现。从基础的文本分类到复杂的机器翻译和预训练模型使用，这些内容旨在帮助新人快速上手TensorFlow和Transformer技术。在实际应用中，读者可以根据具体任务调整模型架构和参数。

提示：本章代码基于TensorFlow 2.x版本，确保环境配置正确。对于更复杂的任务，建议参考TensorFlow官方文档和社区资源。

上一章 15.3 TensorFlow 构建 Transformer 模型

下一章 16.1 迁移学习核心原理