23.2 自然语言处理实战：IMDB 情感分析（LSTM/Transformer）

TensorFlow中文学习手册：IMDB情感分析实战（LSTM/Transformer）

TensorFlow 中文手册

本章节详细讲解如何使用TensorFlow进行自然语言处理实战，以IMDB电影评论情感分析为例，涵盖项目需求、数据加载、文本预处理、LSTM和Transformer模型构建、训练优化、评估预测的完整流程，适合新手入门学习。

自然语言处理实战：IMDB 情感分析（LSTM/Transformer）

本章节将带领您完成一个完整的自然语言处理（NLP）项目：使用TensorFlow进行IMDB电影评论情感分析。通过这个项目，您将学习如何加载数据、预处理文本、构建和训练LSTM或Transformer模型，并进行评估和预测。内容设计简单易懂，适合新手入门。

1. 项目需求与数据加载

IMDB情感分析是一个经典的二分类任务：目标是判断电影评论是积极还是消极的。我们将使用TensorFlow内置的tf.keras.datasets.imdb数据集，它包含50,000条影评（训练集25,000条，测试集25,000条），每条评论已被预处理为整数序列。

首先，导入必要的库并加载数据：

import tensorflow as tf
from tensorflow.keras.datasets import imdb

# 加载IMDB数据集，仅保留前10,000个最常见的词
num_words = 10000
(train_data, train_labels), (test_data, test_labels) = imdb.load_data(num_words=num_words)

print("训练数据形状:", train_data.shape)
print("训练标签形状:", train_labels.shape)
print("示例评论（整数序列）:", train_data[0])
print("示例标签（0=消极，1=积极）:", train_labels[0])

解释：num_words=10000限制词汇表大小，只保留最常见的前10,000个词，以简化处理。加载的数据是整数序列，每个整数对应一个单词。

2. 文本预处理

文本数据需要转换为固定长度的序列，以便输入神经网络。这包括词汇表构建和序列填充。

2.1 词汇表构建

TensorFlow的Tokenizer可以自动构建词汇表，但在本例中，数据集已预处理好，所以我们直接使用整数序列。

2.2 序列填充

评论长度不一，我们需要使用pad_sequences来填充或截断序列到统一长度。

from tensorflow.keras.preprocessing.sequence import pad_sequences

maxlen = 200  # 设置最大序列长度

# 填充序列
X_train = pad_sequences(train_data, maxlen=maxlen)
X_test = pad_sequences(test_data, maxlen=maxlen)

print("填充后训练数据形状:", X_train.shape)
print("填充后测试数据形状:", X_test.shape)

解释：maxlen=200表示每条评论被截断或填充到200个单词。这样可以确保输入数据的维度一致。

3. 模型构建

我们将构建两种模型：基于LSTM的和基于Transformer的。首先，定义基础组件。

3.1 使用LSTM的模型

LSTM（长短期记忆网络）适合处理序列数据。模型包括Embedding层、LSTM层和Dense输出层。

from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, LSTM, Dense, Dropout, BatchNormalization

embedding_dim = 128  # 嵌入维度

model_lstm = Sequential([
    Embedding(input_dim=num_words, output_dim=embedding_dim, input_length=maxlen),  # 嵌入层
    LSTM(128, return_sequences=True),  # LSTM层，返回序列
    Dropout(0.5),  # Dropout层，防止过拟合
    LSTM(64),  # 另一个LSTM层
    Dense(64, activation='relu'),  # 全连接层
    BatchNormalization(),  # 批归一化层
    Dense(1, activation='sigmoid')  # 输出层，二分类
])

model_lstm.summary()  # 打印模型结构

解释：Embedding层将整数转换为向量表示；LSTM层处理序列；Dropout和BatchNormalization帮助优化训练。

3.2 使用Transformer的模型

Transformer模型使用自注意力机制，适合长序列处理。我们将使用TensorFlow的MultiHeadAttention和Transformer相关层。

from tensorflow.keras.layers import MultiHeadAttention, LayerNormalization, GlobalAveragePooling1D

# 定义Transformer编码器块（简化版）
def transformer_encoder(inputs, head_size=128, num_heads=8, ff_dim=256, dropout=0.1):
    # 自注意力层
    attention_output = MultiHeadAttention(num_heads=num_heads, key_dim=head_size)(inputs, inputs)
    attention_output = Dropout(dropout)(attention_output)
    out1 = LayerNormalization(epsilon=1e-6)(inputs + attention_output)
    # 前馈网络
    ffn = Dense(ff_dim, activation="relu")(out1)
    ffn = Dropout(dropout)(ffn)
    ffn = Dense(head_size)(ffn)
    out2 = LayerNormalization(epsilon=1e-6)(out1 + ffn)
    return out2

# 构建Transformer模型
from tensorflow.keras import Model
from tensorflow.keras.layers import Input, Flatten

inputs = Input(shape=(maxlen,))
embedding_layer = Embedding(input_dim=num_words, output_dim=embedding_dim, input_length=maxlen)(inputs)
transformer_block = transformer_encoder(embedding_layer, head_size=embedding_dim)
pooling = GlobalAveragePooling1D()(transformer_block)  # 全局平均池化
x = Dense(64, activation='relu')(pooling)
x = Dropout(0.5)(x)
outputs = Dense(1, activation='sigmoid')(x)

model_transformer = Model(inputs=inputs, outputs=outputs)
model_transformer.summary()

解释：此模型使用自注意力和前馈网络构建Transformer块，适合处理复杂序列关系。

4. 模型训练与优化

训练模型时，我们使用合适的优化器和损失函数，并添加Dropout和批归一化来提高性能。

4.1 编译模型

# 编译模型
model_lstm.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])
model_transformer.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

解释：使用Adam优化器，二分类交叉熵损失函数，并以准确性作为评估指标。

4.2 训练模型

# 训练LSTM模型
history_lstm = model_lstm.fit(X_train, train_labels, epochs=10, batch_size=32, validation_split=0.2, verbose=1)

# 训练Transformer模型
history_transformer = model_transformer.fit(X_train, train_labels, epochs=10, batch_size=32, validation_split=0.2, verbose=1)

解释：训练10个epoch，使用20%的数据作为验证集，以监控过拟合。Dropout和BatchNormalization已经在模型中定义，帮助防止过拟合和加速训练。

5. 模型评估与文本预测

训练完成后，评估模型在测试集上的性能，并进行新文本预测。

5.1 模型评估

# 评估LSTM模型
test_loss, test_acc = model_lstm.evaluate(X_test, test_labels, verbose=0)
print(f"LSTM模型测试准确率: {test_acc:.4f}")

# 评估Transformer模型
test_loss, test_acc = model_transformer.evaluate(X_test, test_labels, verbose=0)
print(f"Transformer模型测试准确率: {test_acc:.4f}")

5.2 文本预测

假设我们有一段新评论，需要预测其情感。首先，需要预处理新文本。

# 示例新评论
new_review = "This movie was fantastic! I loved every minute of it."

# 假设有一个词到索引的映射（IMDB数据集已提供，可通过imdb.get_word_index()获取）
word_index = imdb.get_word_index()
reverse_word_index = {value: key for key, value in word_index.items()}

# 将文本转换为整数序列（简化版，实际可能需要更复杂的清洗）
def text_to_sequence(text, word_index, maxlen):
    words = text.lower().split()
    sequence = [word_index.get(word, 2) for word in words]  # 2通常用于未知词
    sequence = sequence[:maxlen]  # 截断
    sequence = pad_sequences([sequence], maxlen=maxlen, padding='post')
    return sequence

# 转换新评论
new_sequence = text_to_sequence(new_review, word_index, maxlen)

# 使用LSTM模型进行预测
prediction = model_lstm.predict(new_sequence)
print(f"预测情感（LSTM）: {'积极' if prediction > 0.5 else '消极'}，置信度: {prediction[0][0]:.4f}")

# 使用Transformer模型进行预测
prediction = model_transformer.predict(new_sequence)
print(f"预测情感（Transformer）: {'积极' if prediction > 0.5 else '消极'}，置信度: {prediction[0][0]:.4f}")

解释：通过将新评论转换为整数序列并进行填充，使用训练好的模型预测情感。预测值接近1表示积极，接近0表示消极。

总结

本章节详细介绍了如何使用TensorFlow进行IMDB情感分析实战。我们从数据加载开始，逐步完成文本预处理、LSTM和Transformer模型构建、训练优化及评估预测。这个项目不仅帮助理解NLP基础，还为探索更复杂的模型打下基础。建议新手先尝试运行代码，逐步理解每个步骤，然后调整参数和模型结构以改进性能。

上一章 23.1 计算机视觉实战：MNIST 手写数字识别（CNN）

下一章 23.3 时间序列实战：股票价格预测（LSTM）

TensorFlow 中文手册

23.2 自然语言处理实战：IMDB 情感分析（LSTM/Transformer）

自然语言处理实战：IMDB 情感分析（LSTM/Transformer）

1. 项目需求与数据加载

2. 文本预处理

2.1 词汇表构建

2.2 序列填充

3. 模型构建

3.1 使用LSTM的模型

3.2 使用Transformer的模型

4. 模型训练与优化

4.1 编译模型

4.2 训练模型

5. 模型评估与文本预测

5.1 模型评估

5.2 文本预测

总结

相关文档

Python 教程

FastAPI 教程

Django 6中文教程

Flask 中文教程

NumPy 中文教程

Scikit-learn 中文教程