24.2 自然语言处理：智能文本分类系统（BERT + 迁移学习）

TensorFlow中文学习手册：智能文本分类系统（BERT+迁移学习）章节

TensorFlow 中文手册

本章节详细讲解如何使用TensorFlow构建基于BERT和迁移学习的智能文本分类系统，涵盖业务需求、数据预处理、模型微调、评估优化及预测功能，适合新人学习入门。

构建智能文本分类系统：BERT与迁移学习

引言

欢迎来到TensorFlow中文学习手册！在本章节中，我们将深入探讨如何利用BERT（Bidirectional Encoder Representations from Transformers）和迁移学习构建一个智能文本分类系统。BERT是一种先进的自然语言处理模型，通过预训练学习语言的深层次表示，再结合迁移学习，能快速适应特定任务，如新闻分类或情感分析。作为TensorFlow工程师，我们将使用TensorFlow框架来实现这一系统，确保内容对新手友好，配有代码示例和清晰解释。

业务需求

在实际应用中，文本分类系统有广泛用途，包括：

新闻分类：自动将新闻文章归类到不同主题，如政治、体育或娱乐。
评论情感分析：识别用户评论的情感倾向（正面、负面或中性），帮助商家改进产品和服务。
垃圾邮件检测：过滤电子邮件中的垃圾信息，提高用户工作效率。这些需求驱动我们构建高效、准确的文本分类模型。

文本数据预处理

在训练模型前，必须对文本数据进行预处理，以适应BERT的输入格式。主要步骤包括：

清洗：去除HTML标签、特殊字符和多余空格，使文本更干净。
分词：使用BERT的分词器（Tokenizer）将文本分割成词汇单元（tokens）。BERT使用WordPiece分词，能处理未知词汇。
BERT输入格式适配：BERT输入通常包括输入ID、注意力掩码和段ID。我们将使用TensorFlow的transformers库或TensorFlow Hub来处理。

代码示例（使用TensorFlow和Hugging Face Transformers库）：

import tensorflow as tf
from transformers import BertTokenizer

# 初始化BERT分词器
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

# 示例文本
text = "这是一个TensorFlow学习示例。"

# 分词和编码
encoded = tokenizer.encode_plus(
    text,
    add_special_tokens=True,  # 添加[CLS]和[SEP]标记
    max_length=128,           # 最大序列长度
    padding='max_length',     # 填充到最大长度
    truncation=True,          # 截断超长文本
    return_attention_mask=True,
    return_tensors='tf'       # 返回TensorFlow张量
)

# 获取输入ID、注意力掩码和段ID（对于单句任务，段ID为0）
input_ids = encoded['input_ids']
attention_mask = encoded['attention_mask']
segment_ids = tf.zeros_like(input_ids)  # 单句任务，段ID为0

BERT预训练模型加载与微调

加载预训练的BERT模型并进行微调，以适配我们的分类任务。使用TensorFlow Hub或Transformers库来简化这一过程。

加载预训练模型：从TensorFlow Hub或Hugging Face下载BERT模型。
构建分类头：在BERT输出层添加一个全连接层，用于分类（如二元或多类分类）。
微调：使用我们的数据集训练整个模型，包括BERT参数，以优化性能。

代码示例（使用TensorFlow Hub）：

import tensorflow_hub as hub
import tensorflow as tf

# 从TensorFlow Hub加载BERT预训练模型
bert_layer = hub.KerasLayer("https://tfhub.dev/tensorflow/bert_en_uncased_L-12_H-768_A-12/4", trainable=True)

# 构建模型
input_ids = tf.keras.layers.Input(shape=(128,), dtype=tf.int32, name='input_ids')
attention_mask = tf.keras.layers.Input(shape=(128,), dtype=tf.int32, name='attention_mask')
segment_ids = tf.keras.layers.Input(shape=(128,), dtype=tf.int32, name='segment_ids')

# BERT输出
pooled_output = bert_layer({'input_ids': input_ids, 'attention_mask': attention_mask, 'token_type_ids': segment_ids})['pooled_output']

# 添加分类头（假设有3个类别：新闻、情感、垃圾邮件）
output = tf.keras.layers.Dense(3, activation='softmax')(pooled_output)

model = tf.keras.Model(inputs=[input_ids, attention_mask, segment_ids], outputs=output)

# 编译模型
model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])

模型评估与优化

训练后，需要评估模型性能，并进行优化以提高准确性。

评估指标：
- AUC（Area Under Curve）：常用于二元分类，衡量模型区分能力；可通过TensorFlow的tf.keras.metrics.AUC计算。
- F1-Score：平衡精确率和召回率，适合不平衡数据集；使用sklearn.metrics.f1_score或自定义TensorFlow计算。

代码示例（评估模型）：

# 假设有验证集
val_inputs = ...  # 预处理后的输入
val_labels = ...  # 真实标签

# 预测
predictions = model.predict(val_inputs)

# 计算AUC和F1-Score（这里以二元分类为例）
auc_metric = tf.keras.metrics.AUC()
auc_metric.update_state(val_labels, predictions)
print(f"AUC: {auc_metric.result().numpy()}")

# 对于F1-Score，需要将概率转换为类别
pred_classes = tf.argmax(predictions, axis=1)
from sklearn.metrics import f1_score
f1 = f1_score(val_labels, pred_classes, average='weighted')
print(f"F1-Score: {f1}")

超参数调优：使用TensorFlow的Keras Tuner工具自动调整学习率、批大小等超参数，以提升模型性能。

批量预测与单文本预测功能实现

在实际部署中，需要实现预测功能，支持批量处理和单个文本输入。

批量预测：使用model.predict()处理数据集，适用于离线分析。
单文本预测：设计一个函数，接受单个文本输入，返回分类结果。

代码示例（实现预测功能）：

def preprocess_text(text):
    # 预处理单文本
    encoded = tokenizer.encode_plus(
        text,
        add_special_tokens=True,
        max_length=128,
        padding='max_length',
        truncation=True,
        return_attention_mask=True,
        return_tensors='tf'
    )
    return encoded['input_ids'], encoded['attention_mask'], tf.zeros_like(encoded['input_ids'])

def predict_single_text(text):
    # 单文本预测
    input_ids, attention_mask, segment_ids = preprocess_text(text)
    predictions = model.predict([input_ids, attention_mask, segment_ids])
    class_idx = tf.argmax(predictions, axis=1).numpy()[0]
    classes = ["新闻", "正面情感", "垃圾邮件"]  # 示例类别
    return classes[class_idx]

# 使用示例
text = "这部电影非常好看！"
result = predict_single_text(text)
print(f"预测类别: {result}")

# 批量预测示例
batch_texts = ["这是一个新闻标题", "评论很好", "垃圾邮件内容"]
batch_predictions = model.predict(batch_inputs)  # batch_inputs为预处理后的批量数据

总结

在本章节中，我们系统地学习了如何使用TensorFlow构建基于BERT和迁移学习的智能文本分类系统。从业务需求到数据预处理，再到模型加载、微调、评估优化和预测功能实现，每一步都配有中文解释和代码示例。

上一章 24.1 计算机视觉：自定义图像分类系统（迁移学习 + Flask）

下一章 24.3 时间序列：工业销量预测系统（LSTM + 注意力机制）

TensorFlow 中文手册

24.2 自然语言处理：智能文本分类系统（BERT + 迁移学习）

构建智能文本分类系统：BERT与迁移学习

引言

业务需求

文本数据预处理

BERT预训练模型加载与微调

模型评估与优化

批量预测与单文本预测功能实现

总结

相关文档

Python 教程

FastAPI 教程

Django 6中文教程

Flask 中文教程

NumPy 中文教程

Scikit-learn 中文教程