20.2 自定义模型（Custom Model）

TensorFlow 自定义模型教程：子类化、前向传播与实战指南

TensorFlow 中文手册

本章节详细介绍如何在 TensorFlow 中创建自定义模型，涵盖基于 Model 子类化的实现、前向传播的 call 方法、编译、训练和评估步骤，并提供 CNN、RNN 和 Transformer 的实战代码示例，适合新人学习。

自定义模型（Custom Model）

引言

在 TensorFlow 中，自定义模型允许您创建灵活的、适合特定需求的深度学习架构。通过子类化 tf.keras.Model，您可以完全控制模型的结构和行为，这对于复杂任务和最新研究至关重要。本章将引导您了解如何从基础开始构建自定义模型，包括实现前向传播、编译、训练和评估，并以实战示例展示如何创建 CNN、RNN 和 Transformer 模型。

基于 Model 子类化的自定义模型

要创建自定义模型，最直接的方法是继承 tf.keras.Model 类。这提供了完整的灵活性来定义模型层和前向传播逻辑。

步骤

定义模型类：创建一个继承自 tf.keras.Model 的类。
初始化层：在 __init__ 方法中定义所有层。
实现前向传播：在 call 方法中定义输入如何通过层传播。

示例代码：

import tensorflow as tf

# 定义一个简单的自定义模型
class SimpleCustomModel(tf.keras.Model):
    def __init__(self):
        super(SimpleCustomModel, self).__init__()
        # 定义模型层
        self.dense1 = tf.keras.layers.Dense(64, activation='relu')
        self.dense2 = tf.keras.layers.Dense(10, activation='softmax')
    
    def call(self, inputs):
        # 前向传播逻辑
        x = self.dense1(inputs)
        return self.dense2(x)

# 实例化模型
model = SimpleCustomModel()

注意：通过这种方式，您可以轻松添加自定义层或处理复杂数据流。

模型的前向传播（call 方法）实现

call 方法是自定义模型的核心，它定义了输入张量如何通过网络层传递并产生输出。在训练和推理时，TensorFlow 会自动调用这个方法。

关键点

输入参数：call 方法接受一个输入张量或多个输入张量。
输出：必须返回一个张量，通常是预测结果。
可训练参数：在 call 方法中使用的层会自动跟踪权重，以便进行梯度更新。

示例：添加正则化或自定义逻辑。

class CustomModelWithFeatures(tf.keras.Model):
    def __init__(self):
        super(CustomModelWithFeatures, self).__init__()
        self.flatten = tf.keras.layers.Flatten()
        self.dense = tf.keras.layers.Dense(128, activation='relu', kernel_regularizer='l2')
        self.output_layer = tf.keras.layers.Dense(10, activation='softmax')
    
    def call(self, inputs):
        x = self.flatten(inputs)  # 扁平化输入
        x = self.dense(x)          # 通过全连接层
        return self.output_layer(x) # 输出预测

自定义模型的编译、训练与评估

一旦定义好模型，您需要编译它以指定优化器、损失函数和评估指标，然后进行训练和评估。

编译模型

使用 compile 方法来配置模型的训练过程。

model.compile(
    optimizer='adam',           # 优化器，如 Adam、SGD
    loss='categorical_crossentropy', # 损失函数
    metrics=['accuracy']        # 评估指标
)

训练模型

提供训练数据和标签，并使用 fit 方法进行训练。

# 假设已有训练数据 x_train 和 y_train
model.fit(x_train, y_train, epochs=10, batch_size=32)

评估模型

使用 evaluate 方法来评估模型在测试集上的性能。

# 假设已有测试数据 x_test 和 y_test
loss, accuracy = model.evaluate(x_test, y_test)
print(f'Test loss: {loss}, Test accuracy: {accuracy}')

实战：自定义 CNN/RNN/Transformer 模型

1. 自定义 CNN 模型

适用于图像分类任务，包含卷积层和池化层。

class CustomCNN(tf.keras.Model):
    def __init__(self):
        super(CustomCNN, self).__init__()
        self.conv1 = tf.keras.layers.Conv2D(32, (3,3), activation='relu')
        self.pool1 = tf.keras.layers.MaxPooling2D((2,2))
        self.conv2 = tf.keras.layers.Conv2D(64, (3,3), activation='relu')
        self.pool2 = tf.keras.layers.MaxPooling2D((2,2))
        self.flatten = tf.keras.layers.Flatten()
        self.dense = tf.keras.layers.Dense(10, activation='softmax')
    
    def call(self, inputs):
        x = self.conv1(inputs)
        x = self.pool1(x)
        x = self.conv2(x)
        x = self.pool2(x)
        x = self.flatten(x)
        return self.dense(x)

cnn_model = CustomCNN()
cnn_model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])

2. 自定义 RNN 模型

适用于序列数据，如时间序列或自然语言处理。

class CustomRNN(tf.keras.Model):
    def __init__(self):
        super(CustomRNN, self).__init__()
        self.embedding = tf.keras.layers.Embedding(10000, 128)  # 假设词汇表大小为10000
        self.lstm = tf.keras.layers.LSTM(64, return_sequences=False)
        self.dense = tf.keras.layers.Dense(1, activation='sigmoid')  # 二分类输出
    
    def call(self, inputs):
        x = self.embedding(inputs)
        x = self.lstm(x)
        return self.dense(x)

rnn_model = CustomRNN()
# 编译时使用 binary_crossentropy 损失
rnn_model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

3. 自定义 Transformer 模型

Transformer 模型基于注意力机制，适用于多种任务如机器翻译。这里提供一个简化版本。

class CustomTransformer(tf.keras.Model):
    def __init__(self, d_model=512, num_heads=8):
        super(CustomTransformer, self).__init__()
        self.multi_head_attention = tf.keras.layers.MultiHeadAttention(num_heads=num_heads, key_dim=d_model//num_heads)
        self.feed_forward = tf.keras.layers.Dense(d_model, activation='relu')
        self.layer_norm1 = tf.keras.layers.LayerNormalization()
        self.layer_norm2 = tf.keras.layers.LayerNormalization()
        self.output_layer = tf.keras.layers.Dense(10, activation='softmax')  # 假设输出10类
    
    def call(self, inputs):
        # 注意力层
        attn_output = self.multi_head_attention(inputs, inputs)
        x = self.layer_norm1(inputs + attn_output)  # 残差连接
        # 前馈网络
        ff_output = self.feed_forward(x)
        x = self.layer_norm2(x + ff_output)
        return self.output_layer(x)

transformer_model = CustomTransformer()
transformer_model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])

总结：通过自定义模型，您可以充分利用 TensorFlow 的强大功能，创建适合各种任务的深度学习模型。从简单的子类化到复杂架构如 Transformer，本章为您提供了全面的指导和实战示例。继续练习，您将能灵活应用这些知识到实际项目中！

上一章 20.1 自定义层（Custom Layer）

下一章 20.3 自定义训练循环（Custom Training Loop）

TensorFlow 中文手册

20.2 自定义模型（Custom Model）

自定义模型（Custom Model）

引言

基于 Model 子类化的自定义模型

步骤

模型的前向传播（call 方法）实现

关键点

自定义模型的编译、训练与评估

编译模型

训练模型

评估模型

实战：自定义 CNN/RNN/Transformer 模型

1. 自定义 CNN 模型

2. 自定义 RNN 模型

3. 自定义 Transformer 模型

相关文档

Python 教程

FastAPI 教程

Django 6中文教程

Flask 中文教程

NumPy 中文教程

Scikit-learn 中文教程