19.3 模型断点续训

TensorFlow模型断点续训：基于ModelCheckpoint的完整指南

TensorFlow 中文手册

本章节详细讲解如何使用TensorFlow的ModelCheckpoint回调实现模型断点保存和加载，恢复优化器状态和训练轮数以继续训练。提供简单易懂的代码示例和步骤，适合新人入门学习。

模型断点续训：基于ModelCheckpoint的完整指南

什么是断点续训？

在深度学习中，模型训练可能需要很长时间，尤其是使用大型数据集和复杂网络时。如果训练过程中途中断（例如，服务器故障或手动停止），从头开始重新训练会浪费大量时间和计算资源。断点续训（Checkpoint and Resume Training）允许你在训练暂停后，从上次保存的检查点恢复训练，继续优化模型，而无需重新开始。这不仅提高了效率，还确保了训练过程的连续性。

ModelCheckpoint回调函数简介

TensorFlow Keras提供了一个内置的回调函数ModelCheckpoint，它可以在训练期间定期保存模型的权重和状态。ModelCheckpoint可以在每个epoch结束时保存模型，或者根据某些指标（如验证集上的性能）来保存最佳模型。当恢复训练时，加载这些检查点可以恢复模型的权重、优化器状态（如学习率、动量等）和训练轮数（epoch），使得训练无缝继续。

关键特性：

支持保存模型权重和完整模型（包括架构和优化器状态）。
可以设置监控指标（如val_loss）来保存最佳模型。
提供了save_freq选项来控制保存频率。

设置ModelCheckpoint保存检查点

要在训练过程中保存检查点，首先需要定义一个ModelCheckpoint回调，并在调用model.fit()时传递它。以下是一个基本设置示例：

import tensorflow as tf
from tensorflow.keras.callbacks import ModelCheckpoint

# 假设有一个简单的模型
model = tf.keras.Sequential([
    tf.keras.layers.Dense(10, activation='relu', input_shape=(5,)),
    tf.keras.layers.Dense(1, activation='sigmoid')
])

model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

# 定义ModelCheckpoint回调
checkpoint_callback = ModelCheckpoint(
    filepath='model_checkpoint.keras',  # 保存路径，可以是文件或目录
    save_best_only=True,                # 只保存最佳模型（基于监控指标）
    monitor='val_loss',                 # 监控验证损失
    mode='min',                         # 监控指标最小化（损失越小越好）
    save_weights_only=False,           # 保存完整模型（包括优化器状态），设置为False以保存全部
    verbose=1                          # 显示保存信息
)

# 模拟数据
import numpy as np
x_train = np.random.randn(100, 5)
y_train = np.random.randint(0, 2, size=(100, 1))
x_val = np.random.randn(20, 5)
y_val = np.random.randint(0, 2, size=(20, 1))

# 开始训练，使用回调
history = model.fit(
    x_train, y_train,
    validation_data=(x_val, y_val),
    epochs=10,
    callbacks=[checkpoint_callback]
)

在上面的代码中：

filepath指定了检查点保存的位置，使用.keras扩展名（TensorFlow 2.x推荐格式）。
save_best_only=True和monitor='val_loss'表示只当验证损失有改善时才保存模型。
save_weights_only=False确保保存完整模型，包括优化器状态，这对于恢复训练至关重要。
verbose=1会打印保存信息，帮助你了解何时保存了检查点。

加载模型继续训练

要恢复训练，需要加载之前保存的检查点，并使用model.fit()继续训练。加载模型时，会恢复权重、优化器状态和训练轮数。

以下是恢复训练的步骤：

加载模型：使用tf.keras.models.load_model()加载完整模型。
继续训练：调用model.fit()，优化器将从之前的状态继续更新。

代码示例：

# 假设训练在第5个epoch时中断，我们保存了检查点
# 加载模型（包括优化器状态和训练轮数）
loaded_model = tf.keras.models.load_model('model_checkpoint.keras')

# 查看模型状态（可选）
print("Loaded model summary:")
loaded_model.summary()
print(f"Current optimizer learning rate: {loaded_model.optimizer.lr.numpy()}")

# 定义新的ModelCheckpoint回调（可选，用于继续保存）
checkpoint_callback_continue = ModelCheckpoint(
    filepath='model_checkpoint_continue.keras',
    save_best_only=True,
    monitor='val_loss',
    mode='min',
    save_weights_only=False,
    verbose=1
)

# 继续训练，指定initial_epoch为上次的epoch数
# 注意：loaded_model中已经包含了训练轮数，但可以手动指定initial_epoch
history_continue = loaded_model.fit(
    x_train, y_train,
    validation_data=(x_val, y_val),
    epochs=15,  # 继续训练到总共15个epoch
    initial_epoch=10,  # 设置初始epoch为10（如果之前训练了10个epoch，这里应从10开始）
    callbacks=[checkpoint_callback_continue]
)

关键点：

使用tf.keras.models.load_model('model_checkpoint.keras')加载检查点。这默认会恢复模型架构、权重和优化器状态。
在model.fit()中，initial_epoch参数指定起始epoch数。如果不指定，Keras会自动从模型的历史中推断，但手动设置可以避免错误。在上面的示例中，我们假设之前训练了10个epoch，所以initial_epoch=10。
优化器状态（如学习率、动量）已经由加载的模型恢复，因此在继续训练时，优化过程会无缝衔接。

完整代码示例：保存和恢复训练

以下是一个综合示例，展示整个流程：

import tensorflow as tf
import numpy as np
from tensorflow.keras.callbacks import ModelCheckpoint

# 步骤1：创建和编译模型
model = tf.keras.Sequential([
    tf.keras.layers.Dense(10, activation='relu', input_shape=(5,)),
    tf.keras.layers.Dense(1, activation='sigmoid')
])

model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

# 模拟数据
x_train = np.random.randn(100, 5)
y_train = np.random.randint(0, 2, size=(100, 1))
x_val = np.random.randn(20, 5)
y_val = np.random.randint(0, 2, size=(20, 1))

# 步骤2：设置ModelCheckpoint保存检查点
checkpoint_path = 'my_model_checkpoint.keras'
checkpoint_callback = ModelCheckpoint(
    filepath=checkpoint_path,
    save_best_only=True,
    monitor='val_loss',
    mode='min',
    save_weights_only=False,
    verbose=1
)

# 第一次训练5个epoch
print("开始第一次训练...")
history = model.fit(
    x_train, y_train,
    validation_data=(x_val, y_val),
    epochs=5,
    callbacks=[checkpoint_callback]
)

# 假设训练在此中断
print("训练中断，检查点已保存。")

# 步骤3：加载检查点继续训练
print("加载检查点继续训练...")
loaded_model = tf.keras.models.load_model(checkpoint_path)

# 继续训练5个epoch（总共10个epoch）
history_continue = loaded_model.fit(
    x_train, y_train,
    validation_data=(x_val, y_val),
    epochs=10,
    initial_epoch=5,  # 从第5个epoch开始继续
    callbacks=[checkpoint_callback]
)

print("训练完成！")

注意事项和最佳实践

文件路径管理：确保filepath是有效的，并且有足够的权限写入。建议使用绝对路径或项目相对路径。
保存格式：使用.keras或.h5扩展名（.keras是TensorFlow 2.x推荐格式，支持完整模型保存）。设置save_weights_only=False以包含优化器状态。
监控指标：根据任务选择合适的监控指标（如val_accuracy或val_loss），并设置正确的mode（'min' 或 'max'）。
恢复初始epoch：在恢复训练时，确保initial_epoch正确设置，以避免跳过或重复epoch。可以通过加载模型的历史记录来获取上次的epoch数。
版本兼容性：确保TensorFlow版本一致，以避免检查点加载问题。
备份检查点：定期备份重要的检查点，以防文件损坏或丢失。

总结

通过使用TensorFlow的ModelCheckpoint回调，你可以轻松实现模型训练的断点续训。这不仅能节省时间和资源，还能确保训练过程的稳定性。本教程从基础概念到实际操作，提供了完整的代码示例，帮助新人快速上手。记住，合理设置检查点参数和正确加载模型是成功恢复训练的关键。

上一章 19.2 模型保存的细节与注意事项

下一章 19.4 模型微调与二次训练

TensorFlow 中文手册

19.3 模型断点续训

模型断点续训：基于ModelCheckpoint的完整指南

什么是断点续训？

ModelCheckpoint回调函数简介

设置ModelCheckpoint保存检查点

加载模型继续训练

完整代码示例：保存和恢复训练

注意事项和最佳实践

总结

相关文档

Python 教程

FastAPI 教程

Django 6中文教程

Flask 中文教程

NumPy 中文教程

Scikit-learn 中文教程