7.3 优化器（Optimizers）

TensorFlow优化器详解：经典算法、核心参数与学习率调度

TensorFlow 中文手册

本章节全面介绍TensorFlow中的优化器，包括经典优化器如SGD、Adam的核心概念，详细解析学习率、动量和权重衰减等核心参数，讲解多种学习率调度方法如指数衰减和余弦退火，并提供基于tf.keras.optimizers.Optimizer的自定义优化器实现指南，帮助初学者快速上手。

优化器（Optimizers）

在TensorFlow中，优化器是训练神经网络的核心组件，用于根据损失函数的梯度更新模型参数，以最小化误差。优化器的选择直接影响模型的收敛速度和性能。本章节将深入讲解TensorFlow中的优化器，适合初学者学习。

经典优化器

TensorFlow提供了多种经典优化器，各有其适用场景。

SGD（随机梯度下降）

SGD是最基本的优化器，每次更新使用一个或一批样本的梯度。它简单易用，但可能收敛较慢。

import tensorflow as tf
optimizer = tf.keras.optimizers.SGD(learning_rate=0.01)

Momentum（动量）

Momentum在SGD基础上加入动量项，累积之前的梯度方向，减少震荡，加速收敛。

optimizer = tf.keras.optimizers.SGD(learning_rate=0.01, momentum=0.9)

RMSprop

RMSprop自适应调整每个参数的学习率，通过计算梯度的平方的移动平均来缩放学习率，适合处理非平稳目标。

optimizer = tf.keras.optimizers.RMSprop(learning_rate=0.001)

Adam

Adam结合了Momentum和RMSprop的优点，计算一阶矩（均值）和二阶矩（方差）的指数移动平均，广泛用于深度学习。

optimizer = tf.keras.optimizers.Adam(learning_rate=0.001)

Adagrad

Adagrad为每个参数分配不同的学习率，根据历史梯度平方和调整，适合稀疏数据，但可能导致学习率过早下降。

optimizer = tf.keras.optimizers.Adagrad(learning_rate=0.01)

优化器核心参数

优化器的性能受核心参数影响，正确设置这些参数至关重要。

学习率（Learning Rate）

学习率控制参数更新的步长大小。过大会导致震荡或不收敛，过小则收敛慢。通常从0.01或0.001开始尝试。

动量（Momentum）

动量用于加速梯度下降，减少震荡。值在0到1之间，常用0.9。

权重衰减（Weight Decay）

权重衰减是一种正则化技术，通过添加惩罚项防止过拟合。在TensorFlow中，可以通过优化器的weight_decay参数实现。

示例代码：

optimizer = tf.keras.optimizers.Adam(learning_rate=0.001, weight_decay=0.0001)

学习率调度（Learning Rate Scheduler）

动态调整学习率可以提升训练效果，TensorFlow支持多种调度策略。

指数衰减（Exponential Decay）

学习率按指数函数衰减，常用于初始阶段快速收敛。

lr_scheduler = tf.keras.optimizers.schedules.ExponentialDecay(
    initial_learning_rate=0.01,
    decay_steps=1000,
    decay_rate=0.96
)
optimizer = tf.keras.optimizers.SGD(learning_rate=lr_scheduler)

阶梯衰减（Step Decay）

在指定训练轮次降低学习率，模拟阶段式学习。

lr_scheduler = tf.keras.optimizers.schedules.PiecewiseConstantDecay(
    boundaries=[1000, 2000],  # 在第1000和2000步调整
    values=[0.1, 0.01, 0.001]  # 对应阶段的学习率
)
optimizer = tf.keras.optimizers.Adam(learning_rate=lr_scheduler)

余弦退火（Cosine Annealing）

学习率按余弦函数变化，从高到低再升高，模拟退火过程，有助于跳出局部最优。

lr_scheduler = tf.keras.optimizers.schedules.CosineDecay(
    initial_learning_rate=0.1,
    decay_steps=1000
)
optimizer = tf.keras.optimizers.SGD(learning_rate=lr_scheduler)

自定义优化器

TensorFlow允许基于tf.keras.optimizers.Optimizer类创建自定义优化器，以适应特定需求。

实现步骤

继承tf.keras.optimizers.Optimizer类。
重写__init__方法初始化参数。
实现_resource_apply_dense或类似方法定义更新逻辑。

示例：创建一个简单的自定义优化器，每次更新使用固定学习率乘以梯度。

class CustomOptimizer(tf.keras.optimizers.Optimizer):
    def __init__(self, learning_rate=0.01, name="CustomOptimizer", **kwargs):
        super().__init__(name=name, **kwargs)
        self._set_hyper('learning_rate', learning_rate)
    
    def _resource_apply_dense(self, grad, var, apply_state=None):
        var.assign_sub(self._hyper['learning_rate'] * grad)
        return var

# 使用自定义优化器
optimizer = CustomOptimizer(learning_rate=0.01)

注意事项

自定义优化器时，确保正确处理梯度更新和超参数管理。参考TensorFlow官方文档获取更多细节。

总结

优化器是TensorFlow训练模型的关键，选择合适的优化器和参数能显著提升性能。建议从Adam或SGD开始，结合学习率调度进行实验。通过本章学习，您应能掌握经典优化器的使用，理解核心参数作用，并了解如何自定义优化器以优化训练过程。持续实践和调整，将帮助您更好地应用于实际项目中。

上一章 7.2 损失函数（Loss Functions）

下一章 7.4 评估指标（Metrics）