7.1 激活函数（Activation Functions）

TensorFlow激活函数完全指南：经典与高级函数详解与选择原则

TensorFlow 中文手册

本指南详细介绍TensorFlow中激活函数的基本概念、经典函数如ReLU、Sigmoid、Tanh、Softmax，高级函数如LeakyReLU、PReLU、ELU、Swish，以及如何根据任务选择激活函数和自定义激活函数，适合新手学习神经网络和深度学习。

TensorFlow激活函数完全指南

1. 什么是激活函数？

激活函数是神经网络中的核心组件，负责在神经元之间传递信号时引入非线性。如果没有激活函数，神经网络就相当于线性模型，无法学习复杂的数据模式。在TensorFlow中，激活函数通常应用于神经网络的隐藏层和输出层，以增强模型的表达能力。

2. 经典激活函数详解

以下是四种最常用的经典激活函数，它们在TensorFlow中都有内置实现。

2.1 ReLU（Rectified Linear Unit，整流线性单元）

公式: ( f(x) = \max(0, x) )
特点: 计算简单快速，能有效缓解梯度消失问题，但可能导致“死亡ReLU”问题（部分神经元永远不激活）。

TensorFlow代码示例:

import tensorflow as tf
x = tf.constant([-1.0, 0.0, 2.0])
y = tf.nn.relu(x)  # 输出: [0.0, 0.0, 2.0]

2.2 Sigmoid（S型函数）

公式: ( f(x) = \frac{1}{1 + e^{-x}} )
特点: 输出范围在(0,1)之间，适合二分类任务的输出层，但梯度饱和问题严重，训练可能较慢。

TensorFlow代码示例:

y = tf.nn.sigmoid(x)  # 输出接近[0.27, 0.5, 0.88]

2.3 Tanh（双曲正切函数）

公式: ( f(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}} )
特点: 输出范围在(-1,1)之间，零中心化有助于梯度下降，但仍可能梯度饱和。

TensorFlow代码示例:

y = tf.nn.tanh(x)  # 输出接近[-0.76, 0.0, 0.96]

2.4 Softmax（软最大值函数）

公式: ( f(x_i) = \frac{e^{x_i}}{\sum_j e^{x_j}} )
特点: 将输入转换为概率分布，总和为1，适用于多分类任务的输出层。

TensorFlow代码示例:

y = tf.nn.softmax(x)  # 输出概率分布，如[0.11, 0.33, 0.56]

3. 高级激活函数探索

为了改进经典激活函数的局限性，研究人员提出了多种高级变体。

3.1 LeakyReLU（泄漏ReLU）

公式: ( f(x) = \begin{cases} x & \text{if } x > 0 \ \alpha x & \text{otherwise} \end{cases} )，其中( \alpha )是一个小正数（如0.01）。
特点: 解决死亡ReLU问题，允许负输入有小梯度流出。
TensorFlow代码示例:
```
y = tf.nn.leaky_relu(x, alpha=0.01)
```

3.2 PReLU（参数化ReLU）

特点: 类似LeakyReLU，但斜率参数( \alpha )是可学习的，模型可以在训练中自动优化。

TensorFlow代码示例:

from tensorflow.keras.layers import PReLU
prelu_layer = PReLU()
y = prelu_layer(x)

3.3 ELU（指数线性单元）

公式: ( f(x) = \begin{cases} x & \text{if } x > 0 \ \alpha(e^x - 1) & \text{otherwise} \end{cases} )，( \alpha )通常为1。
特点: 输出平滑，能进一步缓解梯度消失问题，但计算稍复杂。
TensorFlow代码示例:
```
y = tf.nn.elu(x)
```

3.4 Swish（S型加权线性单元）

公式: ( f(x) = x \cdot \text{sigmoid}(x) )
特点: 由谷歌提出，在多个任务中表现优于ReLU，但计算量稍大。
TensorFlow代码示例:
```
y = tf.nn.swish(x)
```

4. 激活函数的选择原则

选择激活函数时，需根据任务类型和模型结构灵活适配。

分类任务:
- 二分类: 输出层常用Sigmoid，隐藏层可用ReLU或高级变体。
- 多分类: 输出层用Softmax，隐藏层推荐ReLU系列（如ReLU、LeakyReLU）。
回归任务: 通常输出层使用线性激活或无激活函数，隐藏层可使用ReLU、Tanh或ELU。
模型适配:
- 卷积神经网络（CNN）: 常用ReLU，以加速训练并避免梯度消失。
- 循环神经网络（RNN）: 可选Tanh或ReLU变体如LeakyReLU，以处理序列数据。
一般建议: 从ReLU开始实验，根据性能调整；对于深层网络，可尝试LeakyReLU或ELU以防止死亡神经元问题。

5. 自定义激活函数实战

在TensorFlow中，您可以使用tf.keras.layers.Activation或自定义函数来创建激活函数。

使用内置激活函数: 在模型层中直接指定激活函数名称，如activation='relu'。

自定义函数: 定义Python函数，并在模型中使用。

import tensorflow as tf

# 自定义激活函数示例：改进的Sigmoid变体
def custom_sigmoid(x):
    return tf.nn.sigmoid(x) * 2 - 0.5  # 调整输出范围

# 在模型中使用自定义激活函数
model = tf.keras.Sequential([
    tf.keras.layers.Dense(128, activation=custom_sigmoid),
    tf.keras.layers.Dense(10, activation='softmax')
])

# 或者使用tf.keras.layers.Activation层
model.add(tf.keras.layers.Activation(custom_sigmoid))

注意事项: 确保自定义函数可微分，以支持反向传播；在复杂场景中，测试自定义函数对模型性能的影响。

总结

激活函数是神经网络成功的关键因素。TensorFlow提供了丰富的内置激活函数，并支持自定义，帮助您构建高效模型。新手可以从经典函数如ReLU和Sigmoid入手，逐步探索高级函数，并根据任务需求进行选择。不断实验和调整是找到最佳激活函数组合的有效途径。

上一章 6.4 模型的编译与构建

下一章 7.2 损失函数（Loss Functions）

TensorFlow 中文手册

7.1 激活函数（Activation Functions）

TensorFlow激活函数完全指南

1. 什么是激活函数？

2. 经典激活函数详解

2.1 ReLU（Rectified Linear Unit，整流线性单元）

2.2 Sigmoid（S型函数）

2.3 Tanh（双曲正切函数）

2.4 Softmax（软最大值函数）

3. 高级激活函数探索

3.1 LeakyReLU（泄漏ReLU）

3.2 PReLU（参数化ReLU）

3.3 ELU（指数线性单元）

3.4 Swish（S型加权线性单元）

4. 激活函数的选择原则

5. 自定义激活函数实战

总结

相关文档

Python 教程

FastAPI 教程

Django 6中文教程

Flask 中文教程

NumPy 中文教程

Scikit-learn 中文教程