7.2 损失函数（Loss Functions）

TensorFlow损失函数详解：从分类到回归与自定义损失

TensorFlow 中文手册

本章节深入讲解TensorFlow中的损失函数，涵盖分类任务中的交叉熵（如SparseCategoricalCrossentropy）、回归任务中的MSE和MAE等，以及如何自定义损失函数和处理类别不平衡、缺失值。适合新手学习，提供简单易懂的示例。

损失函数（Loss Functions）详解

损失函数是机器学习模型训练的核心组件，它衡量模型预测与实际值之间的差异。在TensorFlow中，选择合适的损失函数对模型性能至关重要。本章节将详细介绍各种损失函数及其应用，帮助您轻松上手。

什么是损失函数？

损失函数用于量化模型预测的误差，指导模型通过优化算法（如梯度下降）减少错误。在TensorFlow中，损失函数通常与tf.keras.losses模块相关，用于分类和回归任务。

分类任务损失

分类任务中，损失函数用于评估分类准确性。TensorFlow提供了多种交叉熵损失函数。

SparseCategoricalCrossentropy

适用于整数标签的分类任务，如多分类中标签为0、1、2等。

import tensorflow as tf

# 示例：使用SparseCategoricalCrossentropy损失函数
loss_fn = tf.keras.losses.SparseCategoricalCrossentropy()
y_true = [0, 1, 2]  # 整数标签
y_pred = tf.constant([[0.9, 0.05, 0.05], [0.1, 0.8, 0.1], [0.2, 0.3, 0.5]])  # 预测概率
loss = loss_fn(y_true, y_pred)
print("损失值:", loss.numpy())

CategoricalCrossentropy

适用于one-hot编码标签的分类任务。

loss_fn = tf.keras.losses.CategoricalCrossentropy()
y_true = tf.constant([[1, 0, 0], [0, 1, 0], [0, 0, 1]])  # one-hot编码
y_pred = tf.constant([[0.9, 0.05, 0.05], [0.1, 0.8, 0.1], [0.2, 0.3, 0.5]])
loss = loss_fn(y_true, y_pred)
print("损失值:", loss.numpy())

BinaryCrossentropy

适用于二分类任务，标签为0或1。

loss_fn = tf.keras.losses.BinaryCrossentropy()
y_true = [0, 1, 0]  # 二分类标签
y_pred = [0.1, 0.9, 0.2]  # 预测概率
loss = loss_fn(y_true, y_pred)
print("损失值:", loss.numpy())

回归任务损失

回归任务中，损失函数衡量连续值的误差。

MSE（均方误差）

计算平方误差的平均值，对离群点敏感。

loss_fn = tf.keras.losses.MeanSquaredError()
y_true = [1.0, 2.0, 3.0]
y_pred = [0.9, 2.1, 2.8]
loss = loss_fn(y_true, y_pred)
print("MSE损失值:", loss.numpy())

MAE（平均绝对误差）

计算绝对误差的平均值，对离群点不敏感。

loss_fn = tf.keras.losses.MeanAbsoluteError()
y_true = [1.0, 2.0, 3.0]
y_pred = [0.9, 2.1, 2.8]
loss = loss_fn(y_true, y_pred)
print("MAE损失值:", loss.numpy())

RMSE（均方根误差）

MSE的平方根，用于保持与原值相同量纲。

import numpy as np

# TensorFlow中没有直接RMSE损失函数，但可通过MSE计算
loss_fn = tf.keras.losses.MeanSquaredError()
y_true = [1.0, 2.0, 3.0]
y_pred = [0.9, 2.1, 2.8]
mse = loss_fn(y_true, y_pred)
rmse = np.sqrt(mse.numpy())
print("RMSE损失值:", rmse)

Huber Loss

结合MSE和MAE的优点，对离群点不敏感。

loss_fn = tf.keras.losses.Huber()
y_true = [1.0, 2.0, 3.0]
y_pred = [0.9, 2.1, 2.8]
loss = loss_fn(y_true, y_pred)
print("Huber损失值:", loss.numpy())

自定义损失函数

当标准损失函数不适用时，可以自定义损失函数。

创建自定义损失函数

使用tf.function或继承tf.keras.losses.Loss类。

# 方法1：使用tf.function定义简单自定义损失
@tf.function
def custom_mse(y_true, y_pred):
    return tf.reduce_mean(tf.square(y_true - y_pred))

# 示例
loss = custom_mse(tf.constant([1.0, 2.0]), tf.constant([0.9, 2.1]))
print("自定义MSE损失值:", loss.numpy())

# 方法2：继承tf.keras.losses.Loss类
class CustomLoss(tf.keras.losses.Loss):
    def __init__(self, name='custom_loss'):
        super().__init__(name=name)
    
    def call(self, y_true, y_pred):
        # 自定义逻辑，例如加权误差
        return tf.reduce_mean(tf.abs(y_true - y_pred) * 2)  # 示例：加权MAE

loss_fn = CustomLoss()
loss = loss_fn(tf.constant([1.0, 2.0]), tf.constant([0.9, 2.1]))
print("自定义加权损失值:", loss.numpy())

损失函数的加权与掩码

处理类别不平衡和缺失值问题。

加权损失

在分类任务中，如果某些类别样本少，可以加权损失以平衡。

# 示例：加权交叉熵损失
class_weights = {0: 1.0, 1: 2.0}  # 假设类别1样本少，权重高
loss_fn = tf.keras.losses.SparseCategoricalCrossentropy()
y_true = [0, 1, 0]
y_pred = tf.constant([[0.9, 0.1], [0.1, 0.9], [0.8, 0.2]])

# 手动计算加权损失
weighted_loss = 0
for i in range(len(y_true)):
    loss_i = loss_fn([y_true[i]], [y_pred[i]])
    weighted_loss += loss_i * class_weights[y_true[i]]
weighted_loss /= len(y_true)
print("加权损失值:", weighted_loss.numpy())

掩码损失

处理缺失值，通过掩码忽略某些样本。

# 示例：掩码处理缺失值
y_true = [1.0, 2.0, None]  # 假设第三个值为缺失
y_pred = [0.9, 2.1, 2.8]
# 转换为Tensor，并创建掩码
mask = tf.constant([1, 1, 0], dtype=tf.float32)  # 1表示有效，0表示缺失
y_true_tensor = tf.constant([1.0, 2.0, 0.0])  # 缺失值用0填充，但会被掩码忽略
y_pred_tensor = tf.constant([0.9, 2.1, 2.8])

# 计算掩码损失，使用MSE示例
loss_fn = tf.keras.losses.MeanSquaredError()
# 手动计算掩码损失
masked_loss = loss_fn(y_true_tensor * mask, y_pred_tensor * mask)
print("掩码损失值:", masked_loss.numpy())

总结

损失函数是TensorFlow模型训练的关键。本章节介绍了分类和回归任务的标准损失函数，并演示了如何自定义损失函数以及处理加权和掩码问题。通过实践示例，您可以更好地理解和应用这些概念。在构建模型时，根据任务特点选择合适的损失函数，优化模型性能。

继续学习，您可以探索更高级的主题，如损失函数的组合使用或在复杂神经网络中的应用。

上一章 7.1 激活函数（Activation Functions）

下一章 7.3 优化器（Optimizers）