7.2 回归任务评估指标

回归任务评估指标详解：MAE、MSE、RMSE、R²、MAPE及适用场景比较

Scikit-learn 中文教程

本教程章节面向初学者，详细讲解回归任务中常用的评估指标，包括MAE、MSE、RMSE、R²和MAPE，并提供RMSE与MAE的适用场景比较，帮助选择抗异常值指标。

回归任务评估指标详解

在机器学习中，回归任务用于预测连续数值，评估模型性能至关重要。本章节将介绍常用的回归评估指标，包括基础指标和相对指标，并讨论如何根据场景选择合适的指标。内容适合新手，结合Scikit-learn示例，简单易懂。

1. 基础指标

1.1 MAE（平均绝对误差）

MAE衡量预测值与真实值之间绝对误差的平均值。计算公式为： $$ MAE = \frac{1}{n} \sum_{i=1}^{n} |y_i - \hat{y}_i| $$ 其中，$y_i$ 是真实值，$\hat{y}_i$ 是预测值，$n$ 是样本数。

特点：简单直观，对异常值不敏感，因为它不平方误差。

1.2 MSE（均方误差）

MSE是预测值与真实值之间平方误差的平均值。计算公式为： $$ MSE = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 $$

特点：对异常值敏感，因为它放大了大误差的影响。常用于优化问题中。

1.3 RMSE（均方根误差）

RMSE是MSE的平方根，计算公式为： $$ RMSE = \sqrt{MSE} = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2} $$

特点：与MSE类似，但单位与原始数据一致，更易于解释。对异常值同样敏感。

2. 相对指标

2.1 R²（决定系数）

R²衡量模型对数据方差的解释程度，范围在0到1之间。计算公式为： $$ R^2 = 1 - \frac{\sum_{i=1}^{n} (y_i - \hat{y}i)^2}{\sum{i=1}^{n} (y_i - \bar{y})^2} $$ 其中，$\bar{y}$ 是真实值的平均值。

意义：R²越接近1，模型拟合越好；为0表示模型不优于平均值预测。

2.2 MAPE（平均绝对百分比误差）

MAPE衡量预测误差的相对大小，常用于时间序列预测。计算公式为： $$ MAPE = \frac{100%}{n} \sum_{i=1}^{n} \left| \frac{y_i - \hat{y}_i}{y_i} \right| $$

适用情况：适合比较不同尺度数据的误差，但对真实值为零的情况有局限性。

3. 适用场景比较：RMSE vs MAE

3.1 RMSE的优势与劣势

对异常值敏感：由于平方误差，RMSE会放大异常值的影响，适合强调大误差的场景。
单位一致性：RMSE的单位与原始数据相同，便于比较不同数据集。

3.2 MAE的优势与劣势

抗异常值：MAE使用绝对值，对异常值不敏感，适合数据中存在离群点的场景。
稳定性：MAE提供更稳定的误差估计，不易受极端值扰动。

3.3 如何选择

如果数据分布相对均匀，没有明显异常值：可以选择RMSE，因为它能更敏感地捕捉误差。
如果数据中存在异常值，或者你希望减少异常值对评估的影响：使用MAE更合适。
一般实践中：可以同时计算多个指标，综合评估模型性能。

4. Scikit-learn实现示例

Scikit-learn提供了内置函数来计算这些指标，让新手也能轻松上手。

# 导入必要的库
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
import numpy as np

# 示例数据：真实值和预测值
y_true = [3, -0.5, 2, 7]
y_pred = [2.5, 0.0, 2, 8]

# 计算MAE
ae = mean_absolute_error(y_true, y_pred)
print(f"MAE: {mae}")

# 计算MSE和RMSE
mse = mean_squared_error(y_true, y_pred)
print(f"MSE: {mse}")
rmse = np.sqrt(mse)  # Scikit-learn没有直接RMSE函数，可以手动计算
print(f"RMSE: {rmse}")

# 计算R²
r2 = r2_score(y_true, y_pred)
print(f"R²: {r2}")

# 计算MAPE（Scikit-learn没有直接MAPE函数，需要自定义）
def mape(y_true, y_pred):
    return np.mean(np.abs((y_true - y_pred) / y_true)) * 100

# 转换为NumPy数组以便计算
mape_value = mape(np.array(y_true), np.array(y_pred))
print(f"MAPE: {mape_value}%")

5. 总结

基础指标：MAE、MSE和RMSE是直接衡量误差大小的常用指标。
相对指标：R²和MAPE提供相对性能评估，适用于不同场景。
选择建议：根据数据特性和任务需求，灵活选择RMSE或MAE；在存在异常值时，优先考虑MAE。

通过本章节的学习，你应该能理解这些回归评估指标的基本概念，并能在Scikit-learn中应用它们来评估模型。继续练习，深入掌握机器学习回归任务！

上一章 7.1 分类任务评估指标

下一章 7.3 聚类任务评估指标

Scikit-learn 中文教程

7.2 回归任务评估指标

回归任务评估指标详解

1. 基础指标

1.1 MAE（平均绝对误差）

1.2 MSE（均方误差）

1.3 RMSE（均方根误差）

2. 相对指标

2.1 R²（决定系数）

2.2 MAPE（平均绝对百分比误差）

3. 适用场景比较：RMSE vs MAE

3.1 RMSE的优势与劣势

3.2 MAE的优势与劣势

3.3 如何选择

4. Scikit-learn实现示例

5. 总结

相关文档

Python 教程

FastAPI 教程

Django 6中文教程

Flask 中文教程

NumPy 中文教程

TensorFlow 中文手册