5.2 异常值处理

Scikit-learn异常值处理教程：检测方法、修正策略与实操指南

Scikit-learn 中文教程

本教程详细介绍了异常值处理的关键方法，包括3σ原则、箱线图和孤立森林检测，以及截断、替换和删除修正策略。结合Scikit-learn库的实操示例，帮助初学者快速掌握异常值处理技能，提升机器学习模型性能。

异常值处理教程：从检测到修正，Scikit-learn实操指南

引言

在机器学习项目中，异常值（Outliers）是数据中的异常或不常见值，可能由测量错误、数据录入问题或真实异常行为导致。处理异常值至关重要，因为它们可能扭曲统计结果、影响模型训练，导致预测性能下降。本章节将带你了解异常值检测的常用方法，修正策略，并通过Scikit-learn库进行实际操作。

异常值检测方法

异常值检测旨在识别数据中偏离常规模式的值。以下是三种常用方法：

1. 3σ原则（3-Sigma Rule）

基于正态分布假设，数据在均值（μ）附近呈钟形分布。3σ原则认为，几乎所有数据点（约99.7%）落在μ ± 3σ（标准差）范围内。超出此范围的被视为异常值。

原理：假设数据服从正态分布。
步骤：计算均值和标准差；异常值定义为 |值 - 均值| > 3 * 标准差。
优点：简单易行，适用于近似正态分布的数据。
缺点：对非正态分布数据效果差，且受异常值本身影响。

2. 箱线图法（Boxplot Method）

箱线图是一种可视化工具，基于四分位数识别异常值。它使用内围栏（IQR，四分位距）来定义正常范围。

原理：计算第一四分位数（Q1）、第三四分位数（Q3）和IQR（Q3 - Q1）。
异常值定义：低于 Q1 - 1.5 * IQR 或高于 Q3 + 1.5 * IQR 的值。
优点：非参数方法，不依赖分布假设，适用于各种数据。
缺点：阈值固定，可能忽略结构异常。

3. Isolation Forest（孤立森林）

这是一种基于树的算法，专门用于异常值检测。它通过随机分割数据来隔离异常点，因为异常值更容易被隔离。

原理：构建随机树，异常值通常需要更少的划分步骤被隔离。
Scikit-learn实现：使用 IsolationForest 类。
优点：高效处理高维数据，无需分布假设，适用于大数据集。
缺点：训练可能需要更多计算资源。

异常值修正策略

检测出异常值后，需要决定如何处理它们。常见修正方法包括：

截断（Truncation）：将异常值限制在预设的上下限内，如替换为阈值值。适用于受边界约束的数据。
替换（Replacement）：用替代值如均值、中位数或预测值替换异常值。保持数据完整性，但可能引入偏差。
删除（Deletion）：直接移除异常值对应的数据点。简单直接，但可能损失有用信息，尤其是当异常值代表真实异常时。

选择策略取决于数据场景和模型目标。例如，如果异常值由错误导致，删除或替换可能更合适；如果是真实异常，保留或专门处理可能更好。

Scikit-learn异常值处理组件实操

Scikit-learn提供了多种工具用于异常值处理，这里以Isolation Forest为例进行实操。

环境准备

首先，确保安装了Scikit-learn库。如果没有，可以使用 pip install scikit-learn 安装。

示例：使用Isolation Forest检测异常值

我们将生成一个模拟数据集，应用Isolation Forest检测异常值，并进行修正。

# 导入必要的库
import numpy as np
import pandas as pd
from sklearn.ensemble import IsolationForest
from sklearn.datasets import make_blobs
import matplotlib.pyplot as plt

# 生成模拟数据：正常点加一些异常点
np.random.seed(42)
X, _ = make_blobs(n_samples=100, centers=1, random_state=42)  # 100个正常点
# 添加一些异常点
outliers = np.random.randn(10, 2) * 5 + np.array([10, 10])  # 10个异常点
X_with_outliers = np.vstack([X, outliers])  # 合并数据

# 创建Isolation Forest模型
iso_forest = IsolationForest(contamination=0.1, random_state=42)  # 假设约10%的异常值
# 训练模型
iso_forest.fit(X_with_outliers)
# 预测：1表示正常，-1表示异常
preds = iso_forest.predict(X_with_outliers)

# 标记异常值
outlier_indices = np.where(preds == -1)[0]
normal_indices = np.where(preds == 1)[0]

# 可视化检测结果
plt.figure(figsize=(10, 6))
plt.scatter(X_with_outliers[normal_indices, 0], X_with_outliers[normal_indices, 1], c='blue', label='Normal')
plt.scatter(X_with_outliers[outlier_indices, 0], X_with_outliers[outlier_indices, 1], c='red', label='Outliers')
plt.title('Isolation Forest异常值检测结果')
plt.legend()
plt.show()

print(f"检测到 {len(outlier_indices)} 个异常值。")

修正异常值示例：替换为均值

假设我们将检测到的异常值替换为数据集的均值。

# 计算所有数据的均值（或使用正常数据的均值）
mean_values = np.mean(X_with_outliers[normal_indices], axis=0) if len(normal_indices) > 0 else np.mean(X_with_outliers, axis=0)

# 创建修正后的数据集
X_corrected = X_with_outliers.copy()
for idx in outlier_indices:
    X_corrected[idx] = mean_values  # 替换为均值

print("原始数据集（带异常值）示例：", X_with_outliers[:5])
print("修正后数据集示例（异常值替换为均值）：", X_corrected[:5])

其他Scikit-learn组件

RobustScaler：使用中位数和IQR进行缩放，对异常值不敏感，常用于数据预处理。
OneClassSVM：另一种异常值检测方法，适用于高维数据。

使用RobustScaler减少异常值影响：

from sklearn.preprocessing import RobustScaler

scaler = RobustScaler()
X_scaled = scaler.fit_transform(X_with_outliers)  # 缩放数据
print("缩放后的数据（减少异常值影响）：", X_scaled[:5])

总结与最佳实践

选择合适方法：基于数据分布和业务场景。例如，正态数据用3σ原则，通用场景用箱线图或孤立森林。
谨慎修正：删除可能导致信息丢失；替换可能引入偏差；截断适用于有界数据。
使用Scikit-learn：库提供了IsolationForest、RobustScaler等工具，易于集成到机器学习流程中。
验证效果：通过可视化或模型性能评估异常值处理的效果。

通过本章学习，你应能识别和处理异常值，提升数据质量和模型可靠性。实践中，建议结合多种方法，并根据项目需求调整。

上一章 5.1 缺失值处理

下一章 5.3 类别特征编码

Scikit-learn 中文教程

5.2 异常值处理

异常值处理教程：从检测到修正，Scikit-learn实操指南

引言

异常值检测方法

1. 3σ原则（3-Sigma Rule）

2. 箱线图法（Boxplot Method）

3. Isolation Forest（孤立森林）

异常值修正策略

Scikit-learn异常值处理组件实操

环境准备

示例：使用Isolation Forest检测异常值

修正异常值示例：替换为均值

其他Scikit-learn组件

总结与最佳实践

相关文档

Python 教程

FastAPI 教程

Django 6中文教程

Flask 中文教程

NumPy 中文教程

TensorFlow 中文手册