12.2 数据标准化与归一化

NumPy高级教程：数据标准化与归一化实战，Z-Score与Min-Max详解

NumPy 中文教程

本教程详细讲解使用NumPy进行数据标准化和归一化，包括Z-Score标准化和Min-Max归一化的概念、实现方法及实战应用在机器学习特征预处理中，适合新手入门学习。

NumPy教程：数据标准化与归一化在机器学习中的实战应用

引言

数据标准化和归一化是机器学习中常见的特征预处理步骤，它们有助于优化模型性能，提高训练效率和准确性。数据标准化通常指Z-Score标准化，将数据转换为均值为0、标准差为1的分布；而归一化指Min-Max归一化，将数据缩放到特定范围（如0到1）。在NumPy中，我们可以轻松实现这些方法，本教程将详细介绍并实战演示。

1. 什么是数据标准化和归一化？

数据标准化（Z-Score标准化）：将数据转换为具有零均值和单位标准差，公式为 z = (x - mean) / std。这有助于处理不同尺度的特征。
数据归一化（Min-Max归一化）：将数据缩放到指定范围（如0到1），公式为 x_scaled = (x - min) / (max - min)。这适用于需要固定范围或避免负值的数据。
为什么重要：在机器学习中，未处理的原始数据可能导致梯度下降慢、模型收敛困难或过拟合。标准化和归一化可以加速训练，提高模型泛化能力。

2. Z-Score标准化详解

定义和公式

Z-Score标准化基于数据的均值和标准差，使数据分布接近标准正态分布。公式： [ z = \frac{x - \mu}{\sigma} ] 其中，(\mu) 是均值，(\sigma) 是标准差。

用NumPy实现Z-Score标准化

NumPy提供了高效计算均值和标准差的函数。假设我们有一个二维数组data（例如，100个样本，5个特征），代码如下：

import numpy as np

# 示例数据：生成随机数据，模拟真实数据集
np.random.seed(42)  # 设置随机种子以确保可重复性
data = np.random.randn(100, 5)  # 100行，5列，符合正态分布

# 计算均值和标准差，按列（特征）计算
mean = np.mean(data, axis=0)  # axis=0表示沿列计算
std = np.std(data, axis=0)

# 应用Z-Score标准化
standardized_data = (data - mean) / std

print("原始数据形状:", data.shape)
print("标准化后均值:", np.mean(standardized_data, axis=0))
print("标准化后方差:", np.var(standardized_data, axis=0))  # 方差应接近1

优点和缺点

优点：
- 适用于数据近似正态分布的情况。
- 中心化数据，有助于优化算法（如逻辑回归、SVM）。
缺点：
- 对离群值敏感，可能会放大离群值的影响。
- 当数据不接近正态分布时，效果可能不佳。

3. Min-Max归一化详解

定义和公式

Min-Max归一化将数据缩放到指定范围（通常为0到1），公式： [ x_{scaled} = \frac{x - \min}{\max - \min} ] 其中，(\min) 和 (\max) 是数据的最小值和最大值。

用NumPy实现Min-Max归一化

使用NumPy计算最小值和最大值，并应用归一化：

# 使用相同示例数据
data = np.random.randn(100, 5)  # 重新生成数据，保持一致性

# 计算最小值和最大值，按列计算
min_val = np.min(data, axis=0)
max_val = np.max(data, axis=0)

# 应用Min-Max归一化
normalized_data = (data - min_val) / (max_val - min_val)

print("归一化后最小值:", np.min(normalized_data, axis=0))
print("归一化后最大值:", np.max(normalized_data, axis=0))  # 应接近0和1

优点和缺点

优点：
- 将数据缩放到固定范围，适合需要约束范围的算法（如神经网络）。
- 对稀疏数据效果好。
缺点：
- 受极值（最大值和最小值）影响，如果数据集有离群值，可能导致归一化不稳定。
- 不适用于无界数据。

4. 实战：机器学习特征预处理

在机器学习项目中，数据预处理是关键步骤。我们将结合NumPy，实战演示如何应用标准化和归一化。

数据集准备

使用NumPy生成一个模拟数据集，包含多个特征，模拟真实机器学习场景。

# 生成示例数据集：假设有3个特征，每个特征来自不同分布
np.random.seed(123)
feature1 = np.random.normal(50, 10, 100)  # 正态分布，均值50，标准差10
feature2 = np.random.uniform(0, 100, 100)  # 均匀分布，范围0到100
feature3 = np.random.exponential(5, 100)  # 指数分布，均值5

# 合并成一个NumPy数组
data = np.column_stack((feature1, feature2, feature3))
print("数据集形状:", data.shape)  # (100, 3)
print("前5行数据:\n", data[:5])

应用标准化和归一化

根据数据特性选择合适的方法。例如，如果特征尺度差异大，可以先标准化。

# 标准化：使用Z-Score标准化处理所有特征
mean = np.mean(data, axis=0)
std = np.std(data, axis=0)
data_standardized = (data - mean) / std
print("标准化后数据示例:\n", data_standardized[:5])

# 归一化：使用Min-Max归一化，将数据缩放到0-1范围
min_vals = np.min(data, axis=0)
max_vals = np.max(data, axis=0)
data_normalized = (data - min_vals) / (max_vals - min_vals)
print("归一化后数据示例:\n", data_normalized[:5])

结合实战：机器学习模型预处理

在实际项目中，通常先分割数据集，再应用预处理。使用NumPy配合sklearn库，演示完整流程。

import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, MinMaxScaler  # 作为对比，但主要用NumPy

# 生成数据
data = np.random.randn(200, 4)  # 200个样本，4个特征
labels = np.random.randint(0, 2, 200)  # 二进制标签

# 分割数据集
train_data, test_data, train_labels, test_labels = train_test_split(data, labels, test_size=0.2, random_state=42)

# 使用NumPy进行标准化（训练集上计算，应用到测试集）
train_mean = np.mean(train_data, axis=0)
train_std = np.std(train_data, axis=0)
train_standardized = (train_data - train_mean) / train_std
test_standardized = (test_data - train_mean) / train_std  # 使用训练集的均值和标准差

# 使用NumPy进行归一化
train_min = np.min(train_data, axis=0)
train_max = np.max(train_data, axis=0)
train_normalized = (train_data - train_min) / (train_max - train_min)
test_normalized = (test_data - train_min) / (train_max - train_min)  # 使用训练集的最小值和最大值

print("标准化和归一化完成，可用于模型训练。")

5. 比较与选择：何时使用标准化vs归一化？

标准化（Z-Score）：
- 当数据近似正态分布时。
- 需要去除均值影响或数据尺度差异大时。
- 适用于算法如支持向量机、主成分分析（PCA）。
归一化（Min-Max）：
- 当数据有界或需要固定范围时（如0到1）。
- 适用于神经网络、聚类算法。
一般建议：尝试两种方法，根据模型性能选择。在不确定时，标准化是更稳健的选择，但归一化可能对特定数据更好。

6. 总结

本教程详细介绍了使用NumPy进行数据标准化（Z-Score）和归一化（Min-Max）的方法，包括概念、实现和实战应用。NumPy的向量化操作使得这些计算高效简单，适合机器学习特征预处理。通过实战示例，你应该能够将所学应用于自己的项目中。记住，数据预处理是机器学习成功的关键一步，标准化和归一化是基本工具。

如需进一步学习，可探索NumPy的其他功能，如数据处理、数组操作等。

上一章 12.1 数值积分与微分

下一章 12.3 图像像素处理

NumPy 中文教程

12.2 数据标准化与归一化

NumPy教程：数据标准化与归一化在机器学习中的实战应用

引言

1. 什么是数据标准化和归一化？

2. Z-Score标准化详解

定义和公式

用NumPy实现Z-Score标准化

优点和缺点

3. Min-Max归一化详解

定义和公式

用NumPy实现Min-Max归一化

优点和缺点

4. 实战：机器学习特征预处理

数据集准备

应用标准化和归一化

结合实战：机器学习模型预处理

5. 比较与选择：何时使用标准化vs归一化？

6. 总结

相关文档

Python 教程

FastAPI 教程

Django 6中文教程

Flask 中文教程

Scikit-learn 中文教程

TensorFlow 中文手册