9.2 数值型与类别型数据预处理

TensorFlow数据预处理完全指南：数值缩放与类别编码详解

TensorFlow 中文手册

本文是TensorFlow中文学习手册的一章，详细介绍数值型数据缩放（StandardScaler/MinMaxScaler）、类别型数据编码（OneHotEncoder/LabelEncoder）和缺失值处理方法，并指导如何衔接Scikit-learn工具并转换为TensorFlow张量，适合新人快速上手。

数值型与类别型数据预处理

在机器学习和深度学习中，数据预处理是模型训练前的关键步骤，它直接影响模型的性能和效率。本章将介绍如何在TensorFlow中处理数值型和类别型数据，包括缩放、编码和缺失值处理，并结合Scikit-learn工具进行衔接，使新人能够轻松掌握。

1. 引言

TensorFlow是一个强大的深度学习框架，但它要求输入数据为张量格式。在真实数据中，我们常遇到数值型数据尺度不一致、类别型数据需要编码或存在缺失值的问题。通过预处理，我们可以将原始数据转换为适合TensorFlow张量运算的格式，提升模型训练效果。本章将使用Scikit-learn（一个流行的Python机器学习库）作为辅助工具，实现数据预处理并与TensorFlow结合。

2. 数值型数据缩放

数值型数据缩放（也称为特征缩放）旨在调整数据尺度，使特征值在同一范围内，有助于加速梯度下降收敛并提高模型性能。常见的缩放方法有标准化（StandardScaler）和归一化（MinMaxScaler）。

2.1 标准化（StandardScaler）

标准化通过减去均值并除以标准差，将数据转换为均值为0、标准差为1的分布。它适用于数据分布近似正态的情况。

示例代码：

import numpy as np
from sklearn.preprocessing import StandardScaler
import tensorflow as tf

# 示例数值型数据：假设是一个二维数组，代表多个样本和特征
data = np.array([[1.0, 2.0], [3.0, 4.0], [5.0, 6.0]])  # 形状 (3, 2)

# 使用Scikit-learn的StandardScaler
scaler = StandardScaler()
scaled_data = scaler.fit_transform(data)  # 进行标准化
print("标准化后数据：", scaled_data)

# 转换为TensorFlow张量，以便后续在模型中使用
tensor_scaled = tf.convert_to_tensor(scaled_data, dtype=tf.float32)
print("TensorFlow张量：", tensor_scaled)

2.2 归一化（MinMaxScaler）

归一化将数据缩放到指定范围（通常为[0, 1]），适用于数据没有明显异常值的情况。

示例代码：

from sklearn.preprocessing import MinMaxScaler

# 使用MinMaxScaler
minmax_scaler = MinMaxScaler()
normalized_data = minmax_scaler.fit_transform(data)  # 进行归一化
print("归一化后数据：", normalized_data)

# 转换为TensorFlow张量
tensor_normalized = tf.convert_to_tensor(normalized_data, dtype=tf.float32)

注意事项： 在缩放后，如果需要在模型推理时对新数据进行处理，记得使用相同的scaler对象进行变换（通过transform方法），以保持一致性。

3. 类别型数据编码

类别型数据（如性别、颜色等）不能直接用于数值计算，需要转换为数值形式。常见编码方法有标签编码（LabelEncoder）和独热编码（OneHotEncoder）。

3.1 标签编码（LabelEncoder）

标签编码将类别转换为整数标签（如0, 1, 2...），适用于有序或分类数量较少的情况。但注意，它可能引入虚假的顺序关系。

示例代码：

from sklearn.preprocessing import LabelEncoder

# 示例类别型数据：一个类别列表
categories = ['红色', '蓝色', '红色', '绿色']  # 形状 (4,)

# 使用LabelEncoder
label_encoder = LabelEncoder()
encoded_labels = label_encoder.fit_transform(categories)  # 转换为整数数组
print("标签编码后：", encoded_labels)  # 输出如 [0 1 0 2]

# 转换为TensorFlow张量（通常作为整数张量使用）
tensor_labels = tf.convert_to_tensor(encoded_labels, dtype=tf.int32)

3.2 独热编码（OneHotEncoder）

独热编码将每个类别转换为一个二进制向量（只有一个元素为1，其余为0），适用于无序分类，避免顺序误解。

示例代码：

from sklearn.preprocessing import OneHotEncoder

# 使用OneHotEncoder：需要将数据重塑为二维数组
data_2d = np.array(categories).reshape(-1, 1)  # 形状 (4, 1)
onehot_encoder = OneHotEncoder(sparse_output=False)  # 设置sparse_output=False以获取密集数组
encoded_onehot = onehot_encoder.fit_transform(data_2d)
print("独热编码后数据：", encoded_onehot)

# 转换为TensorFlow张量
tensor_onehot = tf.convert_to_tensor(encoded_onehot, dtype=tf.float32)

提示： 在TensorFlow中，您也可以使用tf.one_hot函数进行独热编码，但结合Scikit-learn可以方便地处理训练和测试数据。

4. 缺失值处理

缺失值是数据中的常见问题，处理不当会导致模型误差。基本方法包括填充（如用均值、中位数或特定值）或删除缺失行。在TensorFlow中，我们需要确保处理后的数据适合张量运算。

4.1 填充缺失值

填充是最常用的方法，可以用Scikit-learn的SimpleImputer（或直接使用NumPy）来填充，然后转换为张量。

示例代码：

import numpy as np
from sklearn.impute import SimpleImputer

# 示例数据，包含缺失值NaN
data_with_missing = np.array([[1.0, np.nan], [3.0, 4.0], [np.nan, 6.0]])  # 形状 (3, 2)

# 使用SimpleImputer填充缺失值（这里用均值填充）
imputer = SimpleImputer(strategy='mean')
filled_data = imputer.fit_transform(data_with_missing)
print("填充后数据：", filled_data)

# 转换为TensorFlow张量
tensor_filled = tf.convert_to_tensor(filled_data, dtype=tf.float32)

4.2 删除缺失值

如果缺失值较少，可以考虑删除整行或整列，但这可能丢失信息。使用NumPy或Pandas删除后，再转换为张量。

示例代码：

# 使用NumPy删除包含NaN的行
data_cleaned = data_with_missing[~np.isnan(data_with_missing).any(axis=1)]  # 删除任何行有NaN的行
print("删除缺失值后数据：", data_cleaned)

# 转换为TensorFlow张量
tensor_cleaned = tf.convert_to_tensor(data_cleaned, dtype=tf.float32)

适配张量运算： 在TensorFlow中，确保处理后的数据是数值型且无NaN，否则会导致错误。可以使用tf.debugging.assert_all_finite等函数检查数据完整性。

5. 总结

本章介绍了数值型与类别型数据预处理的常用方法。通过结合Scikit-learn工具，我们可以高效地进行标准化、归一化、编码和缺失值处理，然后将结果转换为TensorFlow张量，为后续模型训练做好准备。记住，预处理步骤应根据数据特性和模型需求调整，例如，在分类任务中优先使用独热编码，而在处理缺失值时评估填充与删除的利弊。实践这些技巧，您将能更好地构建和优化TensorFlow模型。

下一步建议： 尝试在自己的数据集上应用这些预处理方法，并观察模型性能的变化。如果您遇到问题，参考TensorFlow和Scikit-learn官方文档获取更多细节。

上一章 9.1 数据预处理核心原则

下一章 9.3 文本数据预处理

TensorFlow 中文手册

9.2 数值型与类别型数据预处理

数值型与类别型数据预处理

1. 引言

2. 数值型数据缩放

2.1 标准化（StandardScaler）

2.2 归一化（MinMaxScaler）

3. 类别型数据编码

3.1 标签编码（LabelEncoder）

3.2 独热编码（OneHotEncoder）

4. 缺失值处理

4.1 填充缺失值

4.2 删除缺失值

5. 总结

相关文档

Python 教程

FastAPI 教程

Django 6中文教程

Flask 中文教程

NumPy 中文教程

Scikit-learn 中文教程