9.1 缺失值处理的原则与思路

Pandas缺失值处理完全指南：类型、原则与策略详解

Pandas 中文手册

本章节详细介绍Pandas中缺失值处理的原则与思路，包括缺失值的类型（随机缺失、人为缺失、系统性缺失）、核心原则（不破坏数据分布、贴合业务场景），以及不同缺失比例（低、中、高）的处理策略，适合初学者简单上手。

缺失值处理的原则与思路

引言

在数据分析和处理中，缺失值是常见的问题，可能由各种原因导致。正确处理缺失值对保证数据质量和分析结果的准确性至关重要。作为Pandas用户，掌握缺失值处理的方法能帮助你更有效地进行数据清洗和分析。本章节将介绍缺失值处理的基础知识，包括类型、核心原则和策略。

缺失值的类型

缺失值根据产生原因可以分为以下三种主要类型，理解这些类型有助于选择合适的处理方式。

随机缺失（Missing At Random, MAR）：缺失与已观察到的数据无关，例如随机误差或偶然丢失。在这种情况下，缺失是随机的，不会对数据整体分布产生系统性偏差。
人为缺失（Missing Not At Random, MNAR）：缺失与未观察到的变量相关，例如在调查中，高收入人群可能故意不报告收入，导致缺失与收入水平相关。这类缺失可能引入偏差。
系统性缺失（Systematic Missing）：由于系统故障、测量错误或流程问题导致的缺失，例如传感器损坏或数据采集中断。这类缺失通常是可预测的模式。

在Pandas中，缺失值通常表示为NaN（Not a Number）或None，处理时需先识别这些类型的影响。

缺失值处理的核心原则

处理缺失值时，应遵循两个核心原则，以确保方法合理有效。

不破坏数据分布：填充或删除缺失值时，尽量保持数据的原始统计特性，如均值、方差和分布形状。例如，使用均值填充可能改变方差，需谨慎评估。
贴合业务场景：处理方法应结合具体业务需求。例如，在金融数据中，缺失的交易数据可能表示未发生事件，填充为0或删除可能更合适；而在医疗数据中，缺失的检测值可能需用插值法填充。

遵循这些原则能避免引入人为偏差，提高数据分析的可信度。

不同缺失比例的处理策略

根据缺失值的比例，可以采取不同的处理策略，从简单到复杂逐步应对。

低比例缺失（如缺失值占总数据量<5%）：
- 通常可以安全删除包含缺失值的行或列，使用df.dropna()函数。
- 或采用简单填充方法，如使用均值、中位数或众数填充，例如df.fillna(df.mean())。
- 示例：如果只有少数行有缺失，删除后对整体分析影响不大。
中比例缺失（如缺失值占总数据量5%-30%）：
- 建议使用更精细的填充方法，如基于统计模型的预测填充（如线性回归或KNN插补）、插值法（使用df.interpolate()）或利用相关变量进行填充。
- 避免直接删除，以免丢失过多信息。
- 示例：在时间序列数据中，使用插值法填充缺失的时间点。
高比例缺失（如缺失值占总数据量>30%）：
- 可能需要考虑删除该列，因为高比例缺失可能表示数据质量差或变量不可靠。
- 或使用复杂方法如机器学习模型预测缺失值，但需注意可能引入噪声，应结合业务评估。
- 示例：如果某列超过一半数据缺失，且无业务价值，直接删除可简化分析。

Pandas中的操作示例

Pandas提供了丰富的函数来处理缺失值，以下是一些常用操作和示例代码，帮助新人快速上手。

import pandas as pd
import numpy as np

# 创建一个示例DataFrame，包含缺失值
df = pd.DataFrame({
    'A': [1, 2, np.nan, 4],
    'B': [5, np.nan, 7, 8],
    'C': [9, 10, 11, np.nan]
})
print('原始数据：')
print(df)

# 检查缺失值
print('缺失值检查：')
print(df.isnull())  # 或使用 df.isna()

# 删除包含缺失值的行
print('删除缺失值后的数据：')
df_dropped = df.dropna()  # 默认删除任何包含NaN的行
print(df_dropped)

# 填充缺失值：使用列均值
print('均值填充后的数据：')
df_filled_mean = df.fillna(df.mean())
print(df_filled_mean)

# 填充缺失值：使用前向填充（适用于时间序列）
print('前向填充后的数据：')
df_filled_ffill = df.fillna(method='ffill')  # 用前一个值填充
print(df_filled_ffill)

# 插值法填充：线性插值
print('插值填充后的数据：')
df_interpolated = df.interpolate()  # 默认线性插值
print(df_interpolated)

# 根据不同比例应用策略
# 假设列A缺失比例低，直接填充；列B缺失比例中，使用插值；列C缺失比例高，考虑删除
if df['A'].isnull().sum() / len(df) < 0.05:
    df['A'] = df['A'].fillna(df['A'].mean())
if 0.05 <= df['B'].isnull().sum() / len(df) <= 0.30:
    df['B'] = df['B'].interpolate()
if df['C'].isnull().sum() / len(df) > 0.30:
    df = df.drop(columns=['C'])
print('处理后的数据：')
print(df)

总结

缺失值处理是数据清洗的关键步骤。通过理解缺失值的类型、遵循核心原则，并根据缺失比例选择合适策略，你可以有效提升数据质量。Pandas的工具如dropna()、fillna()和interpolate()能简化操作。在实践中，多结合业务场景进行测试和调整，以达到最佳处理效果。

上一章 8.6 数据质量检查实战案例

下一章 9.2 缺失值删除法（简单直接，谨慎使用）

Pandas 中文手册

9.1 缺失值处理的原则与思路

缺失值处理的原则与思路

引言

缺失值的类型

缺失值处理的核心原则

不同缺失比例的处理策略

Pandas中的操作示例

总结

相关文档

Python 教程

FastAPI 教程

Django 6中文教程

Flask 中文教程

NumPy 中文教程

Scikit-learn 中文教程