10.1 重复值处理（核心：去重，保留有效数据）

Pandas重复值处理全攻略：drop_duplicates方法详解

Pandas 中文手册

本章节详细介绍Pandas中处理重复数据的方法，包括使用drop_duplicates删除重复行、配置核心参数如subset、keep和inplace，并提供注意事项以避免误删有效数据，适合数据分析新手学习。

重复值处理：去重与保留有效数据

重复数据在数据分析中常导致结果偏差，因此有效处理重复值是数据清洗的关键步骤。本章节将详细讲解Pandas中的重复值处理方法，重点介绍drop_duplicates方法，帮助您去重并保留有效数据。

什么是重复值处理？

重复值处理指在数据集中识别并删除或合并重复的记录，以确保数据分析的准确性。在Pandas中，重复行可能指整行数据完全相同，或基于某些列的数据重复。核心目标是：去重，同时保留有效数据，避免误删重要信息。

drop_duplicates方法简介

drop_duplicates是Pandas DataFrame对象的一个方法，用于删除重复行。它默认基于所有列来识别重复，但可以通过参数灵活调整。

基本用法示例

import pandas as pd

# 创建一个包含重复数据的DataFrame
data = {'姓名': ['张三', '李四', '李四', '王五'],
        '年龄': [25, 30, 30, 28],
        '城市': ['北京', '上海', '上海', '广州']}
df = pd.DataFrame(data)
print("原始数据:")
print(df)

# 删除所有列重复的行
df_no_dup = df.drop_duplicates()
print("\n去重后数据:")
print(df_no_dup)

运行结果会显示删除重复行后的DataFrame，默认保留首次出现的行。

核心参数详解

drop_duplicates方法有三个核心参数：subset、keep和inplace，用于控制去重行为。

subset参数

作用：指定基于哪些列来判断重复。可以是单个列名或列名列表。
示例：删除基于“姓名”列的重复行。

df_subset = df.drop_duplicates(subset=['姓名'])
print("基于姓名列去重:")
print(df_subset)

这可以用于处理部分列重复的情况，保留数据完整性。

keep参数

作用：指定保留哪个重复行。可选值：'first'（默认，保留首次出现的行）、'last'（保留最后出现的行）、False（删除所有重复行）。
示例：保留最后出现的重复行。

df_keep_last = df.drop_duplicates(keep='last')
print("保留最后出现的重复行:")
print(df_keep_last)

inplace参数

作用：布尔值，决定是否在原DataFrame上修改。True表示直接修改原数据；False（默认）返回一个新的DataFrame。
示例：在原数据上删除重复行。

df_copy = df.copy()  # 备份原数据
print("修改前:")
print(df_copy)
df_copy.drop_duplicates(inplace=True)
print("修改后:")
print(df_copy)

注意：使用inplace=True时要谨慎，避免丢失原始数据。

删除指定列的重复值

通过subset参数，可以仅基于某些列删除重复，这在多列数据中非常有用。例如，如果您只关心“城市”列的唯一性，可以这样做：

df_city_dup = df.drop_duplicates(subset=['城市'])
print("基于城市列去重:")
print(df_city_dup)

这样，其他列的数据可能不同，但基于指定列去除了重复行。

重复值处理的注意事项

处理重复值时，需避免误删有效数据，以下几点需注意：

检查数据分布：去重前，使用df.duplicated()方法查看重复行位置，确认重复原因（如数据录入错误或正常重复）。
备份原数据：建议先使用df.copy()备份，或设置inplace=False，以防操作失误。
结合业务逻辑：例如，在销售数据中，同一客户可能有多次交易，去重时应基于订单ID而非客户名。
测试参数效果：尝试不同的keep和subset设置，并用小样本验证结果。

总结

Pandas的drop_duplicates方法是处理重复数据的强大工具，通过调整参数如subset、keep和inplace，可以灵活应对各种场景。始终记住先理解数据、备份原数据，并结合实际需求去重，以确保数据分析的准确性。

通过本章节学习，您应能掌握基本去重操作，提升数据清洗效率。如有疑问，多练习示例代码以巩固知识。

上一章 9.5 缺失值处理实战案例

下一章 10.2 异常值处理（核心：识别→处理，不破坏数据分布）

Pandas 中文手册

10.1 重复值处理（核心：去重，保留有效数据）

重复值处理：去重与保留有效数据

什么是重复值处理？

drop_duplicates方法简介

基本用法示例

核心参数详解

subset参数

keep参数

inplace参数

删除指定列的重复值

重复值处理的注意事项

总结

相关文档

Python 教程

FastAPI 教程

Django 6中文教程

Flask 中文教程

NumPy 中文教程

Scikit-learn 中文教程