13.1 数据排序（核心，按行/列排序）

Pandas数据排序完全指南：索引排序与值排序详解

Pandas 中文手册

本章详细介绍Pandas中的数据排序，包括按索引排序的sort_index方法和按值排序的sort_values方法。涵盖单列排序、多列排序、核心参数如ascending、na_position、inplace，以及缺失值的处理，适合初学者轻松上手。

数据排序：核心概念与实践

排序是数据处理中的一项基本操作，它能帮助我们更好地组织和分析数据。在Pandas中，排序主要分为按索引排序和按值排序两种方式，使用起来非常灵活。本章将带你深入了解这些排序方法，并学习如何控制排序过程。

按索引排序：使用sort_index方法

sort_index() 方法用于按DataFrame的行索引或列索引进行排序。索引排序常用于快速整理数据顺序。

按行索引排序

默认情况下，sort_index() 按行索引排序（axis=0）。

import pandas as pd

# 创建一个示例DataFrame，行索引为字母
df = pd.DataFrame({'A': [3, 1, 2], 'B': [5, 4, 6]}, index=['c', 'a', 'b'])
print("原始DataFrame:")
print(df)

# 按行索引升序排序
df_sorted = df.sort_index()
print("\n按行索引排序后:")
print(df_sorted)

按列索引排序

通过设置参数 axis=1，可以按列索引排序。

# 创建一个列索引为字母的示例DataFrame
df_cols = pd.DataFrame({3: [1, 2], 1: [3, 4], 2: [5, 6]}, columns=['c', 'a', 'b'])
print("原始DataFrame（列索引为字母）:")
print(df_cols)

# 按列索引升序排序
df_sorted_cols = df_cols.sort_index(axis=1)
print("\n按列索引排序后:")
print(df_sorted_cols)

按值排序：使用sort_values方法

sort_values() 方法是按DataFrame中的值进行排序，更常用，因为它直接基于数据内容。

按单列排序

指定 by 参数为列名，使用 ascending 参数控制升序（True）或降序（False）。

# 按列'A'的值升序排序
df_sorted_A_asc = df.sort_values(by='A', ascending=True)
print("按列'A'升序排序:")
print(df_sorted_A_asc)

# 按列'A'的值降序排序
df_sorted_A_desc = df.sort_values(by='A', ascending=False)
print("\n按列'A'降序排序:")
print(df_sorted_A_desc)

按多列排序

可以指定多个列名进行排序，ascending 参数可以是一个列表，对应每个列的排序方向。

# 创建一个示例DataFrame，用于多列排序
df2 = pd.DataFrame({'A': [3, 1, 1], 'B': [5, 4, 6]})
print("原始DataFrame:")
print(df2)

# 先按列'A'升序，然后按列'B'降序排序
df_sorted_multi = df2.sort_values(by=['A', 'B'], ascending=[True, False])
print("\n按多列排序后（A升序，B降序）:")
print(df_sorted_multi)

排序的核心参数详解

掌握核心参数能让你更精细地控制排序。

ascending：布尔值或列表。默认True（升序）。用于控制排序方向；对于多列排序，可以提供一个列表，如 [True, False] 表示第一列升序、第二列降序。
na_position：字符串，控制缺失值（NaN）在排序中的位置。可选值有 'first'（放在开头）或 'last'（放在末尾），默认 'last'。
inplace：布尔值，如果设置为True，则原地修改DataFrame，不返回新对象；否则返回一个新的DataFrame。默认False。

# 示例：使用inplace参数原地排序
df_copy = df.copy()  # 创建一个副本
df_copy.sort_values(by='A', inplace=True)
print("原地排序后的DataFrame:")
print(df_copy)

缺失值在排序中的处理

缺失值（NaN）在排序时可能需要特殊处理。使用 na_position 参数可以控制NaN的位置。

# 创建一个带有缺失值的DataFrame
df_na = pd.DataFrame({'A': [3, None, 2], 'B': [5, 4, 6]})
print("带有缺失值的DataFrame:")
print(df_na)

# 按列'A'排序，缺失值放在开头
df_na_sorted_first = df_na.sort_values(by='A', na_position='first')
print("\n缺失值放在开头:")
print(df_na_sorted_first)

# 按列'A'排序，缺失值放在末尾
df_na_sorted_last = df_na.sort_values(by='A', na_position='last')
print("\n缺失值放在末尾:")
print(df_na_sorted_last)

总结

通过本章学习，你掌握了Pandas中数据排序的核心方法：

按索引排序使用 sort_index()，方便快速整理索引顺序。
按值排序使用 sort_values()，灵活基于数据内容排序。
利用 ascending 控制升序降序，na_position 处理缺失值，inplace 选择是否原地修改。

记住，排序是数据分析的基础，多加练习能帮助你更高效地处理数据。

上一章 12.5 数据筛选实战案例

下一章 13.2 数据排名（进阶，给数据分配排名）

Pandas 中文手册

13.1 数据排序（核心，按行/列排序）

数据排序：核心概念与实践

按索引排序：使用sort_index方法

按行索引排序

按列索引排序

按值排序：使用sort_values方法

按单列排序

按多列排序

排序的核心参数详解

缺失值在排序中的处理

总结

相关文档

Python 教程

FastAPI 教程

Django 6中文教程

Flask 中文教程

NumPy 中文教程

Scikit-learn 中文教程