5.4 多级索引（MultiIndex）详解（重点进阶）

Pandas多级索引全面解析：创建、操作与应用进阶指南

Pandas 中文手册

本章节详细讲解Pandas多级索引的创建方法（如from_tuples、from_arrays、from_product）、层级命名、索引切片、堆叠解堆叠和重置设置操作，适合进阶用户学习，包含简单易懂的中文示例和SEO优化内容。

多级索引（MultiIndex）详解

引言

多级索引（MultiIndex）是Pandas中用于处理高维数据的强大功能，它允许在DataFrame或Series中设置多个索引层级，从而更灵活地组织和管理复杂数据。对于进阶数据分析，掌握多级索引是提升效率的关键。本指南将逐步介绍多级索引的创建、操作和应用。

多级索引的创建方法

Pandas提供了多种创建多级索引的方法，常用有from_tuples、from_arrays和from_product。

使用`from_tuples`

pd.MultiIndex.from_tuples从元组列表创建索引，每个元组代表一个索引层级。

import pandas as pd

# 示例：创建两层级索引
tuples = [('A', 1), ('A', 2), ('B', 1), ('B', 2)]
index = pd.MultiIndex.from_tuples(tuples, names=['第一级', '第二级'])
print(index)

使用`from_arrays`

pd.MultiIndex.from_arrays从数组列表创建索引，适合从现有数据生成。

arrays = [['A', 'A', 'B', 'B'], [1, 2, 1, 2]]
index = pd.MultiIndex.from_arrays(arrays, names=['第一级', '第二级'])
print(index)

使用`from_product`

pd.MultiIndex.from_product从可迭代对象的笛卡尔积创建索引，便于生成组合索引。

iterables = [['A', 'B'], [1, 2]]
index = pd.MultiIndex.from_product(iterables, names=['第一级', '第二级'])
print(index)

多级索引的层级命名

设置层级名称可以提升代码可读性，通过names属性轻松管理。

# 修改或添加层级名称
index.names = ['类目', '子类']  
print(index)

多级索引DataFrame的索引与切片

在多级索引DataFrame中，使用loc和iloc进行精确数据访问。

使用`loc`进行标签索引

loc基于层级标签选择数据，可指定单个层级或多个层级组合。

df = pd.DataFrame({'值': [10, 20, 30, 40]}, index=index)
print(df.loc[('A', 1)])  # 选择第一级'A'和第二级1的数据
print(df.loc['A'])       # 选择第一级'A'的所有数据

使用`iloc`进行位置索引

iloc基于整数位置索引，适用于所有DataFrame。

print(df.iloc[0])  # 选择第一行数据

多级索引的堆叠与解堆叠

stack和unstack函数用于在多级索引和列之间转换数据形状。

`stack`函数：将列堆叠到行索引

stack将列层级转换为行索引，增加数据堆叠度。

df_unstacked = df.unstack()  # 先解堆叠以演示
print(df_unstacked)
df_stacked = df_unstacked.stack()  # 堆叠回原状
print(df_stacked)

`unstack`函数：将行索引解堆叠到列

unstack将行索引层级解堆叠为列，便于数据展开。

df_unstacked = df.unstack(level=0)  # 解堆叠第一层级
print(df_unstacked)

多级索引的重置与设置

reset_index和set_index帮助管理索引状态。

`reset_index`：重置索引为默认整数索引

将多级索引转换为普通列，方便数据操作。

df_reset = df.reset_index()
print(df_reset)  # 索引变成整数，原索引变为列

`set_index`：将列设置为索引

从列数据创建多级索引，支持多层级设置。

df_new = df_reset.set_index(['第一级', '第二级'])
print(df_new)  # 恢复为多级索引

总结

通过本章节，您应能掌握多级索引的创建、命名、索引切片、堆叠解堆叠和重置设置操作。多级索引是处理复杂数据集的高级工具，熟练使用能大幅提升数据分析效率。继续实践这些方法，以深化理解。

上一章 5.3 Index的核心操作

下一章 5.5 Index实战案例

Pandas 中文手册

5.4 多级索引（MultiIndex）详解（重点进阶）

多级索引（MultiIndex）详解

引言

多级索引的创建方法

使用from_tuples

使用from_arrays

使用from_product

多级索引的层级命名

多级索引DataFrame的索引与切片

使用loc进行标签索引

使用iloc进行位置索引

多级索引的堆叠与解堆叠

stack函数：将列堆叠到行索引

unstack函数：将行索引解堆叠到列

多级索引的重置与设置

reset_index：重置索引为默认整数索引

set_index：将列设置为索引

总结

相关文档

Python 教程

FastAPI 教程

Django 6中文教程

Flask 中文教程

NumPy 中文教程

Scikit-learn 中文教程