3.1 Series的核心概念与结构

Pandas Series 核心概念与结构详解 | 新手快速入门

Pandas 中文手册

本章节讲解Pandas中Series的核心概念与结构，包括其定义为一维标签数据组合，详细介绍index、values、dtype、name等属性，并对比Series与NumPy数组、Python列表的异同，帮助新手快速上手Series操作。

Pandas Series 的核心概念与结构

引言

Series 是 Pandas 中最基本的数据结构之一，它在数据分析和处理中扮演着关键角色。掌握 Series 不仅有助于理解更复杂的 DataFrame，还能让你更高效地操作一维数据。本章将深入浅出地介绍 Series 的定义、核心属性以及与常见数据结构的区别，内容适合新手学习。

1. Series 的定义：标签与值的一维组合

在 Pandas 中，Series 可以看作是一个一维的、带有标签的数组。它由两部分组成：

标签（Index）：用于标识每个数据点的位置，类似于字典的键。
值（Data）：存储实际数据，通常以数组形式表示。

简单来说，Series 是“标签+值”的组合，这使得数据访问更加灵活和直观。

代码示例：创建 Series

import pandas as pd

# 从列表创建 Series，默认索引为数字
s1 = pd.Series([10, 20, 30, 40])
print(s1)
# 输出：
# 0    10
# 1    20
# 2    30
# 3    40
# dtype: int64

# 指定标签创建 Series
s2 = pd.Series([5, 6, 7], index=['a', 'b', 'c'])
print(s2)
# 输出：
# a    5
# b    6
# c    7
# dtype: int64

2. Series 的核心属性

Series 提供多个属性来访问和操作其结构，以下是四个核心属性：

2.1 index

index 属性返回 Series 的索引对象，即标签部分。你可以通过它修改或查看索引。

类型：通常是 pd.Index 类型。
用途：快速访问特定标签对应的数据。

示例：

s = pd.Series([1, 2, 3], index=['x', 'y', 'z'])
print(s.index)  # 输出：Index(['x', 'y', 'z'], dtype='object')

2.2 values

values 属性返回 Series 的底层数据数组，以 NumPy 数组形式表示。

类型：通常是 numpy.ndarray。
用途：直接操作数据值，例如进行数学计算。

示例：

s = pd.Series([4, 5, 6])
print(s.values)  # 输出：[4 5 6]

2.3 dtype

dtype 属性表示 Series 中数据的类型，如整数、浮点数或字符串。

类型：例如 int64, float64, object 等。
用途：了解数据存储方式，帮助优化性能和处理数据转换。

示例：

s = pd.Series([1, 2, 3])
print(s.dtype)  # 输出：int64

2.4 name

name 属性是 Series 的可选名称，用于标识整个 Series 对象。

类型：字符串或 None。
用途：在合并多个 Series 或生成图表时，提供更清晰的标签。

示例：

s = pd.Series([7, 8, 9], name='scores')
print(s.name)  # 输出：'scores'

3. Series 与 NumPy 数组、Python 列表的区别

理解 Series 与其他数据结构的区别，有助于选择合适工具进行数据分析。

3.1 Series 与 NumPy 数组

特点	Series	NumPy 数组
索引	带有标签的索引，支持非整数和自定义标签	基于整数位置的索引
数据类型	自动推断数据类型，支持混合类型	通常要求统一数据类型
功能	集成更多数据操作方法，如分组、过滤	侧重于数学运算和矩阵操作

示例比较：

import numpy as np
import pandas as pd

# NumPy 数组
np_array = np.array([1, 2, 3])
print(np_array[0])  # 输出：1（基于位置索引）

# Series
series = pd.Series([1, 2, 3], index=['a', 'b', 'c'])
print(series['a'])  # 输出：1（基于标签索引）

3.2 Series 与 Python 列表

特点	Series	Python 列表
索引	支持标签索引，更灵活	仅支持整数位置索引
性能	基于 NumPy，计算速度快，适合大数据	更适合小规模或通用列表操作
数据操作	提供丰富的数据分析函数，如统计计算	基本列表方法，如 append、remove

示例比较：

# Python 列表
py_list = [10, 20, 30]
print(py_list[0])  # 输出：10（基于位置）

# Series
series_list = pd.Series([10, 20, 30], index=['A', 'B', 'C'])
print(series_list['A'])  # 输出：10（基于标签）
print(series_list.mean())  # 输出：20.0（Series 提供统计方法）

总结

在本章节中，我们学习了 Series 的核心概念：

定义：Series 是一个一维的、带有标签的数据组合，由索引和值构成。
核心属性：包括 index（索引）、values（值）、dtype（数据类型）和 name（名称），这些属性让你轻松访问和操作数据。
区别：与 NumPy 数组相比，Series 提供标签索引和更多数据分析功能；与 Python 列表相比，Series 在性能和数据操作上更优。

掌握了 Series，你就迈出了 Pandas 学习的重要一步。下一章节，我们将深入探讨 DataFrame 的使用。

提示：在实际项目中，尽量使用 Series 来处理一维数据，以充分利用 Pandas 的强大功能。如果需要练习，尝试创建自己的 Series 并探索其属性。

上一章 2.4 第一个Pandas程序（快速入门，建立直观认知）

下一章 3.2 Series的创建方法（多种场景适配）

Pandas 中文手册

3.1 Series的核心概念与结构

Pandas Series 的核心概念与结构

引言

1. Series 的定义：标签与值的一维组合

代码示例：创建 Series

2. Series 的核心属性

2.1 index

2.2 values

2.3 dtype

2.4 name

3. Series 与 NumPy 数组、Python 列表的区别

3.1 Series 与 NumPy 数组

3.2 Series 与 Python 列表

总结

相关文档

Python 教程

FastAPI 教程

Django 6中文教程

Flask 中文教程

NumPy 中文教程

Scikit-learn 中文教程