2.4 第一个Pandas程序(快速入门,建立直观认知)
第一个Pandas程序 - 快速入门教程 | Pandas中文学习手册
本章节介绍如何开始使用Pandas:导入库、创建Series和DataFrame、进行基础数据查看操作,并解决常见程序错误,适合新手快速上手。
推荐工具
第一个Pandas程序:快速入门
目标:建立直观认知
在本章节中,我们将通过一个简单的程序快速入门Pandas,帮助您建立对数据处理的直观认识。Pandas是一个强大的Python库,专门用于数据分析和处理,广泛应用于数据科学领域。
导入Pandas与NumPy
Pandas通常与NumPy结合使用,NumPy提供了高效的数值计算功能。按照常规命名规范,我们建议使用以下导入方式:
import pandas as pd
import numpy as np
import pandas as pd:将Pandas导入并简写为pd,这是一个行业标准,可以简化代码编写。import numpy as np:同样,NumPy通常简写为np。 如果您在运行时报错,例如ModuleNotFoundError,请确保已安装Pandas和NumPy库。可以通过终端运行pip install pandas numpy来安装。
简单Series与DataFrame的创建与查看
创建Series
Series是Pandas中的一维数据结构,类似于列表或数组,但带有索引。以下是一个简单示例:
# 创建一个Series
s = pd.Series([1, 3, 5, 7], index=['a', 'b', 'c', 'd'])
print(s)
输出将显示索引和值:
a 1
b 3
c 5
d 7
dtype: int64
创建DataFrame
DataFrame是二维表格结构,类似于Excel表格或SQL表。创建方法有多种,这里演示从字典创建:
# 创建一个DataFrame
data = {'姓名': ['张三', '李四', '王五'], '年龄': [25, 30, 35], '城市': ['北京', '上海', '广州']}
df = pd.DataFrame(data)
print(df)
输出:
姓名 年龄 城市
0 张三 25 北京
1 李四 30 上海
2 王五 35 广州
DataFrame会自动生成数字索引(0,1,2),但您也可以自定义索引。
基础数据查看操作
DataFrame提供多种方法来查看数据摘要,非常适合初步分析。
head():查看前几行数据,默认显示前5行。print(df.head()) # 显示前5行 print(df.head(2)) # 显示前2行info():显示数据框架的摘要信息,包括列数、数据类型和非空值数量。这有助于快速了解数据结构。print(df.info())describe():生成数值列的统计摘要,如计数、均值、标准差、最小值和最大值。这对于探索性数据分析非常有用。
注意:如果DataFrame包含非数值列(如字符串),print(df.describe())describe()将只对数值列进行计算。
程序运行异常排查
在初学阶段,您可能会遇到一些常见错误。以下是一些例子及其解决方法:
- ImportError: No module named 'pandas'
- 原因:未安装Pandas库。
- 解决:运行
pip install pandas在终端或命令提示符中安装。
- KeyError: '列名'
- 原因:尝试访问DataFrame中不存在的列。
- 解决:检查列名拼写,使用
df.columns查看所有列名,或确保列名正确。 - 示例:如果
df中没有'工资'列,调用df['工资']会报错。
- ValueError: 数据类型错误
- 原因:例如,尝试对字符串列进行数值操作。
- 解决:检查数据列的数据类型,使用
df.dtypes查看,并根据需要转换数据类型。 - 示例:将字符串转换为数字:
df['年龄'] = pd.to_numeric(df['年龄'], errors='coerce')。
- MemoryError
- 原因:处理大型数据集时内存不足。
- 解决:尝试分批处理数据,或使用更高效的数据类型(如将浮点转换为整数)。
总结
通过本章,您应该能够编写第一个Pandas程序:导入库、创建和查看Series与DataFrame,并进行基础数据查看。这些操作是数据分析的基础,建议您多练习以加深理解。接下来,您可以尝试加载真实数据,探索更多功能。如果您遇到问题,请参考异常排查部分或在线社区求助。
祝您学习愉快!
开发工具推荐