Pandas 中文手册

2.4 第一个Pandas程序(快速入门,建立直观认知)

第一个Pandas程序 - 快速入门教程 | Pandas中文学习手册

Pandas 中文手册

本章节介绍如何开始使用Pandas:导入库、创建Series和DataFrame、进行基础数据查看操作,并解决常见程序错误,适合新手快速上手。

推荐工具
PyCharm专业版开发必备

功能强大的Python IDE,提供智能代码补全、代码分析、调试和测试工具,提高Python开发效率。特别适合处理列表等数据结构的开发工作。

了解更多

第一个Pandas程序:快速入门

目标:建立直观认知

在本章节中,我们将通过一个简单的程序快速入门Pandas,帮助您建立对数据处理的直观认识。Pandas是一个强大的Python库,专门用于数据分析和处理,广泛应用于数据科学领域。

导入Pandas与NumPy

Pandas通常与NumPy结合使用,NumPy提供了高效的数值计算功能。按照常规命名规范,我们建议使用以下导入方式:

import pandas as pd
import numpy as np
  • import pandas as pd:将Pandas导入并简写为pd,这是一个行业标准,可以简化代码编写。
  • import numpy as np:同样,NumPy通常简写为np。 如果您在运行时报错,例如ModuleNotFoundError,请确保已安装Pandas和NumPy库。可以通过终端运行pip install pandas numpy来安装。

简单Series与DataFrame的创建与查看

创建Series

Series是Pandas中的一维数据结构,类似于列表或数组,但带有索引。以下是一个简单示例:

# 创建一个Series
s = pd.Series([1, 3, 5, 7], index=['a', 'b', 'c', 'd'])
print(s)

输出将显示索引和值:

a    1
b    3
c    5
d    7
dtype: int64

创建DataFrame

DataFrame是二维表格结构,类似于Excel表格或SQL表。创建方法有多种,这里演示从字典创建:

# 创建一个DataFrame
data = {'姓名': ['张三', '李四', '王五'], '年龄': [25, 30, 35], '城市': ['北京', '上海', '广州']}
df = pd.DataFrame(data)
print(df)

输出:

   姓名  年龄  城市
0  张三  25  北京
1  李四  30  上海
2  王五  35  广州

DataFrame会自动生成数字索引(0,1,2),但您也可以自定义索引。

基础数据查看操作

DataFrame提供多种方法来查看数据摘要,非常适合初步分析。

  • head():查看前几行数据,默认显示前5行。
    print(df.head())  # 显示前5行
    print(df.head(2)) # 显示前2行
    
  • info():显示数据框架的摘要信息,包括列数、数据类型和非空值数量。这有助于快速了解数据结构。
    print(df.info())
    
  • describe():生成数值列的统计摘要,如计数、均值、标准差、最小值和最大值。这对于探索性数据分析非常有用。
    print(df.describe())
    
    注意:如果DataFrame包含非数值列(如字符串),describe()将只对数值列进行计算。

程序运行异常排查

在初学阶段,您可能会遇到一些常见错误。以下是一些例子及其解决方法:

  1. ImportError: No module named 'pandas'
    • 原因:未安装Pandas库。
    • 解决:运行pip install pandas在终端或命令提示符中安装。
  2. KeyError: '列名'
    • 原因:尝试访问DataFrame中不存在的列。
    • 解决:检查列名拼写,使用df.columns查看所有列名,或确保列名正确。
    • 示例:如果df中没有'工资'列,调用df['工资']会报错。
  3. ValueError: 数据类型错误
    • 原因:例如,尝试对字符串列进行数值操作。
    • 解决:检查数据列的数据类型,使用df.dtypes查看,并根据需要转换数据类型。
    • 示例:将字符串转换为数字:df['年龄'] = pd.to_numeric(df['年龄'], errors='coerce')
  4. MemoryError
    • 原因:处理大型数据集时内存不足。
    • 解决:尝试分批处理数据,或使用更高效的数据类型(如将浮点转换为整数)。

总结

通过本章,您应该能够编写第一个Pandas程序:导入库、创建和查看Series与DataFrame,并进行基础数据查看。这些操作是数据分析的基础,建议您多练习以加深理解。接下来,您可以尝试加载真实数据,探索更多功能。如果您遇到问题,请参考异常排查部分或在线社区求助。

祝您学习愉快!

开发工具推荐
Python开发者工具包

包含虚拟环境管理、代码格式化、依赖管理、测试框架等Python开发全流程工具,提高开发效率。特别适合处理复杂数据结构和算法。

获取工具包