Python 教程

22.2 数据读取、写入与基本查看

Python数据读取、写入与基本查看教程 - 新手入门指南

Python 教程

本教程专为Python新手设计,详细讲解如何读取、写入和基本查看数据,包括文件操作和pandas库的简单示例,助你快速入门数据分析。

推荐工具
PyCharm专业版开发必备

功能强大的Python IDE,提供智能代码补全、代码分析、调试和测试工具,提高Python开发效率。特别适合处理列表等数据结构的开发工作。

了解更多

Python数据读取、写入与基本查看教程

介绍

在Python编程中,数据操作是许多任务的核心,无论是数据分析、机器学习还是日常自动化。本教程将指导你从零开始学习如何读取数据、写入数据和基本查看数据,内容简单易懂,适合Python新手。

准备工作

在开始之前,确保你已安装Python和必要的库。你可以通过pip安装pandas库(如果尚未安装):

pip install pandas

数据读取

读取文本文件

使用Python内置的open()函数可以轻松读取文本文件。这是一种基础但强大的方法。

# 示例:读取文本文件并打印内容
with open('data.txt', 'r') as file:  # 'r' 表示读取模式
    data = file.read()
    print("文件内容:")
    print(data)

解释

  • with open(...) 语句自动管理文件资源,避免忘记关闭文件。
  • 'r' 是文件模式,指定为读取。

读取CSV文件

CSV(逗号分隔值)是一种常见的数据格式。使用pandas库可以更高效地读取CSV文件。

import pandas as pd  # 导入pandas库

# 读取CSV文件
# 假设有一个名为 'data.csv' 的文件
# 如果文件不存在,请确保路径正确

df = pd.read_csv('data.csv')  # 将数据读取为DataFrame对象
print("CSV数据预览:")
print(df)  # 打印整个DataFrame

解释

  • pandas的read_csv()函数自动处理CSV文件的结构化数据。
  • df 是一个DataFrame对象,是pandas的核心数据结构,类似表格。

读取其他格式

除了文本和CSV,pandas还支持Excel、JSON等格式。例如:

# 读取Excel文件(需安装 openpyxl:pip install openpyxl)
df_excel = pd.read_excel('data.xlsx')
print("Excel数据预览:")
print(df_excel.head())  # 只查看前几行,避免输出太多

数据写入

写入文本文件

使用内置open()函数将数据写入文本文件。

# 示例:写入文本到文件
with open('output.txt', 'w') as file:  # 'w' 表示写入模式,会覆盖现有内容
    file.write("这是写入的第一行数据。\n")
    file.write("这是第二行。\n")
print("文本文件已写入完成。")

解释

  • 'w' 模式写入文件,如果文件不存在则创建,存在则覆盖。
  • 使用\n添加换行。

写入CSV文件

使用pandas将DataFrame数据写入CSV文件。

# 假设df是一个已有的DataFrame
# 例如,从上面读取的df,或新建数据
df.to_csv('output.csv', index=False)  # index=False 避免写入索引列
print("CSV文件已保存为 'output.csv'")

解释

  • to_csv()方法将DataFrame写入CSV文件。
  • index=False 是一个常用参数,防止额外的索引列被写入。

基本查看

读取数据后,查看其基本信息是关键步骤。

使用print查看

简单使用print()函数查看数据。

# 查看文本数据
with open('data.txt', 'r') as file:
    content = file.read()
    print("文本内容:", content)

# 查看pandas DataFrame数据
print("DataFrame数据:")
print(df)  # 打印整个DataFrame,适合小数据集

使用pandas方法查看

pandas提供了多种方法来查看数据属性。

# 查看前5行数据
print("前5行数据:")
print(df.head())

# 查看后5行数据
print("后5行数据:")
print(df.tail())

# 查看数据形状(行数和列数)
print("数据形状:")
print(df.shape)  # 输出例如 (100, 3) 表示100行3列

# 查看列名
print("列名:")
print(df.columns)

# 查看数据类型
print("数据类型:")
print(df.dtypes)  # 显示每列的数据类型,如int64、object等

# 查看基本信息总结
print("数据信息:")
print(df.info())  # 包括行数、列数、数据类型和非空值数量

示例综合练习

假设你有一个CSV文件example.csv,内容如下(可以自行创建):

Name,Age,City
Alice,25,New York
Bob,30,London
Charlie,22,Paris

现在,使用Python进行操作:

import pandas as pd

# 读取数据
df = pd.read_csv('example.csv')
print("原始数据:")
print(df)

# 写入新数据
new_data = {'Name': ['Diana'], 'Age': [28], 'City': ['Berlin']}
df_new = pd.DataFrame(new_data)  # 创建新的DataFrame
df_new.to_csv('new_data.csv', index=False)
print("新数据已保存。")

# 查看基本属性
print("\n数据查看:")
print("前2行:")
print(df.head(2))
print("形状:", df.shape)
print("列名:", list(df.columns))

总结

通过本教程,你学会了:

  • 数据读取:使用内置函数读取文本文件,使用pandas读取CSV等结构化数据。
  • 数据写入:将数据保存到文本或CSV文件。
  • 基本查看:利用print和pandas方法查看数据的前几行、形状、列名等。

这些是Python数据操作的入门基础。建议你动手实践,修改示例代码以适应自己的数据。随着学习深入,可以探索更多高级功能,如数据清洗和可视化。

如果你遇到问题,请参考Python官方文档或社区论坛。祝你学习愉快!

开发工具推荐
Python开发者工具包

包含虚拟环境管理、代码格式化、依赖管理、测试框架等Python开发全流程工具,提高开发效率。特别适合处理复杂数据结构和算法。

获取工具包