22.2 数据读取、写入与基本查看
Python数据读取、写入与基本查看教程 - 新手入门指南
本教程专为Python新手设计,详细讲解如何读取、写入和基本查看数据,包括文件操作和pandas库的简单示例,助你快速入门数据分析。
推荐工具
Python数据读取、写入与基本查看教程
介绍
在Python编程中,数据操作是许多任务的核心,无论是数据分析、机器学习还是日常自动化。本教程将指导你从零开始学习如何读取数据、写入数据和基本查看数据,内容简单易懂,适合Python新手。
准备工作
在开始之前,确保你已安装Python和必要的库。你可以通过pip安装pandas库(如果尚未安装):
pip install pandas
数据读取
读取文本文件
使用Python内置的open()函数可以轻松读取文本文件。这是一种基础但强大的方法。
# 示例:读取文本文件并打印内容
with open('data.txt', 'r') as file: # 'r' 表示读取模式
data = file.read()
print("文件内容:")
print(data)
解释:
with open(...)语句自动管理文件资源,避免忘记关闭文件。'r'是文件模式,指定为读取。
读取CSV文件
CSV(逗号分隔值)是一种常见的数据格式。使用pandas库可以更高效地读取CSV文件。
import pandas as pd # 导入pandas库
# 读取CSV文件
# 假设有一个名为 'data.csv' 的文件
# 如果文件不存在,请确保路径正确
df = pd.read_csv('data.csv') # 将数据读取为DataFrame对象
print("CSV数据预览:")
print(df) # 打印整个DataFrame
解释:
- pandas的
read_csv()函数自动处理CSV文件的结构化数据。 df是一个DataFrame对象,是pandas的核心数据结构,类似表格。
读取其他格式
除了文本和CSV,pandas还支持Excel、JSON等格式。例如:
# 读取Excel文件(需安装 openpyxl:pip install openpyxl)
df_excel = pd.read_excel('data.xlsx')
print("Excel数据预览:")
print(df_excel.head()) # 只查看前几行,避免输出太多
数据写入
写入文本文件
使用内置open()函数将数据写入文本文件。
# 示例:写入文本到文件
with open('output.txt', 'w') as file: # 'w' 表示写入模式,会覆盖现有内容
file.write("这是写入的第一行数据。\n")
file.write("这是第二行。\n")
print("文本文件已写入完成。")
解释:
'w'模式写入文件,如果文件不存在则创建,存在则覆盖。- 使用
\n添加换行。
写入CSV文件
使用pandas将DataFrame数据写入CSV文件。
# 假设df是一个已有的DataFrame
# 例如,从上面读取的df,或新建数据
df.to_csv('output.csv', index=False) # index=False 避免写入索引列
print("CSV文件已保存为 'output.csv'")
解释:
to_csv()方法将DataFrame写入CSV文件。index=False是一个常用参数,防止额外的索引列被写入。
基本查看
读取数据后,查看其基本信息是关键步骤。
使用print查看
简单使用print()函数查看数据。
# 查看文本数据
with open('data.txt', 'r') as file:
content = file.read()
print("文本内容:", content)
# 查看pandas DataFrame数据
print("DataFrame数据:")
print(df) # 打印整个DataFrame,适合小数据集
使用pandas方法查看
pandas提供了多种方法来查看数据属性。
# 查看前5行数据
print("前5行数据:")
print(df.head())
# 查看后5行数据
print("后5行数据:")
print(df.tail())
# 查看数据形状(行数和列数)
print("数据形状:")
print(df.shape) # 输出例如 (100, 3) 表示100行3列
# 查看列名
print("列名:")
print(df.columns)
# 查看数据类型
print("数据类型:")
print(df.dtypes) # 显示每列的数据类型,如int64、object等
# 查看基本信息总结
print("数据信息:")
print(df.info()) # 包括行数、列数、数据类型和非空值数量
示例综合练习
假设你有一个CSV文件example.csv,内容如下(可以自行创建):
Name,Age,City
Alice,25,New York
Bob,30,London
Charlie,22,Paris
现在,使用Python进行操作:
import pandas as pd
# 读取数据
df = pd.read_csv('example.csv')
print("原始数据:")
print(df)
# 写入新数据
new_data = {'Name': ['Diana'], 'Age': [28], 'City': ['Berlin']}
df_new = pd.DataFrame(new_data) # 创建新的DataFrame
df_new.to_csv('new_data.csv', index=False)
print("新数据已保存。")
# 查看基本属性
print("\n数据查看:")
print("前2行:")
print(df.head(2))
print("形状:", df.shape)
print("列名:", list(df.columns))
总结
通过本教程,你学会了:
- 数据读取:使用内置函数读取文本文件,使用pandas读取CSV等结构化数据。
- 数据写入:将数据保存到文本或CSV文件。
- 基本查看:利用print和pandas方法查看数据的前几行、形状、列名等。
这些是Python数据操作的入门基础。建议你动手实践,修改示例代码以适应自己的数据。随着学习深入,可以探索更多高级功能,如数据清洗和可视化。
如果你遇到问题,请参考Python官方文档或社区论坛。祝你学习愉快!
开发工具推荐