7.5 数据保存实战案例

Pandas数据保存实战：从CSV到数据库的完整指南

Pandas 中文手册

学习使用Pandas将处理后的DataFrame数据保存为CSV和Excel文件，以及批量保存到数据库的实战案例，包含代码示例和详细步骤，适合初学者快速上手。

数据保存实战案例

在本章中，我们将学习如何使用Pandas将处理后的数据保存到不同格式中。数据保存是数据分析流程的重要一步，确保处理结果能被后续使用或分享。本章将通过三个实战案例，帮助你掌握从CSV/Excel文件到数据库的保存技巧。

案例1：将处理后的DataFrame保存为CSV/Excel文件

目标

学习如何将DataFrame保存为常见的文件格式，如CSV和Excel，以便于分享或后续分析。

代码示例

假设我们已经有一个处理后的DataFrame df，现在来保存它。

import pandas as pd

# 创建一个示例DataFrame，便于演示
data = {'姓名': ['张三', '李四', '王五'],
        '年龄': [25, 30, 35],
        '城市': ['北京', '上海', '广州']}
df = pd.DataFrame(data)

# 保存为CSV文件
df.to_csv('保存的数据.csv', index=False, encoding='utf-8-sig')
# 解释：index=False参数表示不保存行索引，encoding='utf-8-sig'确保中文字符正确保存。

# 保存为Excel文件
df.to_excel('保存的数据.xlsx', index=False)
# 解释：使用to_excel方法保存为Excel文件，同样可以设置index=False来忽略索引。

关键步骤

CSV保存：使用to_csv方法，指定文件名，常见参数包括index（是否保存索引）和encoding（编码方式）。
Excel保存：使用to_excel方法，需要安装openpyxl或xlsxwriter库，Pandas默认支持。

注意事项

保存文件时，确保有写入权限。
如果文件名已存在，可能会覆盖原文件，建议使用新名称或备份。
对于大数据集，CSV文件可能更快，而Excel文件更适合表格展示。

案例2：将多个DataFrame保存到同一个Excel的不同工作表

目标

学习如何将多个DataFrame整合到一个Excel文件中，每个DataFrame作为独立的工作表。

代码示例

使用ExcelWriter对象来同时写入多个工作表。

import pandas as pd

# 创建多个示例DataFrame
df1 = pd.DataFrame({'产品': ['A', 'B', 'C'], '销量': [100, 200, 150]})
df2 = pd.DataFrame({'日期': ['2023-01-01', '2023-01-02'], '收入': [500, 600]})

# 保存到同一个Excel文件
with pd.ExcelWriter('多工作表数据.xlsx') as writer:
    df1.to_excel(writer, sheet_name='产品销量', index=False)
    df2.to_excel(writer, sheet_name='日期收入', index=False)
# 解释：使用with语句和ExcelWriter对象，通过sheet_name参数指定工作表名称。

关键步骤

创建ExcelWriter：使用pd.ExcelWriter初始化一个写入器对象，指定文件名。
写入工作表：在with块中，调用to_excel方法时传入writer和sheet_name参数。

注意事项

确保所有工作表名称唯一。
如果文件已存在，ExcelWriter默认会覆盖，可以设置mode='a'以追加模式打开（需库支持）。

案例3：将DataFrame数据批量保存到数据库

目标

学习如何将DataFrame数据保存到数据库（如SQLite、MySQL或PostgreSQL），便于结构化存储和查询。

代码示例

使用to_sql方法结合数据库连接。这里以SQLite为例，因为它轻量且无需外部服务器。

import pandas as pd
from sqlalchemy import create_engine

# 创建一个示例DataFrame
data = {'员工ID': [1, 2, 3],
        '姓名': ['张三', '李四', '王五'],
        '部门': ['销售', '技术', '市场']}
df = pd.DataFrame(data)

# 建立数据库连接（SQLite数据库，文件名为example.db）
engine = create_engine('sqlite:///example.db')

# 将DataFrame保存到数据库表
df.to_sql('员工表', con=engine, if_exists='replace', index=False)
# 解释：使用to_sql方法，指定表名'员工表'，连接对象engine，if_exists='replace'表示如果表存在则替换。

关键步骤

安装依赖：确保安装sqlalchemy和数据库驱动（如pymysql for MySQL）。
建立连接：使用SQLAlchemy的create_engine创建数据库连接字符串。
保存数据：调用to_sql方法，指定表名、连接和参数如if_exists（处理表存在时的行为）。

注意事项

数据库连接字符串格式因数据库类型而异，例如MySQL使用mysql+pymysql://user:password@host/dbname。
to_sql支持批量插入，对于大数据集可以提高效率。
确保数据库表结构与DataFrame列匹配，否则可能需要额外处理。

总结

通过本章的实战案例，你应该已经掌握了使用Pandas将数据保存到CSV、Excel文件和数据库的基本方法。这些技能在实际数据分析项目中非常有用，可以帮助你高效地管理和分享数据。建议多练习不同场景，以加深理解。

上一章 7.4 保存到数据库（进阶，实战常用）

下一章 8.1 数据基本信息查看

Pandas 中文手册

7.5 数据保存实战案例

数据保存实战案例

案例1：将处理后的DataFrame保存为CSV/Excel文件

目标

代码示例

关键步骤

注意事项

案例2：将多个DataFrame保存到同一个Excel的不同工作表

目标

代码示例

关键步骤

注意事项

案例3：将DataFrame数据批量保存到数据库

目标

代码示例

关键步骤

注意事项

总结

相关文档

Python 教程

FastAPI 教程

Django 6中文教程

Flask 中文教程

NumPy 中文教程

Scikit-learn 中文教程