6.5 读取数据库数据（进阶，实战常用）

Pandas读取数据库数据进阶实战教程

Pandas 中文手册

本章节详细介绍了如何使用Pandas高级功能读取数据库数据，包括必备依赖库安装（如pymysql和sqlalchemy）、连接MySQL和SQL Server数据库、使用read_sql_table和read_sql_query方法，以及实战优化技巧，适合新手快速上手。

Pandas读取数据库数据进阶教程

引言

在实际数据分析工作中，我们经常需要从数据库中读取数据进行分析。Pandas 提供了强大的工具来简化这一过程，使得从数据库提取数据变得高效且易于操作。本教程将带你从入门到进阶，掌握使用 Pandas 读取数据库数据的所有关键步骤。

必备依赖库安装

在开始之前，你需要安装必要的 Python 库。Pandas 本身不直接处理数据库连接，因此需要额外的库来支持。

pymysql：一个纯 Python 实现的 MySQL 客户端库，用于连接 MySQL 数据库。
sqlalchemy：一个 SQL 工具包和对象关系映射（ORM）库，提供了统一的接口来连接多种数据库，包括 MySQL、SQL Server 等。

你可以使用 pip 命令来安装这些库：

pip install pandas pymysql sqlalchemy

安装完成后，就可以开始配置数据库连接了。

连接数据库

使用 Pandas 读取数据库数据的第一步是创建数据库引擎（engine）。sqlalchemy 库允许我们创建引擎，以适配不同的数据库系统。

适配 MySQL

对于 MySQL 数据库，你需要指定数据库的连接字符串。以下是一个示例：

from sqlalchemy import create_engine

# MySQL 连接字符串格式：mysql+pymysql://用户名:密码@主机:端口/数据库名
engine = create_engine('mysql+pymysql://user:password@localhost:3306/mydatabase')

mysql+pymysql 指定使用 pymysql 驱动。
替换 user、password、localhost、3306 和 mydatabase 为你的实际数据库信息。

适配 SQL Server

对于 SQL Server 数据库，连接方式类似，但使用不同的驱动。例如，如果你使用 pyodbc 驱动：

# 首先安装 pyodbc: pip install pyodbc
engine = create_engine('mssql+pyodbc://user:password@server/database?driver=ODBC+Driver+17+for+SQL+Server')

确保安装了适当的驱动，如 pyodbc。
根据你的 SQL Server 版本调整驱动名称。

创建引擎后，你就可以使用 Pandas 的方法来读取数据了。

读取数据库表

Pandas 的 read_sql_table 函数允许你直接读取数据库中的整个表到 DataFrame 中。这是一个快速获取全表数据的方法。

示例：读取整个表

假设数据库中有一个名为 employees 的表：

import pandas as pd

# 使用前面创建的 engine
engine = create_engine('mysql+pymysql://user:password@localhost:3306/mydatabase')

# 读取整个表
df = pd.read_sql_table('employees', engine)
print(df.head())  # 显示前几行数据

'employees' 是表名。
这将返回一个包含所有列和行的 DataFrame。

read_sql_table 适合读取小型或中型表，对于大型表，可能需要考虑优化（见下文）。

执行 SQL 语句读取数据

如果你需要更灵活的数据查询，可以使用 read_sql_query 函数执行自定义 SQL 语句。这对于复杂查询或仅读取部分数据非常有用。

示例：执行自定义 SQL 查询

假设你想从 employees 表中选择工资高于 50000 的员工：

import pandas as pd

engine = create_engine('mysql+pymysql://user:password@localhost:3306/mydatabase')

# 执行 SQL 查询
query = "SELECT * FROM employees WHERE salary > 50000"
df = pd.read_sql_query(query, engine)
print(df.head())

query 是任意的 SQL 语句，你可以使用 JOIN、GROUP BY 等高级功能。
这种方法提供了最大的灵活性，但需要一定的 SQL 知识。

数据库数据读取的优化技巧

当处理大量数据时，优化读取过程至关重要。以下是一些常用技巧：

1. 使用分块读取

对于大型表，一次性读取可能导致内存不足。Pandas 支持分块读取，通过 chunksize 参数分批处理数据。

# 分块读取数据
for chunk in pd.read_sql_query("SELECT * FROM large_table", engine, chunksize=1000):
    # 对每个 chunk 进行处理，例如计算或保存
    process(chunk)  # 假设 process 是你定义的函数

chunksize 指定每次读取的行数。

2. 只读取所需列

如果表有很多列，但你只关心其中几列，可以通过 SQL 查询或 read_sql_table 的 columns 参数来限制列数，减少数据传输量。

# 只读取特定列
df = pd.read_sql_query("SELECT name, salary FROM employees", engine)

或使用 read_sql_table：

df = pd.read_sql_table('employees', engine, columns=['name', 'salary'])

3. 添加索引和条件

在 SQL 查询中使用索引列作为条件，可以显著提高查询速度。例如，如果 id 是索引列：

df = pd.read_sql_query("SELECT * FROM employees WHERE id > 1000", engine)

4. 使用连接池和缓存

如果频繁读取数据，考虑使用 sqlalchemy 的连接池功能来复用连接，减少开销。或者，将查询结果缓存到本地文件（如 CSV）以避免重复查询。

5. 调整数据库设置

在数据库层面，确保表有适当的索引、优化查询语句，并监控性能。

总结

通过本教程，你学会了如何使用 Pandas 高级功能读取数据库数据。从安装依赖库到连接 MySQL 和 SQL Server，再到使用 read_sql_table 和 read_sql_query 方法，最后探讨了优化技巧。这些技能将帮助你在实际项目中高效处理数据库数据。

记住，实践是学习的关键，尝试在你的数据库上应用这些方法，并根据需要调整优化。

上一章 6.4 读取JSON文件

下一章 6.6 其他格式数据读取（拓展）