13.1 数据聚合与分组

NumPy数据聚合与分组教程：从基础到实战销售数据分析

NumPy 中文教程

本教程深入讲解NumPy中的数据聚合与分组技术，涵盖基本聚合函数、按条件分组统计、多维数据的分层聚合方法，并通过销售数据汇总分析实战案例，帮助新人轻松掌握高效的数据分析技能。

NumPy数据聚合与分组教程

引言

NumPy（Numerical Python）是一个强大的Python库，专门用于科学计算和数据处理。它提供了多维数组对象和一系列高效函数，使得数据聚合与分组操作变得简单而快速。本教程将从基础概念讲起，逐步深入到高级应用，包括数据聚合与分组、按条件统计、多维数据的分层聚合，并以销售数据汇总分析作为实战案例，帮助新手快速上手。无论您是数据分析新手还是想提升NumPy技能，本教程都将为您提供详细的指导和示例。

数据聚合与分组

聚合是指从数据集中提取汇总信息，如总和、平均值、标准差等。分组则是根据某些标准将数据划分为子集，然后对每个子集进行聚合。在NumPy中，聚合函数是数组操作的核心部分。

基本聚合函数

NumPy提供了许多内置的聚合函数，可以直接应用于数组，无需循环，从而提高效率。常用函数包括：

np.sum()：计算数组所有元素的和。
np.mean()：计算平均值。
np.std()：计算标准差。
np.min() 和 np.max()：找到最小值和最大值。
np.var()：计算方差。

这些函数可以沿指定轴操作，实现多维数据的分组聚合。例如，对于一个二维数组，您可以选择沿行或列进行聚合。

示例代码

import numpy as np

# 创建一个二维数组模拟数据
arr = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print("数组：")
print(arr)

# 计算整个数组的和
print("总和：", np.sum(arr))

# 沿行聚合（axis=1），计算每行的和
print("每行和：", np.sum(arr, axis=1))

# 沿列聚合（axis=0），计算每列的平均值
print("每列平均值：", np.mean(arr, axis=0))

分组概念

分组通常涉及使用索引或条件将数据分割。在NumPy中，可以通过布尔索引或结构化数组来实现简单分组。对于更复杂的操作，NumPy的基础功能可以结合循环或自定义函数。

按条件分组统计

按条件分组是指根据布尔条件筛选数据，然后对符合条件的数据进行统计。这在数据分析中非常实用，例如过滤出特定范围内的数据。

使用布尔索引

布尔索引是NumPy中一种强大的技术，允许您使用布尔数组来索引数组，从而选择满足条件的元素。

示例代码

# 创建一个一维数组
data = np.array([10, 20, 30, 40, 50])

# 定义一个条件：选择大于30的元素
condition = data > 30
filtered_data = data[condition]
print("大于30的元素：", filtered_data)

# 对筛选后的数据进行聚合
print("筛选后元素的和：", np.sum(filtered_data))
print("筛选后元素的平均值：", np.mean(filtered_data))

按多个条件分组

您可以使用逻辑运算符（如&、|）组合多个条件。

示例代码

# 模拟销售数据：销售额数组
sales = np.array([100, 150, 200, 250, 300])

# 条件：销售额在150到250之间
condition = (sales >= 150) & (sales <= 250)
grouped_sales = sales[condition]
print("销售额在150到250之间的数据：", grouped_sales)
print("该组数据的平均值：", np.mean(grouped_sales))

多维数据的分层聚合

多维数据指具有多个维度的数组，如二维表或三维空间数据。分层聚合允许您按多个层次或维度进行分组统计，这在处理复杂数据集时非常有用。

轴操作

在NumPy中，您可以通过指定axis参数来沿不同维度聚合。例如，对于一个三维数组，您可以沿高度、宽度或深度方向聚合。

示例代码

# 创建一个三维数组模拟数据（例如，时间序列数据）
multi_arr = np.array([[[1, 2], [3, 4]], [[5, 6], [7, 8]]])  # 形状为(2,2,2)
print("三维数组：")
print(multi_arr)

# 沿第一个轴聚合（深度方向）
print("沿轴0的和：", np.sum(multi_arr, axis=0))  # 结果形状(2,2)

# 沿第二个轴聚合（行方向）
print("沿轴1的平均值：", np.mean(multi_arr, axis=1))  # 结果形状(2,2)

使用自定义函数进行分层聚合

对于更复杂的分组，可以使用np.apply_along_axis()函数，它允许您沿指定轴应用一个自定义函数。

示例代码

# 定义一个自定义聚合函数：计算加权平均值
def weighted_mean(arr, weights):
    return np.sum(arr * weights) / np.sum(weights)

# 创建一个数组和权重
arr_weighted = np.array([10, 20, 30])
weights = np.array([1, 2, 1])

# 应用加权平均
result = weighted_mean(arr_weighted, weights)
print("加权平均值：", result)

# 在二维数组中沿轴应用
arr_2d = np.array([[1, 2, 3], [4, 5, 6]])
def custom_sum(arr):
    return np.sum(arr) * 2  # 自定义聚合：总和加倍

# 沿列（axis=0）应用
custom_result = np.apply_along_axis(custom_sum, axis=0, arr=arr_2d)
print("沿列应用自定义聚合的结果：", custom_result)

实战：销售数据汇总分析

在本节中，我们将通过一个实战案例来综合应用上述技术，分析销售数据。假设我们有一个包含产品销售额、地区和日期的数据集。

步骤1：创建模拟销售数据

我们将使用NumPy生成一个简单的销售数据数组，模拟不同产品在多个地区的销售情况。

示例代码

import numpy as np

# 设置随机种子以确保结果可重复
np.random.seed(42)

# 模拟数据：假设有3种产品、2个地区、5个时间点
num_products = 3
num_regions = 2
num_timepoints = 5

# 生成随机销售额数据（范围在100到500之间）
sales_data = np.random.randint(100, 500, size=(num_products, num_regions, num_timepoints))
print("销售数据形状：", sales_data.shape)  # 输出：(3, 2, 5)
print("销售数据：")
print(sales_data)

# 解释数据维度：产品、地区、时间

步骤2：按产品分组统计总销售额

首先，我们按产品维度聚合，计算每种产品的总销售额。

示例代码

# 沿产品轴（axis=0）聚合，得到每个产品的总销售额（跨地区和时间的总和）
total_sales_by_product = np.sum(sales_data, axis=(1, 2))  # 轴(1,2)表示地区和时间的维度
print("每种产品的总销售额：", total_sales_by_product)

# 或者，可以逐步聚合
# 第一步：按产品聚合地区和时间的总和
# 使用reshape和sum
product_sales = sales_data.reshape(num_products, -1)  # 展平地区和时间的维度
total_per_product = np.sum(product_sales, axis=1)
print("另一种方法计算的每种产品总销售额：", total_per_product)

步骤3：按条件分组：高销售额地区

假设我们想找出销售额超过平均值的地区，并对这些地区进行统计。

示例代码

# 计算每个地区的总销售额（跨产品和时间的总和）
total_sales_by_region = np.sum(sales_data, axis=(0, 2))  # 轴(0,2)表示产品和时间的维度
print("每个地区的总销售额：", total_sales_by_region)

# 计算所有地区的平均销售额
average_sales = np.mean(total_sales_by_region)
print("所有地区的平均销售额：", average_sales)

# 筛选出销售额高于平均的地区
high_sales_regions = total_sales_by_region > average_sales
print("高销售额地区索引：", high_sales_regions)
high_sales_data = sales_data[:, high_sales_regions, :]  # 选择高销售额地区的数据
print("高销售额地区的销售数据形状：", high_sales_data.shape)

# 对高销售额地区进行聚合：计算总销售额
total_high_sales = np.sum(high_sales_data)
print("高销售额地区的总销售额：", total_high_sales)

步骤4：多维分层聚合：按产品和地区分组

我们可以进一步分层，先按产品分组，然后在每个产品内按地区聚合。

示例代码

# 按产品分组，然后计算每个产品在不同地区的平均销售额
# 使用循环或NumPy的高级索引（这里使用简单循环作为示例）
for product_idx in range(num_products):
    product_sales_per_region = sales_data[product_idx, :, :]  # 选择特定产品的数据
    avg_sales_per_region = np.mean(product_sales_per_region, axis=1)  # 沿时间轴聚合
    print(f"产品{product_idx}在各地区的平均销售额：", avg_sales_per_region)

# 或者，使用更高效的方法：reshape和聚合
# 将数据重塑为（产品*地区, 时间），然后按产品分组
flattened_data = sales_data.reshape(-1, num_timepoints)  # 形状：(6,5)
# 假设我们有分组索引（例如，前3个是产品0的地区，后3个是产品1的地区，等等）
# 这里简化处理，实际中可能需要更复杂的索引
# 例如，计算每组（产品-地区组合）的总销售额
group_totals = np.sum(flattened_data, axis=1)
print("每组（产品-地区组合）的总销售额：", group_totals)

步骤5：总结分析

通过上述步骤，我们完成了销售数据的汇总分析：

基本聚合：计算总销售额和平均值。
按条件分组：识别高销售额地区并进行统计。
分层聚合：按产品和地区维度进行分组分析。

这些技术可以扩展到更复杂的数据集，例如加入日期维度进行时间序列分析。NumPy的高效性使得处理大型数据成为可能。

总结与进一步学习建议

本教程详细介绍了NumPy中的数据聚合与分组技术。通过基础知识、按条件统计和多维分层聚合的讲解，以及实战案例的演示，您应该能够开始使用NumPy进行高效的数据分析。

关键要点

聚合函数：使用np.sum()、np.mean()等函数快速计算统计量。
分组技术：通过布尔索引和条件过滤实现简单分组。
多维聚合：利用axis参数沿不同维度聚合，适用于复杂数据结构。
实战应用：结合实例将理论应用于实际数据分析任务。

建议

实践：多写代码，尝试处理不同形状和类型的数据。
扩展学习：探索Pandas库，它在NumPy基础上提供了更高级的数据分组和聚合功能（如groupby）。
参考文档：查阅NumPy官方文档以了解更多函数和高级用法。

希望本教程对您有所帮助！继续练习，您将很快掌握NumPy在数据分析中的强大功能。

上一章 12.3 图像像素处理

下一章 13.2 时间序列处理

NumPy 中文教程

13.1 数据聚合与分组

NumPy数据聚合与分组教程

引言

数据聚合与分组

基本聚合函数

示例代码

分组概念

按条件分组统计

使用布尔索引

示例代码

按多个条件分组

示例代码

多维数据的分层聚合

轴操作

示例代码

使用自定义函数进行分层聚合

示例代码

实战：销售数据汇总分析

步骤1：创建模拟销售数据

示例代码

步骤2：按产品分组统计总销售额

示例代码

步骤3：按条件分组：高销售额地区

示例代码

步骤4：多维分层聚合：按产品和地区分组

示例代码

步骤5：总结分析

总结与进一步学习建议

关键要点

建议

相关文档

Python 教程

FastAPI 教程

Django 6中文教程

Flask 中文教程

Scikit-learn 中文教程

TensorFlow 中文手册