10.2 常用分布随机数

NumPy随机数生成教程：常用分布与性能优化指南

NumPy 中文教程

本教程详细讲解NumPy中常用分布的随机数生成方法，包括均匀分布（rand和uniform）、正态分布（randn和normal）、二项分布、泊松分布、指数分布和伽马分布，并提供性能优化技巧，适合新手快速上手。

NumPy随机数生成教程：从基础到高级

引言

NumPy是Python数据科学和科学计算的核心库，提供了强大的数组操作和随机数生成功能。随机数在模拟、统计分析、机器学习等领域至关重要。本教程旨在帮助新手掌握NumPy中常用分布的随机数生成方法，并介绍性能优化技巧，内容详细、简单易懂。

首先，确保已安装NumPy。如果没有，可以通过pip install numpy安装。导入NumPy库：

import numpy as np

基础随机数生成

NumPy的随机数生成模块np.random提供了多种函数来生成不同分布的随机数。让我们从最简单的开始。

均匀分布（Uniform Distribution）

均匀分布生成在指定区间内等概率的随机数。NumPy提供了两个常用函数：

np.random.rand()：生成0到1之间的均匀分布随机数（浮点数）。
- 语法：np.random.rand(d0, d1, ..., dn)，参数表示维度，如rand(3,2)生成一个3行2列的数组。
- 示例：
```
# 生成一个随机数
random_num = np.random.rand()  # 输出类似 0.5488135
# 生成一个2x3数组
random_array = np.random.rand(2, 3)
print(random_array)
```
np.random.uniform()：生成指定范围的均匀分布随机数。
- 语法：np.random.uniform(low=0.0, high=1.0, size=None)，其中low是下限，high是上限，size指定输出形状。
- 示例：
```
# 生成1到10之间的5个随机数
uniform_nums = np.random.uniform(1, 10, 5)
print(uniform_nums)
```

解释：均匀分布用于模拟等概率事件，如抽奖或随机采样。对于新手，rand()快速生成0-1的随机数，而uniform()更灵活，可以自定义范围。

正态分布（Normal Distribution）

正态分布（高斯分布）在统计中广泛使用。NumPy提供：

np.random.randn()：生成标准正态分布（均值为0，标准差为1）的随机数。
- 语法：np.random.randn(d0, d1, ..., dn)，类似于rand()。
- 示例：
```
# 生成标准正态分布的2x2数组
normal_array = np.random.randn(2, 2)
print(normal_array)
```
np.random.normal()：生成指定均值和标准差的正态分布随机数。
- 语法：np.random.normal(loc=0.0, scale=1.0, size=None)，其中loc是均值，scale是标准差。
- 示例：
```
# 生成均值为5、标准差为2的10个随机数
normal_nums = np.random.normal(5, 2, 10)
print(normal_nums)
```

解释：正态分布用于模拟自然现象，如身高或测试分数。randn()适合标准情况，而normal()允许自定义参数。

其他常用分布

NumPy还支持多种其他分布的随机数生成。以下是简要介绍和示例：

二项分布（Binomial Distribution）：模拟n次独立伯努利试验的成功次数。
- 函数：np.random.binomial(n, p, size=None)，其中n是试验次数，p是成功概率。
- 示例：模拟10次抛硬币（n=10, p=0.5），生成5组结果：
```
binomial_nums = np.random.binomial(10, 0.5, 5)
print(binomial_nums)  # 输出类似 [5, 6, 4, 5, 5]
```
泊松分布（Poisson Distribution）：模拟单位时间内事件发生的次数。
- 函数：np.random.poisson(lam=1.0, size=None)，其中lam是平均发生率。
- 示例：生成平均发生率为3的10个随机数：
```
poisson_nums = np.random.poisson(3, 10)
print(poisson_nums)
```
指数分布（Exponential Distribution）：模拟事件之间的时间间隔。
- 函数：np.random.exponential(scale=1.0, size=None)，其中scale是平均间隔的倒数。
- 示例：生成平均间隔为2的5个随机数：
```
exp_nums = np.random.exponential(2, 5)
print(exp_nums)
```
伽马分布（Gamma Distribution）：常用于等待时间或生命长度建模。
- 函数：np.random.gamma(shape, scale=1.0, size=None)，其中shape是形状参数，scale是尺度参数。
- 示例：生成形状参数2、尺度参数1的8个随机数：
```
gamma_nums = np.random.gamma(2, 1, 8)
print(gamma_nums)
```

解释：这些分布各有应用场景，二项分布用于计数数据，泊松分布用于稀有事件，指数分布用于时间分析，伽马分布更一般化。新手可以从参数含义入手理解。

随机数生成的性能优化

生成大量随机数时，性能至关重要。以下是NumPy中的优化技巧：

使用种子控制随机性：通过np.random.seed()设置随机种子，确保结果可重复，便于调试和测试。
- 示例：np.random.seed(42) 设置种子为42。

批量生成替代循环：避免使用Python循环逐个生成随机数，而是利用NumPy的向量化操作一次性生成数组。

性能对比示例：

import time

# 方法1：使用循环（慢）
start = time.time()
random_list = []
for _ in range(1000000):
    random_list.append(np.random.rand())
end = time.time()
print("循环生成时间:", end - start)

# 方法2：批量生成（快）
start = time.time()
random_array = np.random.rand(1000000)
end = time.time()
print("批量生成时间:", end - start)

选择合适的分布函数：根据需求选择最合适的函数，例如，如果需要标准正态分布，用randn()比normal()更快。
预分配数组内存：如果知道输出大小，可以预分配数组来避免动态扩展。
- 示例：使用np.empty()或直接指定size参数。
利用并行计算：对于大规模生成，可以考虑使用多线程或多进程，但NumPy本身是单线程的；在高级应用中，可以使用如joblib库。
避免不必要的随机数生成：只在需要时生成，例如缓存结果或重用随机数序列。

解释：性能优化关键在减少开销，NumPy的向量化操作利用C语言后端，比Python循环快得多。新手应优先掌握批量生成方法。

总结

本教程详细介绍了NumPy中常用分布的随机数生成方法，包括均匀分布、正态分布、二项分布、泊松分布、指数分布和伽马分布，并提供了性能优化技巧。通过代码示例和解释，新手可以轻松上手。

进一步学习建议：

探索NumPy官方文档了解更多分布函数。
实践应用，如在模拟或数据分析项目中使用随机数。
学习高级主题如随机数种子管理和性能基准测试。

希望本教程对您有帮助！如有问题，欢迎继续探索NumPy的强大功能。

上一章 10.1 随机数生成器

下一章 10.3 随机抽样与洗牌

NumPy 中文教程

10.2 常用分布随机数

NumPy随机数生成教程：从基础到高级

引言

基础随机数生成

均匀分布（Uniform Distribution）

正态分布（Normal Distribution）

其他常用分布

随机数生成的性能优化

总结

相关文档

Python 教程

FastAPI 教程

Django 6中文教程

Flask 中文教程

Scikit-learn 中文教程

TensorFlow 中文手册