11.2 聚类算法实操与对比

Scikit-learn聚类算法实操对比、可视化与选型指南

Scikit-learn 中文教程

本章节详细讲解Scikit-learn中聚类算法的实操步骤、结果可视化（PCA降维+散点图）、不同算法在同一数据集上的性能对比，以及根据数据分布、簇形状和噪声情况的选择原则，适合新手快速上手。

聚类算法实操与对比：从理论到实践

欢迎来到Scikit-learn学习教程的本章节！我们将深入探讨聚类算法，涵盖实操、可视化、性能对比和选型原则，帮助您轻松掌握聚类分析的核心技能。

1. 什么是聚类算法？

聚类是一种无监督学习技术，用于将数据点分组到相似的簇中，而不需要预先定义的标签。它广泛应用于市场细分、图像分割等领域。Scikit-learn提供了多种聚类算法，如K-means和DBSCAN。

2. 聚类算法实操

在这一部分，我们将学习如何使用Scikit-learn实现常见的聚类算法。首先，确保安装了Scikit-learn库。以下是一个简单的示例：

# 导入必要的库
import numpy as np
from sklearn.cluster import KMeans, DBSCAN
from sklearn.datasets import make_blobs

# 生成示例数据集
X, _ = make_blobs(n_samples=300, centers=4, random_state=42)

# K-means聚类
kmeans = KMeans(n_clusters=4, random_state=42)
kmeans_labels = kmeans.fit_predict(X)
print("K-means聚类结果标签示例:", kmeans_labels[:5])

# DBSCAN聚类
dbscan = DBSCAN(eps=0.5, min_samples=5)
dbscan_labels = dbscan.fit_predict(X)
print("DBSCAN聚类结果标签示例:", dbscan_labels[:5])

2.1 算法解释

K-means: 通过迭代优化簇中心来划分数据，适合球形簇。
DBSCAN: 基于密度发现任意形状的簇，并能处理噪声。

3. 聚类结果的可视化（PCA降维 + 散点图）

可视化是理解聚类结果的关键。由于高维数据难以直观展示，我们使用PCA（主成分分析）降维到2D，然后绘制散点图。

# 导入可视化库
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA

# PCA降维到2D
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X)

# 绘制散点图，使用K-means结果
plt.figure(figsize=(10, 5))
plt.subplot(1, 2, 1)
plt.scatter(X_pca[:, 0], X_pca[:, 1], c=kmeans_labels, cmap='viridis', s=50)
plt.title("K-means聚类可视化（PCA降维）")
plt.xlabel("主成分1")
plt.ylabel("主成分2")

# 使用DBSCAN结果
plt.subplot(1, 2, 2)
plt.scatter(X_pca[:, 0], X_pca[:, 1], c=dbscan_labels, cmap='viridis', s=50)
plt.title("DBSCAN聚类可视化（PCA降维）")
plt.xlabel("主成分1")
plt.ylabel("主成分2")

plt.tight_layout()
plt.show()

可视化后，您可以直观地看到不同算法的聚类效果，例如K-means形成的球形簇和DBSCAN发现的任意形状簇。

4. 不同聚类算法的性能对比（同一数据集）

为了公平对比，我们在同一数据集上运行多个算法，并使用评价指标如轮廓系数（Silhouette Score）来评估性能。

from sklearn.metrics import silhouette_score

# 计算轮廓系数
kmeans_score = silhouette_score(X, kmeans_labels)
dbscan_score = silhouette_score(X, dbscan_labels)

print("K-means轮廓系数:", kmeans_score)
print("DBSCAN轮廓系数:", dbscan_score)

# 其他算法（例如Agglomerative Clustering）
from sklearn.cluster import AgglomerativeClustering
agglomerative = AgglomerativeClustering(n_clusters=4)
agglomerative_labels = agglomerative.fit_predict(X)
agglomerative_score = silhouette_score(X, agglomerative_labels)
print("Agglomerative聚类轮廓系数:", agglomerative_score)

4.1 对比分析

轮廓系数范围从-1到1，值越高表示聚类效果越好。
通过对比，您可以选择最适合数据集的算法。

5. 聚类算法的选型原则

选择合适的聚类算法取决于数据的特性。以下是关键原则：

数据分布:
- 如果数据呈球形分布，如高斯分布，优先选择K-means。
- 如果数据是任意形状或非凸簇，考虑DBSCAN或谱聚类。
簇形状:
- 对于球形簇，K-means高效且简单。
- 对于复杂形状（如环形），DBSCAN或基于密度的算法更佳。
噪声情况:
- 如果数据中有大量噪声或离群点，DBSCAN能自动处理噪声（标记为-1）。
- K-means对噪声敏感，可能需要预处理。

实践建议: 在应用算法前，先探索数据（例如通过可视化），然后根据上述原则进行选择。

6. 总结与后续学习

本章节介绍了聚类算法的实操、可视化、性能对比和选型原则。建议您动手实践代码，并尝试不同的数据集和算法参数。下个章节，我们将深入探讨分类或回归等其他机器学习技术。

学习提示: 作为新手，不要害怕犯错。多运行代码，观察结果变化，这是学习的最佳方式！

上一章 11.1 经典聚类算法

下一章 11.3 密度异常检测算法

Scikit-learn 中文教程

11.2 聚类算法实操与对比

聚类算法实操与对比：从理论到实践

1. 什么是聚类算法？

2. 聚类算法实操

2.1 算法解释

3. 聚类结果的可视化（PCA降维 + 散点图）

4. 不同聚类算法的性能对比（同一数据集）

4.1 对比分析

5. 聚类算法的选型原则

6. 总结与后续学习

相关文档

Python 教程

FastAPI 教程

Django 6中文教程

Flask 中文教程

NumPy 中文教程

TensorFlow 中文手册