8.2 超参数调优基础

Scikit-learn超参数调优：网格搜索与随机搜索的完全指南

Scikit-learn 中文教程

本章节详细讲解Scikit-learn中超参数与模型参数的区别，并提供网格搜索和随机搜索的实用教程，包括代码示例和调优结果解析，帮助新人快速上手机器学习模型优化。

Scikit-learn超参数调优基础

为什么需要调优超参数？

在机器学习中，模型性能往往依赖于正确的超参数设置。超参数调优就像为你的模型找到最佳配置，以避免过拟合或欠拟合，从而提升预测准确性。Scikit-learn提供了强大的工具来简化这个过程，让调优变得轻松高效。

超参数与模型参数的区别

理解两者区别是调优的第一步：

模型参数：这些是模型在训练过程中自动学习的变量。例如，在线性回归中，权重（系数）就是模型参数。当你调用fit()方法时，Scikit-learn根据数据计算这些参数。
超参数：这些是在训练前手动设置的配置，控制模型的学习行为。例如，在随机森林中，树的数量（n_estimators）或最大深度（max_depth）就是超参数。它们不能从数据直接学习，需要通过实验来确定最优值。

简单来说，模型参数是算法的内在部分，而超参数是外部的控制旋钮。

网格搜索（GridSearchCV）

网格搜索是一种穷举方法，它会尝试所有可能的超参数组合，以找到最佳设置。使用Scikit-learn的GridSearchCV类，它可以自动结合交叉验证来评估性能，确保结果稳健。

工作原理

指定一个参数网格，包含超参数及其候选值列表。
GridSearchCV遍历网格中的每个组合。
对每个组合，使用交叉验证训练模型并计算评分（如准确率）。
返回最佳参数和最佳得分。

优缺点

优点：准确，能找到参数空间内的最优解。
缺点：耗时，尤其当参数空间大时（例如，多个超参数各有多个值）。

代码示例

假设我们使用随机森林分类器进行二分类任务。

# 导入必要库
from sklearn.model_selection import GridSearchCV
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split

# 生成示例数据
X, y = make_classification(n_samples=1000, n_features=20, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 定义参数网格
param_grid = {
    'n_estimators': [10, 50, 100],  # 树的数量
    'max_depth': [None, 5, 10]      # 树的最大深度
}

# 初始化模型和网格搜索
model = RandomForestClassifier(random_state=42)
grid_search = GridSearchCV(estimator=model, param_grid=param_grid, cv=5, scoring='accuracy')
grid_search.fit(X_train, y_train)

# 输出结果
print("最佳参数:", grid_search.best_params_)
print("最佳交叉验证得分:", grid_search.best_score_)

在这个例子中，网格搜索会尝试3（n_estimators）乘以3（max_depth）= 9种组合，每个组合进行5折交叉验证。

随机搜索（RandomizedSearchCV）

当参数空间很大时，随机搜索是更高效的选择。它不是遍历所有组合，而是从参数分布中随机采样指定数量的组合进行评估。

工作原理

定义超参数的分布（如列表或概率分布）。
RandomizedSearchCV随机采样一定数量的组合。
使用交叉验证评估这些组合。
返回最佳结果。

优缺点

优点：高效，尤其适用于大参数空间；常能在较少时间内找到接近最优的解。
缺点：结果可能不是绝对最优，依赖随机性。

代码示例

继续使用随机森林，但这次使用随机分布。

from sklearn.model_selection import RandomizedSearchCV
from scipy.stats import randint

# 定义参数分布
param_dist = {
    'n_estimators': randint(10, 200),  # 随机整数在10到200之间
    'max_depth': [None, 5, 10, 20]     # 可以混合分布和列表
}

# 初始化随机搜索
random_search = RandomizedSearchCV(estimator=model, param_distributions=param_dist, 
                                   n_iter=10, cv=5, scoring='accuracy', random_state=42)
random_search.fit(X_train, y_train)

print("最佳参数:", random_search.best_params_)
print("最佳交叉验证得分:", random_search.best_score_)

在这里，n_iter=10 表示只采样10个随机组合，而不是像网格搜索那样尝试所有可能性。

调优结果解析

调优完成后，你可以轻松提取关键信息来分析和使用最佳模型。

关键属性

最佳参数：通过best_params_属性获取最优超参数组合。
最佳得分：通过best_score_属性获取交叉验证下的最高性能得分（如准确率）。
最佳模型：通过best_estimator_属性获取训练好的最佳模型实例，可以直接用于预测或进一步评估。

模型保存与加载

使用最佳模型进行预测或保存以备后用。

# 获取最佳模型
best_model = grid_search.best_estimator_  # 或 random_search.best_estimator_

# 在测试集上评估性能
test_score = best_model.score(X_test, y_test)
print(f"测试集准确率: {test_score:.2f}")

# 保存模型到文件
import joblib
joblib.dump(best_model, 'best_model.pkl')

# 加载模型
loaded_model = joblib.load('best_model.pkl')
predictions = loaded_model.predict(X_test)

解释结果

比较网格搜索和随机搜索：如果网格搜索耗时太长，随机搜索可能是更好选择。
使用最佳参数重新训练：有时best_estimator_已经在训练集上拟合好，但可以用于新数据预测。
可视化：可以使用Scikit-learn或matplotlib绘制参数与得分的关系图来辅助理解。

总结与最佳实践

入门建议：从简单的网格搜索开始，参数网格小一些，以快速了解模型行为。
效率优先：当超参数数量多或值范围大时，切换到随机搜索。
交叉验证：始终使用交叉验证（如cv=5）来避免过拟合，确保调优结果可靠。
实践练习：多尝试不同模型和数据集，积累经验。

超参数调优是机器学习工作流程的关键步骤。通过掌握网格搜索和随机搜索，你可以系统地优化模型，提升项目成功率。记住，调优的目标是找到泛化能力强的配置，而不是盲目追求最高训练得分。

上一章 8.1 模型验证方法

下一章 8.3 高级超参数调优

Scikit-learn 中文教程

8.2 超参数调优基础

Scikit-learn超参数调优基础

为什么需要调优超参数？

超参数与模型参数的区别

网格搜索（GridSearchCV）

工作原理

优缺点

代码示例

随机搜索（RandomizedSearchCV）

工作原理

优缺点

代码示例

调优结果解析

关键属性

模型保存与加载

解释结果

总结与最佳实践

相关文档

Python 教程

FastAPI 教程

Django 6中文教程

Flask 中文教程

NumPy 中文教程

TensorFlow 中文手册