8.3 高级超参数调优

Scikit-learn高级超参数调优：贝叶斯优化、管道化与多指标策略详解

Scikit-learn 中文教程

本教程章节详细讲解Scikit-learn中的高级超参数调优方法，包括贝叶斯优化的高效搜索、GridSearchCV与Pipeline结合避免数据泄露，以及使用refit参数进行多指标优化，适合机器学习新手和进阶用户学习。

Scikit-learn高级超参数调优教程：提升模型性能的三大策略

引言

在机器学习中，超参数调优是优化模型性能的关键步骤。初学者通常从简单的网格搜索或随机搜索开始，但随着模型复杂度的增加，这些方法可能效率低下或容易出错。本教程将介绍三种高级超参数调优策略：贝叶斯优化、管道化调优和多指标调优，帮助你更高效地构建和评估机器学习模型。所有内容基于Scikit-learn库，并针对新人设计，确保简单易懂。

贝叶斯优化：基于先验结果的智能搜索

贝叶斯优化是一种先进的超参数调优方法，它通过建立目标函数（如模型得分）的代理模型（通常是高斯过程），来预测未尝试参数点的性能，从而比随机搜索更高效。Scikit-learn本身不直接提供贝叶斯优化，但我们可以使用第三方库如scikit-optimize或bayesian-optimization。

为什么贝叶斯优化更高效？

利用先验知识：通过历史评估结果，智能地选择下一个参数点。
减少评估次数：相比随机搜索，通常需要更少的迭代来找到最佳参数。
适用于高维空间：在参数空间大时表现更好。

如何使用贝叶斯优化？

安装相关库：例如，pip install scikit-optimize。
定义参数空间和目标函数（模型训练和评估）。
使用优化器进行搜索。

代码示例

from skopt import BayesSearchCV
from sklearn.datasets import load_iris
from sklearn.svm import SVC
from sklearn.model_selection import train_test_split

# 加载数据
iris = load_iris()
X, y = iris.data, iris.target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 定义贝叶斯搜索
opt = BayesSearchCV(
    estimator=SVC(),
    search_spaces={
        'C': (1e-6, 1e+6, 'log-uniform'),  # 参数范围
        'gamma': (1e-6, 1e+1, 'log-uniform'),
        'kernel': ['linear', 'rbf']  # 分类参数
    },
    n_iter=50,  # 迭代次数
    cv=5,
    random_state=42
)

# 执行优化
opt.fit(X_train, y_train)
print(f"最佳参数: {opt.best_params_}")
print(f"最佳得分: {opt.best_score_}")

管道化调优：使用GridSearchCV与Pipeline避免数据泄露

数据泄露是机器学习中的常见问题，指在模型训练过程中，测试集的信息意外泄露到训练集。通过结合Pipeline和GridSearchCV，我们可以确保预处理步骤（如缩放或编码）只在训练集上拟合，避免泄露。

为什么使用Pipeline？

顺序执行步骤：将数据预处理和模型训练封装为一个流程。
防止数据泄露：在交叉验证中，Pipeline确保每个折叠独立预处理。

如何使用GridSearchCV与Pipeline？

构建Pipeline，包含预处理步骤和模型。
使用GridSearchCV进行参数搜索，指定Pipeline作为估计器。

代码示例

from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import GridSearchCV
from sklearn.ensemble import RandomForestClassifier

# 创建Pipeline
pipe = Pipeline([
    ('scaler', StandardScaler()),  # 预处理步骤
    ('classifier', RandomForestClassifier())  # 模型
])

# 定义参数网格
param_grid = {
    'classifier__n_estimators': [10, 50, 100],  # 使用双下划线指定Pipeline中的参数
    'classifier__max_depth': [None, 5, 10]
}

# 执行GridSearchCV
grid_search = GridSearchCV(pipe, param_grid, cv=5, scoring='accuracy')
grid_search.fit(X_train, y_train)

print(f"最佳参数: {grid_search.best_params_}")
print(f"最佳准确率: {grid_search.best_score_}")

多指标调优：使用refit参数选择最佳模型

在实际应用中，我们可能关心多个评估指标（如准确率、召回率、F1分数）。Scikit-learn的GridSearchCV和RandomizedSearchCV允许通过refit参数基于多个指标选择最佳模型。

refit参数的作用

默认：refit=True，基于单个评分指标选择最佳模型。
多指标模式：refit可以指定一个字符串（如'accuracy'）来自动选择，或传递一个函数来自定义选择逻辑。

如何使用多指标调优？

在GridSearchCV中设置scoring参数为字典，定义多个指标。
使用refit参数指定哪个指标用于最终模型选择。

代码示例

from sklearn.metrics import make_scorer, accuracy_score, recall_score

# 定义多个评分指标
scoring = {
    'accuracy': make_scorer(accuracy_score),
    'recall': make_scorer(recall_score, average='macro')  # 多类分类的平均召回率
}

# 执行GridSearchCV，使用多指标
grid_search_multi = GridSearchCV(
    estimator=RandomForestClassifier(),
    param_grid=param_grid,
    cv=5,
    scoring=scoring,
    refit='accuracy'  # 基于准确率选择最佳模型，但可以查看其他指标
)

grid_search_multi.fit(X_train, y_train)

print(f"最佳参数: {grid_search_multi.best_params_}")
print(f"最佳准确率: {grid_search_multi.best_score_}")
print(f"召回率得分: {grid_search_multi.cv_results_['mean_test_recall'][grid_search_multi.best_index_]}")

总结与最佳实践

贝叶斯优化：适合高维参数空间，能高效找到最优解，但需要额外库支持。
管道化调优：必备技巧，防止数据泄露，确保模型评估的可靠性。
多指标调优：根据业务需求选择指标，使用refit参数灵活调整。

建议新手从管道化调优开始，逐步引入贝叶斯优化和多指标评估，以提升模型性能。在实际项目中，结合这些方法可以大幅提高超参数调优的效率和效果。

如果需要进一步学习，参考Scikit-learn官方文档和相关机器学习书籍。

上一章 8.2 超参数调优基础

下一章 8.4 模型选择与融合

Scikit-learn 中文教程

8.3 高级超参数调优

Scikit-learn高级超参数调优教程：提升模型性能的三大策略

引言

贝叶斯优化：基于先验结果的智能搜索

为什么贝叶斯优化更高效？

如何使用贝叶斯优化？

代码示例

管道化调优：使用GridSearchCV与Pipeline避免数据泄露

为什么使用Pipeline？

如何使用GridSearchCV与Pipeline？

代码示例

多指标调优：使用refit参数选择最佳模型

refit参数的作用

如何使用多指标调优？

代码示例

总结与最佳实践

相关文档

Python 教程

FastAPI 教程

Django 6中文教程

Flask 中文教程

NumPy 中文教程

TensorFlow 中文手册