12.4 DNN 实战案例

TensorFlow深度学习实战：结构化数据分类与回归及模型调优指南

TensorFlow 中文手册

本章节详细讲解TensorFlow在结构化数据分类（如乳腺癌检测、客户流失预测）和回归（如房价预测、销量预测）中的实战案例，并提供模型性能调优方法，包括超参数调整和正则化优化，适合新手学习。

TensorFlow DNN实战案例：结构化数据分类、回归与调优

本章节将带您深入实战，学习如何使用TensorFlow构建深度神经网络（DNN）处理结构化数据。我们将从分类任务开始，再到回归任务，最后探讨如何优化模型性能。所有内容都针对新手设计，力求简单易懂。

1. 结构化数据分类实战案例

结构化数据分类是机器学习中的常见任务，例如医学诊断（乳腺癌检测）或商业分析（客户流失预测）。下面以乳腺癌检测为例，展示如何使用TensorFlow实现。

示例：乳腺癌检测

数据集： 使用经典的威斯康辛乳腺癌数据集（可通过sklearn加载），这是一个二元分类问题，目标是根据特征预测肿瘤是良性还是恶性。

步骤：

数据预处理： 加载数据、分割训练集和测试集、标准化特征。
模型构建： 使用tf.keras定义DNN模型。
编译模型： 选择合适的损失函数和优化器。
训练模型： 在训练集上拟合模型。
评估模型： 在测试集上评估性能。

代码示例：

import tensorflow as tf
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# 加载数据
data = load_breast_cancer()
X, y = data.data, data.target

# 数据预处理
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# 构建DNN模型
model = tf.keras.Sequential([
    tf.keras.layers.Dense(32, activation='relu', input_shape=(X_train.shape[1],)),
    tf.keras.layers.Dropout(0.2),  # 简单正则化
    tf.keras.layers.Dense(16, activation='relu'),
    tf.keras.layers.Dense(1, activation='sigmoid')  # 二元分类
])

# 编译模型
model.compile(optimizer='adam',
              loss='binary_crossentropy',
              metrics=['accuracy'])

# 训练模型
history = model.fit(X_train, y_train, epochs=50, batch_size=32, validation_split=0.1, verbose=1)

# 评估模型
loss, accuracy = model.evaluate(X_test, y_test)
print(f'测试集准确率: {accuracy:.2f}')

简单解释： 我们使用了一个简单的三层DNN，通过标准化数据和添加Dropout来防止过拟合。类似地，客户流失预测可以基于其他数据集，步骤相同。

2. 结构化数据回归实战案例

回归任务用于预测连续值，如房价或销量。以房价预测为例。

示例：房价预测

数据集： 使用波士顿房价数据集（或其他结构化房价数据）。

步骤： 与分类类似，但损失函数和输出层不同。

代码示例：

import tensorflow as tf
from sklearn.datasets import fetch_california_housing  # 使用加州房价数据集
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# 加载数据
housing = fetch_california_housing()
X, y = housing.data, housing.target

# 数据预处理
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# 构建回归DNN模型
model = tf.keras.Sequential([
    tf.keras.layers.Dense(64, activation='relu', input_shape=(X_train.shape[1],)),
    tf.keras.layers.Dense(32, activation='relu'),
    tf.keras.layers.Dense(1)  # 回归任务，无激活函数
])

# 编译模型
model.compile(optimizer='adam',
              loss='mean_squared_error',  # 回归常用损失
              metrics=['mae'])  # 平均绝对误差

# 训练模型
history = model.fit(X_train, y_train, epochs=100, batch_size=32, validation_split=0.1, verbose=1)

# 评估模型
loss, mae = model.evaluate(X_test, y_test)
print(f'测试集平均绝对误差: {mae:.2f}')

说明： 回归任务中，输出层只有一个神经元，无激活函数，损失函数使用均方误差或平均绝对误差。销量预测任务类似，只需更换数据集。

3. 模型性能调优

训练模型后，常需要优化性能。这里介绍超参数调整和正则化优化。

超参数调整

超参数如学习率、隐藏层大小、批次大小等，对模型性能有重大影响。TensorFlow提供了Keras Tuner工具来简化调优。

示例：手动调整学习率

from tensorflow.keras.optimizers import Adam

# 尝试不同学习率
learning_rates = [0.001, 0.01, 0.1]
for lr in learning_rates:
    model = tf.keras.Sequential([
        tf.keras.layers.Dense(32, activation='relu', input_shape=(X_train.shape[1],)),
        tf.keras.layers.Dense(1, activation='sigmoid')
    ])
    model.compile(optimizer=Adam(learning_rate=lr),
                  loss='binary_crossentropy',
                  metrics=['accuracy'])
    history = model.fit(X_train, y_train, epochs=20, batch_size=32, validation_split=0.1, verbose=0)
    val_acc = history.history['val_accuracy'][-1]
    print(f'学习率 {lr} 的验证准确率: {val_acc:.2f}')

建议： 使用Keras Tuner或网格搜索来自动化超参数优化。

正则化优化

正则化帮助防止过拟合。TensorFlow支持多种方法，如L2正则化、Dropout。

示例：添加L2正则化

from tensorflow.keras import regularizers

model = tf.keras.Sequential([
    tf.keras.layers.Dense(32, activation='relu', 
                          kernel_regularizer=regularizers.l2(0.01),  # L2正则化
                          input_shape=(X_train.shape[1],)),
    tf.keras.layers.Dropout(0.3),  # Dropout
    tf.keras.layers.Dense(1, activation='sigmoid')
])
# 其余步骤同上

优化技巧： 结合正则化和数据增强，提高模型泛化能力。

总结

本章节通过实战案例，展示了TensorFlow在结构化数据分类和回归中的应用，并介绍了模型调优的基本方法。新手可以逐步实践，调整参数以提升模型性能。后续章节将深入更多高级主题。

练习建议： 尝试在其他数据集上应用这些方法，或使用交叉验证进一步调优。

通过本章节学习，您将掌握TensorFlow处理结构化数据的核心技能，为更复杂的深度学习项目打下基础。

上一章 12.3 DNN 模型优化

下一章 13.1 CNN 核心原理

TensorFlow 中文手册

12.4 DNN 实战案例

TensorFlow DNN实战案例：结构化数据分类、回归与调优

1. 结构化数据分类实战案例

示例：乳腺癌检测

2. 结构化数据回归实战案例

示例：房价预测

3. 模型性能调优

超参数调整

正则化优化

总结

相关文档

Python 教程

FastAPI 教程

Django 6中文教程

Flask 中文教程

NumPy 中文教程

Scikit-learn 中文教程