25.3 实战 3：图像分割系统（U-Net + 医学图像 / 语义分割）

TensorFlow实战：U-Net图像分割系统教程 - 医学图像与道路语义分割

TensorFlow 中文手册

本章节详细介绍如何使用TensorFlow构建U-Net图像分割系统，涵盖医学图像分割和道路语义分割的业务场景、数据集准备、模型构建、损失函数选择及模型评估，适合初学者学习图像分割实战。

实战 3：图像分割系统（U-Net + 医学图像 / 语义分割）

介绍

图像分割是计算机视觉中的重要任务，旨在将图像中的每个像素分类到特定类别，常用于医学图像分析和自动驾驶。本教程使用TensorFlow构建基于U-Net的图像分割系统，适配医学图像（如肿瘤分割）和道路语义分割，帮助新人快速上手。

业务需求与场景分析

医学图像分割

应用场景：例如，在MRI或CT扫描中分割肿瘤、器官或病变区域，辅助医生进行诊断和治疗规划。
业务需求：高精度分割、实时处理（如在手术中）、数据隐私保护。

道路语义分割

应用场景：自动驾驶中识别道路、行人、车辆和障碍物，确保安全行驶。
业务需求：高可靠性、适应不同天气和光照条件、低延迟响应。

这些场景要求模型具有良好的分割性能和泛化能力。

分割数据集准备

数据收集

图像和掩码标注：对于每个输入图像，需要一个对应的掩码（mask）图像，其中像素值表示类别（如0表示背景，1表示目标）。
- 示例：医学图像中，掩码标注肿瘤区域；道路图像中，掩码标注道路和物体。
常见数据集：医学图像可使用ISIC数据集，道路语义分割可使用Cityscapes或KITTI数据集。

数据增强

数据增强可增加数据多样性，减少过拟合，常用技术包括：

旋转：随机旋转图像和掩码。
缩放：调整图像大小。
翻转：水平或垂直翻转。
颜色变换：调整亮度、对比度。

使用TensorFlow的tf.image模块实现数据增强，示例代码：

import tensorflow as tf

# 假设images和masks是TensorFlow张量
def augment_data(images, masks):
    # 随机翻转
    images = tf.image.random_flip_left_right(images)
    masks = tf.image.random_flip_left_right(masks)
    # 随机旋转
    rotation = tf.random.uniform(shape=[], minval=0, maxval=4, dtype=tf.int32)
    images = tf.image.rot90(images, k=rotation)
    masks = tf.image.rot90(masks, k=rotation)
    return images, masks

构建数据流水线

使用tf.data.Dataset高效加载和处理数据：

# 假设有图像和掩码文件列表
dataset = tf.data.Dataset.from_tensor_slices((image_paths, mask_paths))
dataset = dataset.map(load_and_preprocess_image)
dataset = dataset.map(augment_data)
dataset = dataset.batch(32).prefetch(tf.data.AUTOTUNE)

U-Net模型构建

U-Net是一种流行的图像分割架构，由编码器（下采样）、解码器（上采样）和跳跃连接组成。

编码器（Encoder）

使用卷积层和最大池化层逐步提取特征，减小空间尺寸。
示例：每层包括卷积、激活函数（如ReLU）和池化。

解码器（Decoder）

使用转置卷积（或上采样）层恢复空间尺寸，结合编码器的跳跃连接。

跳跃连接（Skip Connections）

将编码器的特征图与解码器对应层连接，保留细节信息。

TensorFlow实现代码

import tensorflow as tf
from tensorflow.keras import layers, Model

def unet_model(input_size=(256, 256, 3)):
    inputs = layers.Input(input_size)
    
    # 编码器部分
    c1 = layers.Conv2D(64, (3, 3), activation='relu', padding='same')(inputs)
    c1 = layers.Conv2D(64, (3, 3), activation='relu', padding='same')(c1)
    p1 = layers.MaxPooling2D((2, 2))(c1)
    
    c2 = layers.Conv2D(128, (3, 3), activation='relu', padding='same')(p1)
    c2 = layers.Conv2D(128, (3, 3), activation='relu', padding='same')(c2)
    p2 = layers.MaxPooling2D((2, 2))(c2)
    
    # 继续添加更多层...
    
    # 解码器部分
    u1 = layers.Conv2DTranspose(128, (2, 2), strides=(2, 2), padding='same')(...)
    u1 = layers.concatenate([u1, c2])  # 跳跃连接
    d1 = layers.Conv2D(128, (3, 3), activation='relu', padding='same')(u1)
    
    # 继续解码...
    
    outputs = layers.Conv2D(1, (1, 1), activation='sigmoid')(...)
    model = Model(inputs, outputs)
    return model

# 初始化模型
model = unet_model()
model.summary()

损失函数选择

分割任务中，常用Dice Loss或其变体来优化模型。

Dice Loss

Dice Loss基于Dice系数，衡量预测掩码和真实掩码的重叠度。
公式：Dice Loss = 1 - (2 * 交集) / (预测像素数 + 真实像素数)

BCE-Dice Loss

结合二元交叉熵（BCE）和Dice Loss，提供更稳定的训练。
BCE处理类别不平衡，Dice Loss优化分割边界。

TensorFlow实现

import tensorflow as tf
from tensorflow.keras import losses

def dice_loss(y_true, y_pred, smooth=1e-6):
    y_true_f = tf.reshape(y_true, [-1])
    y_pred_f = tf.reshape(y_pred, [-1])
    intersection = tf.reduce_sum(y_true_f * y_pred_f)
    dice = (2. * intersection + smooth) / (tf.reduce_sum(y_true_f) + tf.reduce_sum(y_pred_f) + smooth)
    return 1 - dice

def bce_dice_loss(y_true, y_pred):
    bce = losses.binary_crossentropy(y_true, y_pred)
    dice = dice_loss(y_true, y_pred)
    return bce + dice

# 编译模型时使用
model.compile(optimizer='adam', loss=bce_dice_loss, metrics=['accuracy'])

模型训练与评估

训练过程

优化器：常用Adam优化器。
批大小和epochs：根据数据集大小调整，如批大小32，训练50-100个epochs。
回调函数：使用早停（EarlyStopping）和模型保存（ModelCheckpoint）。

评估指标

分割任务常用指标：

IOU（Intersection over Union）：衡量预测和真实区域的交集与并集之比，公式：(交集) / (并集)。
Dice Score：类似Dice系数，值越接近1表示分割越好。

实现评估指标：

def iou_metric(y_true, y_pred, smooth=1e-6):
    y_true_f = tf.reshape(y_true, [-1])
    y_pred_f = tf.reshape(y_pred, [-1])
    intersection = tf.reduce_sum(y_true_f * y_pred_f)
    union = tf.reduce_sum(y_true_f) + tf.reduce_sum(y_pred_f) - intersection
    return (intersection + smooth) / (union + smooth)

def dice_score(y_true, y_pred, smooth=1e-6):
    # 与Dice Loss相反，计算得分
    return 1 - dice_loss(y_true, y_pred, smooth)

# 在训练中监控
model.compile(optimizer='adam', loss=bce_dice_loss, metrics=[iou_metric, dice_score])

分割结果可视化

训练完成后，可视化分割结果以评估模型性能：

import matplotlib.pyplot as plt
import numpy as np

# 预测和可视化
def visualize_segmentation(image, true_mask, pred_mask):
    fig, axes = plt.subplots(1, 3, figsize=(15, 5))
    axes[0].imshow(image)
    axes[0].set_title('输入图像')
    axes[1].imshow(true_mask.squeeze(), cmap='gray')
    axes[1].set_title('真实掩码')
    axes[2].imshow(pred_mask.squeeze(), cmap='gray')
    axes[2].set_title('预测掩码')
    plt.show()

# 在测试集上使用
for batch in test_dataset.take(1):
    images, masks = batch
    preds = model.predict(images)
    for i in range(len(images)):
        visualize_segmentation(images[i].numpy(), masks[i].numpy(), preds[i])

总结

本章节展示了如何使用TensorFlow构建U-Net图像分割系统，覆盖了从业务分析到模型评估的全过程。通过实际代码示例，新手可以轻松理解和实践。建议尝试不同数据集和超参数，以优化模型性能。

上一章 25.2 实战 2：智能问答机器人（Transformer+Seq2Seq）

下一章 26.1 模型轻量化的核心需求