阶段二实战（一）：YOLO模型的首次训练与声呐数据挑战

根据之前的规划，我们正式进入模型训练阶段。第一步是构建智能体的感知系统，即利用 YOLO 模型对海洋环境中的目标进行实时识别。

在 0-1先生 的指导下，我们搭建了本次实验的软硬件环境：

硬件加速：使用一块高性能 NVIDIA RTX 4090 GPU 进行加速训练。
深度学习框架：选用 PyTorch 框架，其生态和灵活性便于我们对模型进行修改和调试。
模型选型：基于效率和部署考虑，我们选择 YOLOv8-n (Nano) 作为基准模型。Nano版本体积小、计算量低，非常适合未来的边缘设备部署测试。
初始数据集：使用我们辛苦收集的第一批 声呐图像 数据集（约 3000 张已标注图像）。

我们的目标是让 YOLOv8 学会识别声呐图像中的两类目标：Fish_School (鱼群) 和 Seabed_Obstacle (海底障碍物)。

配置项	值/策略	目的与说明
预训练权重	COCO 预训练权重	利用在大规模自然图像上的通用特征学习能力，加速模型收敛（迁移学习）。
Batch Size	16 或 32	根据 GPU 显存限制调整，确保训练过程的稳定性和效率。
Epochs	100	初始轮次设置，用于观察模型的学习速度和过拟合趋势。
优化器 (Optimizer)	AdamW	结合了 Adam 的高效和 L2 正则化的优势，能更好地处理深度网络的权重衰减。
学习率 (Learning Rate)	初始 $10^{-4}$	采用 Cosine Annealing 策略进行动态调整，保障训练后期的精细优化。

模型启动训练后，我们立刻遇到了第一个巨大的挑战：声呐图像的独特性。

极低的信噪比 (SNR)：声呐图像本质上是回波强度图，图像模糊，鱼群目标与背景杂波的界限不清晰。模型难以像处理自然图像一样，快速提取出清晰的边缘和纹理特征。
尺度差异巨大：声呐在不同水深和距离下，同一鱼群在图像上的像素大小差异巨大。远处的鱼群可能只占几个像素点（小目标问题）。
颜色信息缺失：声呐图像通常是单通道的灰度图（或伪彩色图），YOLO 默认处理三通道 RGB 图像，通道信息不匹配。

“解决声呐图像的挑战，不能只依赖默认配置。我们需要从数据和模型结构两方面进行定制化调整。”

数据预处理强化：
- 直方图均衡化：对声呐图像进行预处理，增强图像的对比度，帮助模型区分目标与背景。
- 通道处理：将单通道声呐图复制三份作为输入，适配 YOLOv8 模型的输入要求，同时保证模型能够利用预训练权重。
模型架构轻微定制（FPN增强）：
- 我们计划着重检查 YOLOv8 中的 特征金字塔网络 (FPN) 部分。FPN 负责融合不同尺度的特征。针对声呐中的小目标问题，我们可能需要增加一个更精细的特征层（例如 P2 或 P3），专门负责捕获极小目标的特征，以提升检测召回率。

阶段总结：

首次实验虽然遭遇了声呐数据带来的挑战，但也为我们指明了优化方向。我们正在应用 0-1先生 提供的预处理和模型定制策略。下一步，我们将重点关注训练后的 性能指标，如 mAP (Mean Average Precision) 和召回率 (Recall)，以评估当前模型的有效性。