培训对象:
具备Python/深度学习基础的算法工程师
需要处理图像/视频数据的开发人员
安防/医疗/工业质检/自动驾驶等行业从业者
希望掌握视觉AI能力的应用开发者
培训目标:
使学员系统掌握计算机视觉核心任务(图像分类、目标检测、图像分割、图像生成)的算法原理与实战方法;熟练使用PyTorch及主流视觉库进行模型开发;能够基于YOLO、ResNet、U-Net等经典模型解决实际视觉问题;具备从数据准备、模型训练到部署的全流程项目能力;能够独立完成工业质检、目标识别等企业级视觉应用。
培训内容介绍:
计算机视觉概述与应用场景
计算机视觉的定义与发展历程;视觉技术在各行业的应用:安防/医疗/自动驾驶/工业质检/新零售;视觉任务分类:图像分类/目标检测/图像分割/姿态估计/图像生成;技术发展脉络及产业应用案例。
数字图像处理基础
图像表示:像素/通道/分辨率/色彩空间(RGB/HSV/Grayscale);图像基本操作:读取/显示/保存/裁剪/缩放/旋转;图像滤波:均值滤波/高斯滤波/中值滤波/双边滤波;边缘检测:Sobel/Canny算子;图像增强:直方图均衡化/伽马变换。
图像分类与经典CNN架构
图像分类问题定义与评估指标;LeNet-5:开山之作;AlexNet:深度学习突破;VGG:小卷积核堆叠思想;ResNet:残差学习解决退化问题;迁移学习在图像分类中的应用;实战:基于ResNet的猫狗分类项目。
卷积神经网络进阶
分组卷积与深度可分离卷积;空洞卷积(Dilated Convolution)与感受野;可变形卷积(Deformable Conv);注意力机制:SENet/CBAM/ECA;轻量化网络:MobileNet系列/ShuffleNet系列;网络结构对比与选型策略。
目标检测算法(一阶段)
目标检测问题定义与评估指标(IoU/mAP);滑动窗口与候选区域思想;YOLO系列演进:YOLOv1-v8核心思想;SSD:多尺度特征图检测;Anchor-Free检测:CenterNet/FCOS;实战:基于YOLOv8的通用目标检测。
目标检测算法(两阶段)
R-CNN:候选区域+CNN分类;Fast R-CNN:共享卷积与RoI Pooling;Faster R-CNN:RPN网络;Mask R-CNN:扩展至实例分割;检测模型选型对比与实践建议。
图像分割技术
语义分割:逐像素分类;FCN:全卷积网络;U-Net:编码器-解码器+跳跃连接;DeepLab系列:空洞卷积与ASPP;实例分割与全景分割简介;分割模型评估指标(mIoU/PA);实战:基于U-Net的医学图像分割。
人脸识别与关键点检测
人脸检测:MTCNN/RetinaFace;人脸对齐与关键点定位;人脸识别流程:检测-对齐-特征提取-比对;人脸识别损失函数:Triplet Loss/ArcFace/CosFace;人脸活体检测技术;实战:人脸检测与识别系统搭建。
目标跟踪与姿态估计
目标跟踪问题定义;SORT与DeepSORT算法;基于孪生网络的跟踪(Siamese系列);人体姿态估计:自顶向下/自底向上方法;OpenPose与HRNet;姿态估计应用场景。
图像生成与GANs
生成对抗网络原理;DCGAN:卷积GAN;条件GAN(cGAN)与图像翻译(Pix2Pix);CycleGAN:无监督图像翻译;StyleGAN系列:高保真人脸生成;实战:基于DCGAN的漫画头像生成。
视觉模型训练技巧与优化
数据增强策略:基础增强/自动增强(AutoAugment)/CutMix/Mosaic;难例挖掘(Hard Example Mining);标签平滑与模型EMA;模型蒸馏原理;训练稳定性与收敛性优化;模型推理加速基础。
综合实战:工业质检系统构建
从零构建工业缺陷检测系统:需求分析(电子产品表面缺陷检测)→数据准备(缺陷样本采集与标注)→数据增强→模型选型(YOLOv8/U-Net)→迁移学习微调→模型评估→ONNX导出与推理加速→RESTful API封装→系统演示。