课程名称:计算机视觉在自动驾驶中的应用研修班
培训对象:计算机视觉算法工程师、深度学习工程师、感知算法工程师、软件工程师、数据标注工程师。
培训目标:
全面掌握计算机视觉基础理论与深度学习架构。
精通自动驾驶场景下的目标检测、分割与跟踪算法。
熟悉BEV感知、Occupancy Network等前沿技术。
掌握视觉模型训练、优化与部署方法。
1. 计算机视觉与自动驾驶概述
计算机视觉在自动驾驶中的角色;视觉感知任务(检测/分割/跟踪/深度估计);视觉传感器特性与选型;视觉感知面临的挑战(光照/天气/遮挡/长尾场景)。
2. 图像处理基础与特征提取
图像滤波与边缘检测(Sobel/Canny);特征点提取与匹配(SIFT/SURF/ORB);图像金字塔与多尺度分析;图像增强与去噪;颜色空间与光照补偿。
3. 深度学习基础与卷积神经网络
神经网络与反向传播;卷积层/池化层/全连接层;激活函数与损失函数;经典CNN架构(AlexNet/VGG/ResNet);模型训练与调优技巧。
4. 目标检测算法演进
两阶段检测器(Faster R-CNN/Mask R-CNN);单阶段检测器(YOLO系列/SSD);Anchor-Free检测器(CenterNet/FCOS);小目标检测与遮挡处理;实时性与精度平衡。
5. 语义分割与实例分割
语义分割(FCN/UNet/DeepLab);实例分割(Mask R-CNN/YOLACT);全景分割;车道线分割与可行驶区域分割;轻量化分割模型。
6. 目标跟踪与多目标跟踪
单目标跟踪(SiamFC/SiamRPN);多目标跟踪(SORT/DeepSORT);基于检测的跟踪与联合检测跟踪;目标ID分配与轨迹管理;遮挡处理与重识别。
7. 深度估计与3D视觉
单目深度估计;双目立体匹配与视差计算;单目3D目标检测;多视角3D检测;视觉与点云融合3D感知。
8. BEV视角感知技术
BEV感知优势与挑战;视锥变换与IPM逆透视变换;基于Transformer的BEV构建(BEVFormer/PETR);多相机融合BEV表示;BEV时空融合与目标跟踪。
9. Occupancy Network与占用网格
Occupancy Network原理与优势;基于视觉的占用预测;语义占用网格构建;动态障碍物与静态场景建模;Occupancy在规划控制中应用。
10. 视觉模型训练与数据工程
训练数据集构建策略;数据标注规范与质量控制;数据增强与合成数据;主动学习与难例挖掘;模型评测与性能分析。
11. 模型轻量化与嵌入式部署
模型剪枝与通道剪枝;知识蒸馏;模型量化(INT8/FP16);TensorRT/OpenVINO部署优化;端侧推理引擎(MNN/TNN/NCNN)。
12. 视觉感知测试与评价
感知性能评价指标体系;数据集评测(KITTI/Cityscapes/nuScenes);闭环仿真测试;Corner Case挖掘与覆盖;感知系统鲁棒性测试。
【综合案例研讨】
案例一:BEVFormer在高速NOA场景中的应用——基于多相机输入构建BEV特征表示,实现周围车辆、车道线、可行驶区域的统一感知表达,解决传统IPM变换在坡道与颠簸路面的失真问题,提升感知稳定性。
案例二:YOLOv8模型轻量化与部署实践——某量产车型需要部署实时目标检测模型,通过模型剪枝、知识蒸馏与INT8量化,将YOLOv8s模型从30MB压缩至8MB,推理速度提升3倍,精度损失控制在1%以内。
案例三:夜间低光照场景视觉感知优化——针对夜间城市道路行人检测困难问题,通过多曝光融合图像增强与改进的注意力机制,显著提升夜间低光照条件下的行人召回率,通过实车路试验证。