培训对象: 有一定嵌入式基础,希望将人工智能算法部署到资源受限的边缘设备上的工程师。
培训目标: 使学员掌握将训练好的AI模型(特别是视觉模型)部署到嵌入式设备上的完整流程,包括模型转换、推理引擎使用和性能优化,能够开发具有AI能力的边缘计算产品。
培训内容介绍:
边缘AI概述: 讲解云计算与边缘计算的差异,边缘AI的应用场景(如智能摄像头、工业质检)及其面临的挑战(算力、功耗)。
AI模型基础与训练简介: 简要回顾神经网络基础(CNN),介绍如何使用TensorFlow或PyTorch等框架训练一个简单的模型(如手势识别、物体分类)。
模型轻量化技术: 学习模型剪枝、权重量化(INT8, FP16)和知识蒸馏的原理,讲解如何减小模型体积和计算量以适应嵌入式环境。
TensorFlow Lite for Microcontrollers: 深入讲解TFLite Micro框架,学习其在MCU上的部署流程,解释其解释器、算子是如何在无操作系统环境下运行的。
TFLite Micro实战: 在ARM Cortex-M开发板上移植TFLite Micro运行时,加载并运行一个量化后的人脸检测或关键词唤醒模型。
嵌入式推理引擎(NCNN/Tengine): 介绍面向嵌入式Linux的推理框架,如NCNN、Tengine等,讲解其特点和在ARM平台上的编译与部署。
YOLO目标检测模型部署: 重点讲解如何将YOLO系列模型(如YOLOv5-tiny)转换为适合嵌入式平台的格式(如ONNX、NCNN),并在开发板上运行目标检测。
硬件加速单元利用: 学习如何利用硬件来加速AI推理,包括ARM的CMSIS-NN库(针对Cortex-M)和神经网络处理单元(NPU)的驱动与使用。
摄像头图像采集与预处理: 讲解如何通过摄像头驱动(如OV2640)采集图像数据,并进行缩放、格式转换(RGB888, YUV)等预处理,以符合模型输入要求。
推理结果后处理与决策: 学习解析模型输出的张量数据,将其转换为有意义的业务信息(如目标框、类别、置信度),并据此做出控制决策。
性能分析与优化: 分析模型推理各阶段(前处理、推理、后处理)的时间开销,学习使用profiling工具定位瓶颈,进行算子替换或多线程优化。
端云协同AI案例: 设计一个简单的端云协同方案,边缘设备负责实时采集和初步推理,将疑似异常的数据上传到云端进行更精确的二次分析。