培训对象:
具备AI模型开发基础的算法工程师
嵌入式/物联网系统开发工程师
需要将AI模型部署到端侧设备的开发人员
工业检测/智能安防/智能终端产品研发人员
培训目标:
使学员系统掌握AI模型从训练完成到边缘设备部署的全流程技术栈;理解模型量化、剪枝、蒸馏等优化原理与方法;熟练使用ONNX、TensorRT、TFLite等推理引擎进行模型转换与加速;掌握主流边缘硬件(Jetson/树莓派/�N腾)的部署流程;具备独立完成工业质检、智能安防等场景的边缘AI应用开发能力。
培训内容介绍:
边缘AI概述与技术架构
边缘计算与云计算的协同关系;边缘AI的核心价值:低延迟/带宽节省/数据隐私;边缘AI应用场景:工业质检/智能安防/可穿戴设备/自动驾驶;边缘AI技术栈全景:硬件/框架/算法/工具;边缘部署的挑战:算力/功耗/内存/散热。
边缘硬件平台选型
主流边缘硬件对比:NVIDIA Jetson系列/树莓派/Intel NCS/华为�N腾/瑞芯微;硬件性能指标:算力(TOPS)/功耗/内存/接口;硬件选型策略:根据场景需求匹配硬件;开发板环境搭建与远程连接。
模型优化技术(上):模型量化
量化的基本原理:FP32→INT8/INT4;量化类型:动态量化/静态量化/量化感知训练(QAT);量化对模型精度的影响;不同框架的量化工具:PyTorch量化/TensorRT量化;实战:将PyTorch模型量化为INT8。
模型优化技术(下):剪枝与蒸馏
模型剪枝原理:结构化剪枝/非结构化剪枝;剪枝策略:权重剪枝/通道剪枝/层剪枝;知识蒸馏原理:教师-学生模型;蒸馏方法:软标签/特征蒸馏;剪枝+蒸馏联合优化。
模型格式转换与ONNX
模型格式标准:ONNX(开放神经网络交换格式);PyTorch模型导出为ONNX;TensorFlow模型导出为SavedModel;ONNX算子兼容性检查;ONNX Simplifier模型优化;ONNX Runtime推理引擎使用。
推理引擎与加速库
主流推理引擎对比:TensorRT/OpenVINO/TFLite/MNN/NCNN;TensorRT原理:层融合/精度校准/内核优化;OpenVINO与Intel硬件优化;MNN/NCNN在移动端的应用;推理引擎选型策略。
NVIDIA Jetson平台部署实战
Jetson系列硬件介绍:Xavier/Orin/Nano;JetPack SDK与开发环境;TensorRT在Jetson上的应用;DeepStream视频分析框架;实战:YOLOv8目标检测模型在Jetson上的部署与优化。
�N腾AI平台部署实战
�N腾AI全栈体系架构;MindSpore整体架构介绍;模型迁移:PyTorch向MindSpore迁移流程;�N腾开发板(Atlas 200 DK)环境搭建;模型转换与推理部署;实战:基于�N腾的CV应用开发。
移动端与嵌入式部署
TensorFlow Lite架构与原理;模型转换为TFLite格式;TFLite量化与优化;Android/iOS端集成TFLite;NCNN在移动端的高效推理;实战:手机端实时目标检测应用。
边缘应用开发框架
边缘推理服务架构设计;C++/Python推理接口封装;边缘端视频流处理;推理结果的后处理与业务逻辑;边缘与云端的协同设计;边缘端数据回传与模型更新。
边缘AI性能分析与优化
性能分析工具:NVIDIA Nsight/TensorRT Profiler;推理延迟/吞吐量/内存占用分析;模型推理瓶颈定位;多线程与异步处理优化;批处理与流水线优化;功耗优化策略。
综合实战:工业边缘检测系统搭建
从训练到部署的完整边缘AI项目:模型准备(基于YOLOv8的缺陷检测模型)→模型优化(量化+剪枝)→格式转换(ONNX→TensorRT)→边缘硬件部署(Jetson Nano/�N腾)→推理服务封装(C++/Python API)→摄像头实时视频流接入→检测结果实时展示与告警→性能监控与优化,最终交付可运行的边缘智能检测系统。