深度学习算法工程师、AI 平台开发人员、模型推理优化工程师。
掌握 GPU 上深度学习训练与推理的性能瓶颈分析方法。
理解混合精度训练(AMP)与分布式训练的原理与实践。
能够使用 TensorRT 等工具对模型进行推理优化。
深度学习与 GPU:GPU 在 AI 训练中的主导地位;张量核心(Tensor Cores)的架构与优势;NVIDIA AI 软件栈(CUDA、cuDNN、TensorRT)。
cuDNN 与 cuBLAS 应用:cuDNN 中卷积算法的选择(FFT、Winograd、隐式 GEMM);cuBLAS 在神经网络全连接层中的应用;自动调优机制。
性能分析工具:PyTorch Profiler 的使用;TensorBoard 性能分析;Nsight Systems 分析训练流水线瓶颈。
输入流水线优化:数据加载与增强的 GPU 加速(DALI);使用 GPU 直接解压数据;预处理与训练的并行。
混合精度训练:FP16 与 BF16 的优势;损失缩放(Loss Scaling);自动混合精度(AMP)的实现;FP16 训练中的数值稳定性。
分布式训练:数据并行 vs 模型并行;同步 SGD 与梯度累积;AllReduce 算法;NCCL 库的使用。
大模型训练技术:张量并行(Tensor Parallelism);流水线并行(Pipeline Parallelism);ZeRO 优化器(零冗余优化)。
模型推理优化:推理延迟与吞吐量的权衡;模型量化(INT8、FP8);TensorRT 的模型转换与优化引擎生成。
TensorRT 高级特性:插件编写支持自定义算子;动态形状(Dynamic Shapes)处理;多流推理与并发。
推理部署框架:TensorRT Inference Server(Triton)的架构;并发模型服务与动态批处理;与 Kubernetes 的集成。
算子融合与内核自动调优:垂直融合与水平融合;TVM 与 XLA 的编译优化;算子自动调优(AutoTVM、Ansor)。
综合实战项目:选取典型模型(如 ResNet、BERT),进行训练性能分析与优化,并使用 TensorRT 加速推理,对比优化前后的吞吐量与延迟。