曙海培训-GPU 深度学习优化培训课程-曙海培训,全国连锁

GPU 深度学习优化培训课程

课程名称：GPU 深度学习模型训练与推理优化

培训对象

深度学习算法工程师、AI 平台开发人员、模型推理优化工程师。

培训目标

掌握 GPU 上深度学习训练与推理的性能瓶颈分析方法。
理解混合精度训练（AMP）与分布式训练的原理与实践。
能够使用 TensorRT 等工具对模型进行推理优化。

培训内容介绍

深度学习与 GPU：GPU 在 AI 训练中的主导地位；张量核心（Tensor Cores）的架构与优势；NVIDIA AI 软件栈（CUDA、cuDNN、TensorRT）。
cuDNN 与 cuBLAS 应用：cuDNN 中卷积算法的选择（FFT、Winograd、隐式 GEMM）；cuBLAS 在神经网络全连接层中的应用；自动调优机制。
性能分析工具：PyTorch Profiler 的使用；TensorBoard 性能分析；Nsight Systems 分析训练流水线瓶颈。
输入流水线优化：数据加载与增强的 GPU 加速（DALI）；使用 GPU 直接解压数据；预处理与训练的并行。
混合精度训练：FP16 与 BF16 的优势；损失缩放（Loss Scaling）；自动混合精度（AMP）的实现；FP16 训练中的数值稳定性。
分布式训练：数据并行 vs 模型并行；同步 SGD 与梯度累积；AllReduce 算法；NCCL 库的使用。
大模型训练技术：张量并行（Tensor Parallelism）；流水线并行（Pipeline Parallelism）；ZeRO 优化器（零冗余优化）。
模型推理优化：推理延迟与吞吐量的权衡；模型量化（INT8、FP8）；TensorRT 的模型转换与优化引擎生成。
TensorRT 高级特性：插件编写支持自定义算子；动态形状（Dynamic Shapes）处理；多流推理与并发。
推理部署框架：TensorRT Inference Server（Triton）的架构；并发模型服务与动态批处理；与 Kubernetes 的集成。
算子融合与内核自动调优：垂直融合与水平融合；TVM 与 XLA 的编译优化；算子自动调优（AutoTVM、Ansor）。
综合实战项目：选取典型模型（如 ResNet、BERT），进行训练性能分析与优化，并使用 TensorRT 加速推理，对比优化前后的吞吐量与延迟。

GPU 深度学习优化培训课程-曙海培训

培训班介绍

GPU 深度学习优化培训课程

课程名称：GPU 深度学习模型训练与推理优化

培训对象

培训目标

培训内容介绍