曙海培训-NVIDIA InfiniBand技术培训课程-曙海培训,全国连锁

目标学员：HPC/AI集群架构师、网络工程师、系统管理员、高性能计算开发者

预备要求：

熟悉Linux系统管理和网络基础
了解数据中心架构和集群计算概念
有MPI或分布式计算经验者优先
具备Shell脚本和Python基础

课程目标
1. 深入理解InfiniBand架构、协议栈和性能特性
2. 掌握NVIDIA Mellanox InfiniBand设备的安装、配置和管理
3. 熟练使用UFM、MFT等管理工具进行网络监控和故障排除
4. 优化HPC和AI工作负载在InfiniBand上的性能
5. 掌握GPUDirect RDMA、NCCL等高级技术
  
  培训大纲
  
  1：InfiniBand基础与架构
  
  模块1.1：InfiniBand技术概述
  - InfiniBand vs 以太网：技术对比与选型指南
  - InfiniBand发展历程与业界地位
  - NVIDIA Mellanox InfiniBand产品线全览
    
    ConnectX系列网卡（ConnectX-6/7）
    
    Quantum/SwitchX系列交换机
    
    LinkX线缆与光模块
  - InfiniBand在AI/HPC/云数据中心的应用场景
  模块1.2：InfiniBand协议栈深度解析
  - 物理层与链路层：信号、编码、链路训练
  - 网络层：全局路由与子网管理
  - 传输层：可靠/不可靠传输服务
  - RDMA操作原语：Send/Recv、RDMA Write/Read、Atomic
  - 队列对（QP）架构与工作请求处理流程
  模块1.3：硬件安装与物理部署
  - 机架安装最佳实践
  - 线缆选择与布线规范（铜缆、光缆、AOC）
  - 电源与散热考虑
  - 硬件初始化与固件升级
  - 实验1：InfiniBand交换机初始配置
  2：软件栈配置与管理
  
  模块2.1：InfiniBand软件栈安装
  - OFED驱动栈：MLNX_OFED vs inbox驱动
  - 驱动安装与兼容性矩阵
  - 内核模块加载与配置（mlx4_core, mlx5_core）
  - 用户空间库：libibverbs, libmlx5
  - 实验2：多节点OFED驱动安装与验证
  模块2.2：子网管理器配置
  - OpenSM vs 商业SM对比
  - OpenSM配置文件详解
  - 多子网管理器配置（主备、分区）
  - 性能调优参数（congestion control, QoS）
  模块2.3：基本网络操作与诊断
  - 基础诊断工具集：ibstat, ibdiagnet, ibnetdiscover
  - 链路状态监控与故障排除
  - 性能基准测试：ib_write_bw, ib_read_bw, ib_send_bw
  3：高级功能与性能优化
  
  模块3.1：GPUDirect技术深度
  - GPUDirect RDMA架构与原理
  - GPUDirect Storage技术详解
  - 配置与启用GPUDirect RDMA
  - 性能分析与优化技巧
  模块3.2：NCCL通信库优化
  - NCCL架构与通信模式
  - NCCL over InfiniBand调优
  - 拓扑感知通信（NCCL_TOPO）
  - 大规模集群（>1024节点）优化策略
  模块3.3：多租户与网络隔离
  - 分区（Partition）配置与管理
  - 服务质量（QoS）策略实施
  - 链路层隔离技术
  4：管理与监控
  
  模块4.1：NVIDIA UFM平台深度管理
  - UFM架构与组件
  - 安装与初始配置
  - 网络拓扑自动发现与可视化
  - 性能监控与阈值告警
  - 配置管理与策略部署
  模块4.2：高级监控与故障排除
  - UFM Telemetry数据流分析
  - 性能热点检测与瓶颈分析
  - 流监控与异常检测
  - 与Prometheus/Grafana集成
  - 生成合规与审计报告
  模块4.3：MFT工具集高级应用
  - 固件管理工具（MFT）
  - 性能计数器读取与解析
  - 高级诊断功能
  - 批量操作与自动化

NVIDIA InfiniBand技术培训课程-曙海培训

培训班介绍

课程目标

培训大纲

1：InfiniBand基础与架构

模块1.1：InfiniBand技术概述

模块1.2：InfiniBand协议栈深度解析

模块1.3：硬件安装与物理部署

2：软件栈配置与管理

模块2.1：InfiniBand软件栈安装

模块2.2：子网管理器配置

模块2.3：基本网络操作与诊断

3：高级功能与性能优化

模块3.1：GPUDirect技术深度

模块3.2：NCCL通信库优化

模块3.3：多租户与网络隔离

4：管理与监控

模块4.1：NVIDIA UFM平台深度管理

模块4.2：高级监控与故障排除

模块4.3：MFT工具集高级应用