目标学员:HPC/AI集群架构师、网络工程师、系统管理员、高性能计算开发者
预备要求:
熟悉Linux系统管理和网络基础
了解数据中心架构和集群计算概念
有MPI或分布式计算经验者优先
具备Shell脚本和Python基础
深入理解InfiniBand架构、协议栈和性能特性
掌握NVIDIA Mellanox InfiniBand设备的安装、配置和管理
熟练使用UFM、MFT等管理工具进行网络监控和故障排除
优化HPC和AI工作负载在InfiniBand上的性能
掌握GPUDirect RDMA、NCCL等高级技术
InfiniBand vs 以太网:技术对比与选型指南
InfiniBand发展历程与业界地位
NVIDIA Mellanox InfiniBand产品线全览
ConnectX系列网卡(ConnectX-6/7)
Quantum/SwitchX系列交换机
LinkX线缆与光模块
InfiniBand在AI/HPC/云数据中心的应用场景
物理层与链路层:信号、编码、链路训练
网络层:全局路由与子网管理
传输层:可靠/不可靠传输服务
RDMA操作原语:Send/Recv、RDMA Write/Read、Atomic
队列对(QP)架构与工作请求处理流程
机架安装最佳实践
线缆选择与布线规范(铜缆、光缆、AOC)
电源与散热考虑
硬件初始化与固件升级
实验1:InfiniBand交换机初始配置
OFED驱动栈:MLNX_OFED vs inbox驱动
驱动安装与兼容性矩阵
内核模块加载与配置(mlx4_core, mlx5_core)
用户空间库:libibverbs, libmlx5
实验2:多节点OFED驱动安装与验证
OpenSM vs 商业SM对比
OpenSM配置文件详解
多子网管理器配置(主备、分区)
性能调优参数(congestion control, QoS)
基础诊断工具集:ibstat, ibdiagnet, ibnetdiscover
链路状态监控与故障排除
性能基准测试:ib_write_bw, ib_read_bw, ib_send_bw
GPUDirect RDMA架构与原理
GPUDirect Storage技术详解
配置与启用GPUDirect RDMA
性能分析与优化技巧
NCCL架构与通信模式
NCCL over InfiniBand调优
拓扑感知通信(NCCL_TOPO)
大规模集群(>1024节点)优化策略
分区(Partition)配置与管理
服务质量(QoS)策略实施
链路层隔离技术
UFM架构与组件
安装与初始配置
网络拓扑自动发现与可视化
性能监控与阈值告警
配置管理与策略部署
UFM Telemetry数据流分析
性能热点检测与瓶颈分析
流监控与异常检测
与Prometheus/Grafana集成
生成合规与审计报告
固件管理工具(MFT)
性能计数器读取与解析
高级诊断功能
批量操作与自动化