英伟达培训课程班培训课程
英伟达培训课程班
第1部分:培训知识范围 :
1、基于NV算力资源的智算平台功能介绍
2、模型开发全流程工具使用流程介绍(以某智算平台为例进行现场实操,包括训练数据创建与管理、模型开发、模型训练、模型部署、模型推理、模型微调等核心步骤)
3、介绍智算平台与NV基础设施交互逻辑,对基础设施的性能要求
培训目标及效果: 让学员熟悉智算平台在AI业务开发应用中的作用及其端到端操作流程,熟悉训练、推理的关键流程
第2部分:培训知识范围 :
AI算力平台网络方案
1、基于NV算力资源的网络基础设施产品介绍;
2、大模型训练对网络的要求;
3、基于NV算力资源的网络关键技术和解决方案;
4、基于NV算力资源的网络组网设计;
培训目标及效果: 让学员熟悉智算中心网络产品发展现状已经智算中心对网络基础设施的性能需求,掌握智算中心网络方案的设计
第3部分:培训知识范围 :
AI算力平台存储方案
1、大模型全流程中存储的要求;
2、存储容量和性能规划;
3、存储解决方案;
第4部分:培训知识范围 :
智算中心整体组网架构及相关设备选型原则:
1、基于英伟达环境的万卡集群建设交付
2、大规模IB参数网建设与自动化
培训目标及效果:
让学员详细了解智算中心中计算、存储、网络、平台等各个子系统的建设原则及之间整体集成的规范,熟悉各网络面的收敛比配置原则,熟悉算存比配置原则、样本面网络带宽配置原则等,例如:
1、重点讲解万卡集群从规划、设计、建设、测试、调优、维护等不同环节的要点,建议项目的工期、工序、工具、能力准备与推荐;
2、大规模IB参数网建设中如何监管施工质量。有哪些脚本、工具或平台的自动化巡检,精准判定设备、链路故障点(链路中断、设备串线、误码率高等)。通过什么管理手段,可以消除或者降低此类风险
第5部分:培训知识范围 :
智算中心建设交付方案
1、基于NV的智算中心建设交付案例介绍
2、针对用户的定制化需求的交付策略
3、硬集、软集工作流程以及注意事项
4、交付验收标准及评审注意事项
5、针对基于英伟达环境万卡集群的交付流程介绍
培训目标及效果: 面向交付人员,让学员了解基于英伟达环境的智算中心解决方案在不同需求场景下的智算项目设计与建设方案规范、交付流程、交付策略以及交付过程中的注意事项。
第6部分:培训知识范围 :
智算中心测试方案与测试标准
1、智算集群整体测试方案,包括集群本身软硬件、模型部署和运行操作实践(单机多卡运行、多机多卡运行)
2、智算集群交付测试标准,包括基线功能性能、模型测试全流程实操(单机测试、集群测试)等,主要是稳定性和算力等
3、针对基于英伟达环境的万卡集群的整体测试方案以及测试验证策略全流程实战
第7部分:培训目标及效果: 面向测试人员,让学员了解基于英伟达环境的智算中心集群测试方法及操作流程,掌握后续针对智算集群的测试技能
培训知识范围 :
基于英伟达集群环境的运维工具如UFM等的介绍讲解
1、运维工具架构(软件架构、部署架构等)
2、运维工具功能介绍
3、运维工具可对外提供的接口能力
4、运维工具在英伟达环境万卡集群中的使用实战
培训目标及效果: 面向运维、调优及客服人员,让学员了解基于英伟达环境的智算中心集群运行维护工具,掌握相关工具的架构、功能以及具体的使用方法
第8部分:IB网络优化