AI 应用开发人员、图形渲染工程师、信创生态适配人员及高校师生。
理解国产 GPU(如沐曦、天数、摩尔线程、景嘉微)的架构特点。
掌握国产 GPU 编程模型(如 MXMACA)与 CUDA 的异同。
能够进行国产 GPU 平台的 AI 模型迁移与性能优化。
国产 GPU 发展现状:国产 GPU 的市场格局与产品定位;图形 GPU 与通用计算 GPU(GPGPU)的区别;主流国产 GPU 厂商(沐曦、天数、摩尔线程、景嘉微)的产品特点。
国产 GPU 架构分析:沐曦 MXMACA 架构的核心理念;天数智芯的通用计算架构;国产 GPU 的内存层次与计算核心设计。
国产 GPU 编程模型:MXMACA C/C++ 编程接口简介;国产 GPU 的线程层次与内存模型;与 CUDA 编程模型的对比。
开发环境搭建:国产 GPU 驱动与运行时环境的安装;编译工具链的配置;模拟器与硬件调试环境。
内核函数编写:国产 GPU 上的向量加法实现;矩阵乘法的移植;原子操作与同步机制。
内存管理与优化:主机与设备间的数据传输;共享内存的使用;合并访问优化。
性能分析工具:国产 GPU 的性能分析套件;热点识别与瓶颈分析;内存带宽与计算吞吐量的监测。
AI 框架适配:PyTorch 在国产 GPU 上的后端适配;TensorFlow 的国产 GPU 支持;算子库(如 cuDNN 对应产品)的使用。
大模型推理优化:国产 GPU 上的大模型部署;算子融合与量化支持;模型并行与多卡通信。
图形渲染开发:国产 GPU 的 OpenGL/Vulkan 驱动支持;图形应用的移植与优化;国产 GPU 在信创终端中的应用。
生态建设与社区:国产 GPU 开发者社区资源;常见问题的解决方案;国产 GPU 与 CUDA 应用的二进制迁移工具。
综合实战项目:在国产 GPU 平台上完成一个图像分类或目标检测模型的推理部署,并进行性能分析与优化。