培训对象: 芯片架构师、处理器设计师、AI芯片研发人员、高性能计算专家。
培训目标:
理解CPU、GPU、NPU三种处理器的架构特点和设计权衡。
掌握CPU微架构(流水线、分支预测、缓存一致性)。
了解GPU的SIMT架构和并行计算模型。
掌握NPU的脉动阵列和数据流优化技术。
培训内容介绍:
一、处理器架构概述: 对比CPU、GPU、NPU的架构差异(控制导向 vs 数据导向 vs 计算导向),了解各自的适用场景。
二、CPU流水线深度解析: 分析经典RISC流水线(IF、ID、EX、MEM、WB),掌握流水线冒险和解决方案。
三、分支预测技术: 设计静态和动态分支预测器(2-bit饱和计数器、两级自适应预测器),优化预测准确率。
四、乱序执行引擎: 设计保留站(Reservation Station)、重排序缓冲(ROB),实现指令的乱序执行和顺序提交。
五、存储层次优化: 设计多级Cache(L1/L2/L3),优化预取算法、替换策略、写策略,减少访存延迟。
六、缓存一致性协议: 掌握MESI、MOESI等缓存一致性协议,设计监听总线或目录式协议。
七、GPU SIMT架构: 理解SIMT(单指令多线程)的执行模型,掌握Warp调度、线程束分化等问题。
八、GPU存储层次: 设计寄存器文件、共享内存、L1/L2缓存、全局内存,优化数据访问模式。
九、NPU架构基础: 理解神经网络计算的特性(乘积累加、并行、局部性),掌握NPU的基本架构。
十、脉动阵列(Systolic Array): 设计脉动阵列实现矩阵乘法,优化数据流(权重固定、输入固定、输出固定)。
十一、数据流优化: 分析权重重用、输入重用、输出重用的数据流模式,优化外部访存带宽。
十二、实战项目:简单NPU微架构设计: 完成包含脉动阵列和存储系统的NPU微架构设计。