曙海培训-图形图像前沿技术培训课程体系（选修）-曙海培训中心,全国连锁

图形图像前沿技术培训课程体系（选修）

体系定位：本课程是面向人工智能与计算机图形学交叉领域的研发型人才核心技术栈，聚焦神经渲染、生成式视觉、多模态理解、数字人、可微物理仿真、智能SLAM六大前沿方向。课程覆盖从算法原理到工程实现、从模型训练到产业落地的完整链路，每个技术模块均绑定主流工业级/开源软件工具及学术框架，帮助学员建立从学术前沿到产业应用的创新能力与工程视野。学员可根据自身研究方向与技术目标，自主选修任一专题，各专题独立成章。

专题一：神经渲染与三维场景表示

培训目标：帮助学员深入理解以神经辐射场（NeRF）、3D高斯泼溅（3DGS）为代表的神经渲染技术体系，掌握隐式/显式场景表示、实时渲染集成、可微分渲染等核心算法，具备独立构建高质量三维重建与神经渲染管线的研发能力。

模块	主要培训内容	软件工具
神经辐射场核心原理	体积密度与颜色场、位置编码、体渲染离散化、粗到细采样策略、多视图一致性约束	NeRF-PyTorch、Instant-NGP、Nerfstudio、COLMAP
3D高斯泼溅	高斯椭球参数化、可微光栅化、各向异性协方差、快速前向渲染、LOD策略	3DGRUT、3DGS-Community、Octane 2026、NVIDIA Omniverse
即时神经图形基元	多分辨率哈希编码、紧凑场景表示、实时训练与渲染、网格/符号距离场/SDF扩展	Instant-NGP、tiny-cuda-nn、Kaolin、PyTorch3D
神经点云与混合表示	神经点云渲染、点云高斯化、点云与网格融合、动态场景神经表示	Neural Points、3D-CODED、Point-NeRF
USD与工业集成	神经渲染基元USD封装、实时视口渲染、阴影/反射合成、多GPU兼容性	NVIDIA Omniverse、OpenUSD、MaterialX
工程实践	从图像序列完成3D高斯泼溅重建→实时渲染全流程	3DGRUT + Octane/NVIDIA Omniverse

前置要求：计算机图形学基础、深度学习框架基础

专题二：生成式视觉模型与内容生成

培训目标：使学员系统掌握变分自编码器（VAE）、生成对抗网络（GAN）、扩散模型等生成式视觉范式的演进脉络与核心技术，精通文本生成图像/视频、可控图像编辑等前沿能力，具备独立训练、微调、部署生成式模型的能力。

模块	主要培训内容	软件工具
变分自编码器与生成对抗网络	重参数化技巧、对抗训练、模式崩溃、条件生成、风格迁移架构	PyTorch、TensorFlow、StyleGAN3
扩散模型核心原理	前向扩散过程、反向去噪网络、噪声调度、采样加速、蒸馏技术	Diffusers、Stable Diffusion生态、ComfyUI
文本生成图像	文本编码器融合、交叉注意力、无分类器引导、高分辨率合成	SDXL、FLUX、GLM-Image、Midjourney API
视频生成与插帧	时空扩散、帧间一致性、首尾帧控制、长视频生成	CogVideoX、HunyuanVideo、Runway Gen
可控图像编辑	指令引导编辑、区域编辑、身份保持、多模态条件注入	InstructPix2Pix、VINO、Photoshop生成式填充
统一视觉生成框架	图像/视频生成与编辑统一架构、交错全模态上下文、渐进式训练	VINO、HunyuanVideo + Qwen-VL
工程实践	基于扩散模型的定制化图像生成与编辑流水线	Diffusers + ComfyUI + GLM-Image API

前置要求：深度学习基础、PyTorch编程经验

专题三：多模态视觉理解与对齐

培训目标：使学员深入理解视觉语言预训练的核心技术，掌握图文检索、视觉问答、多模态大模型等前沿方向，具备CLIP系列模型二次开发、多模态适配器设计及多模态大模型微调的能力。

模块	主要培训内容	软件工具
CLIP视觉语言预训练	对比学习、图文对训练、双塔架构、零样本迁移能力	OpenAI CLIP、OpenCLIP、HuggingFace Transformers
CLIP适配与微调	单模态适配局限、文本描述增强、轻量化适配器、训练自由方法	IDEA、CLIP-Adapter、Tip-Adapter
图文检索与跨模态搜索	多模态嵌入空间、负样本挖掘、大规模索引、跨模态排序	CLIP检索系统、Jina AI、Milvus
视觉问答与推理	视觉特征编码、多模态融合、语言解码、思维链推理	LLaVA、BLIP-2、Qwen-VL、GLM-4V
多模态大模型	统一视觉编码器、交错图文输入、工具调用、长上下文视觉理解	GPT-4V、Claude 3.5 Sonnet、Gemini、GLM-4.6V
OCR与文档理解	图文解析模型、手写体/表格/印章识别、竖排文本处理	GLM-OCR、PaddleOCR、Tesseract
工程实践	垂直领域CLIP模型微调 + 多模态检索系统搭建	OpenCLIP + Milvus + Gradio

前置要求：深度学习基础、自然语言处理基础

专题四：数字人与三维交互技术

培训目标：使学员系统掌握三维数字人的全链路技术体系，涵盖三维人脸重建、表情驱动、语音驱动口型、动作生成等核心技术，具备构建高逼真度、实时交互数字人的研发与集成能力。

模块	主要培训内容	软件工具
三维人脸重建	单图/多视角重建、参数化模型（3DMM）、隐式表示重建、纹理烘焙	Deep3DFace、PRNet、FaceVerse、MetaHuman
表情驱动与面部动画	人脸关键点检测、表情基编码、实时表情同步、面部重演	MediaPipe Face、ARKit BlendShapes、LiveLink Face
语音驱动口型生成	音素-口型映射、端到端语音驱动、多语种适配、情感口型	3DXTalker、Audio2Face、Wav2Lip
动作生成与绑定	动作捕捉驱动、视频驱动、文本驱动、物理动力学	Cascadeur、DeepMotion、MotionGPT
数字人全栈引擎	ASR/NLP/TTS融合、多模态交互、情绪表达、行业知识库	中科汇联AIMeta、NVIDIA ACE、MetaHuman SDK
工业级数字人系统	形象定制、画捕/动捕管线、实时驱动、跨平台API	中科汇联3D全真数智人解决方案、Unreal MetaHuman
工程实践	语音驱动数字人实时交互系统原型开发	Audio2Face + Unreal Engine + TTS API

前置要求：计算机视觉基础、三维图形学基础

专题五：可微物理仿真与材料建模

培训目标：使学员深入理解可微物理仿真在计算机图形学与材料科学交叉领域的前沿应用，掌握可微材质、可微流体、可微弹性体、物理感知学习等核心技术，具备构建物理驱动生成模型与数字孪生系统的研发能力。

模块	主要培训内容	软件工具
可微材质建模	BRDF可微化、逆向材质估计、神经材质、物理基材质生成	Mitsuba 3、PyTorch3D、OpenPBR、MaterialX
可微流体仿真	纳维-斯托克斯方程可微求解、复杂流变学模型、多相流、纤维悬浮流	Fraunhofer FLUID、PhiFlow、Taichi
可微弹性体	有限元法可微化、超弹性材料、损伤与疲劳建模、多尺度耦合	FeelMath、Abaqus二次开发、NVIDIA Warp
物理感知学习	物理信息神经网络、可微物理引擎、强化学习物理模拟	TensorFlow Physics、NeuralPDE、DiffTaichi
制造工艺仿真	注塑成型、纤维取向预测、固化反应、工艺-性能联动	Moldflow + FLUID/FEELMATH、Moldex3D
多尺度数字孪生	微观结构→材料卡片→部件仿真全链条、虚拟材料实验室	FeelMath + GeoDict + Abaqus/LS-DYNA
工程实践	纤维增强复合材料注塑成型工艺仿真与性能预测	FLUID + FeelMath + Moldflow

前置要求：数值计算方法、有限元基础、深度学习基础

专题六：视觉SLAM与空间智能

培训目标：使学员系统掌握视觉SLAM的技术谱系与前沿发展，从传统特征法到神经隐式SLAM，从单模态到多模态融合，从几何建图到语义场景理解，具备构建实时、鲁棒、智能化的空间定位与建图系统的研发能力。

模块	主要培训内容	软件工具
特征法SLAM系统	ORB特征提取、图优化、闭环检测、BA优化、多地图管理	ORB-SLAM3、OpenVSLAM、RTAB-Map
直接法与稠密建图	直接法配准、光度一致性、稠密点云融合、Surfel建模	LoopSmart、ElasticFusion、InfiniTAM
视觉惯性SLAM	IMU预积分、紧耦合优化、滑动窗口、初始化与标定	OKVIS2-X、VINS-Mono、ORB-SLAM3-VI
语义SLAM与场景理解	目标检测集成、语义约束建图、动态物体滤除	DynaSLAM、VDO-SLAM、vS-Graphs
神经隐式SLAM	NeRF/SDF在线建图、多分辨率哈希编码、实时神经隐式SLAM	Orbeez-SLAM、DK-SLAM、Neural Implicit Dense SLAM
多模态融合SLAM	视觉+LiDAR+GNSS融合、因子图框架、在线标定	OKVIS2-X、LIO-SAM、因子图优化库
开放词汇语义地图	视觉语言预训练特征、开放词汇查询、语言-空间对齐	KM-ViPE、CLIP-SLAM、Talk2DINO
工程实践	动态环境下视觉SLAM系统闭环检测与地图复用	ORB-SLAM3 + vS-Graphs扩展

前置要求：多视图几何、状态估计基础、深度学习基础

选修建议与学习路径

学员角色	建议选修专题	核心软件工具链	学习目标
图形学/AI交叉方向研究生/研究员	专题一 + 专题六	NeRF + 3DGS + ORB-SLAM3	掌握神经渲染与空间智能两大前沿，构建三维视觉完整认知
生成式视觉算法工程师	专题二 + 专题三	Diffusers + ComfyUI + CLIP生态	精通图像/视频生成与多模态理解，具备模型微调与部署能力
数字人/虚拟交互工程师	专题四 + 专题一（部分）	3DXTalker + MetaHuman + Audio2Face	掌握三维数字人全栈技术，构建实时交互虚拟形象
CAE/数字孪生仿真工程师	专题五	FLUID + FeelMath + Moldflow	掌握可微物理仿真与材料建模，贯通工艺-性能数字主线
AR/VR空间计算工程师	专题六 + 专题一（3DGS）	ORB-SLAM3 + OKVIS2-X + 3DGRUT	构建实时定位建图与神经场景表示的融合能力
多模态大模型算法工程师	专题三 + 专题二	Qwen-VL + GLM-4V + Diffusers	掌握视觉语言大模型与生成式视觉的统一框架
计算机视觉全栈研发专家	全六专题	全工具链覆盖	建立从三维感知→内容生成→数字人交互→物理仿真的完整AI+图形学视野

图形图像前沿技术培训课程体系（选修）-曙海培训中心

培训班介绍