体系定位:本课程是面向人工智能与计算机图形学交叉领域的研发型人才核心技术栈,聚焦神经渲染、生成式视觉、多模态理解、数字人、可微物理仿真、智能SLAM六大前沿方向。课程覆盖从算法原理到工程实现、从模型训练到产业落地的完整链路,每个技术模块均绑定主流工业级/开源软件工具及学术框架,帮助学员建立从学术前沿到产业应用的创新能力与工程视野。学员可根据自身研究方向与技术目标,自主选修任一专题,各专题独立成章。
培训目标:帮助学员深入理解以神经辐射场(NeRF)、3D高斯泼溅(3DGS)为代表的神经渲染技术体系,掌握隐式/显式场景表示、实时渲染集成、可微分渲染等核心算法,具备独立构建高质量三维重建与神经渲染管线的研发能力。
|
模块 |
主要培训内容 |
软件工具 |
|
神经辐射场核心原理 |
体积密度与颜色场、位置编码、体渲染离散化、粗到细采样策略、多视图一致性约束 |
NeRF-PyTorch、Instant-NGP、Nerfstudio、COLMAP |
|
3D高斯泼溅 |
高斯椭球参数化、可微光栅化、各向异性协方差、快速前向渲染、LOD策略 |
3DGRUT、3DGS-Community、Octane 2026、NVIDIA Omniverse |
|
即时神经图形基元 |
多分辨率哈希编码、紧凑场景表示、实时训练与渲染、网格/符号距离场/SDF扩展 |
Instant-NGP、tiny-cuda-nn、Kaolin、PyTorch3D |
|
神经点云与混合表示 |
神经点云渲染、点云高斯化、点云与网格融合、动态场景神经表示 |
Neural Points、3D-CODED、Point-NeRF |
|
USD与工业集成 |
神经渲染基元USD封装、实时视口渲染、阴影/反射合成、多GPU兼容性 |
NVIDIA Omniverse、OpenUSD、MaterialX |
|
工程实践 |
从图像序列完成3D高斯泼溅重建→实时渲染全流程 |
3DGRUT + Octane/NVIDIA Omniverse |
前置要求:计算机图形学基础、深度学习框架基础
培训目标:使学员系统掌握变分自编码器(VAE)、生成对抗网络(GAN)、扩散模型等生成式视觉范式的演进脉络与核心技术,精通文本生成图像/视频、可控图像编辑等前沿能力,具备独立训练、微调、部署生成式模型的能力。
|
模块 |
主要培训内容 |
软件工具 |
|
变分自编码器与生成对抗网络 |
重参数化技巧、对抗训练、模式崩溃、条件生成、风格迁移架构 |
PyTorch、TensorFlow、StyleGAN3 |
|
扩散模型核心原理 |
前向扩散过程、反向去噪网络、噪声调度、采样加速、蒸馏技术 |
Diffusers、Stable Diffusion生态、ComfyUI |
|
文本生成图像 |
文本编码器融合、交叉注意力、无分类器引导、高分辨率合成 |
SDXL、FLUX、GLM-Image、Midjourney API |
|
视频生成与插帧 |
时空扩散、帧间一致性、首尾帧控制、长视频生成 |
CogVideoX、HunyuanVideo、Runway Gen |
|
可控图像编辑 |
指令引导编辑、区域编辑、身份保持、多模态条件注入 |
InstructPix2Pix、VINO、Photoshop生成式填充 |
|
统一视觉生成框架 |
图像/视频生成与编辑统一架构、交错全模态上下文、渐进式训练 |
VINO、HunyuanVideo + Qwen-VL |
|
工程实践 |
基于扩散模型的定制化图像生成与编辑流水线 |
Diffusers + ComfyUI + GLM-Image API |
前置要求:深度学习基础、PyTorch编程经验
培训目标:使学员深入理解视觉语言预训练的核心技术,掌握图文检索、视觉问答、多模态大模型等前沿方向,具备CLIP系列模型二次开发、多模态适配器设计及多模态大模型微调的能力。
|
模块 |
主要培训内容 |
软件工具 |
|
CLIP视觉语言预训练 |
对比学习、图文对训练、双塔架构、零样本迁移能力 |
OpenAI CLIP、OpenCLIP、HuggingFace Transformers |
|
CLIP适配与微调 |
单模态适配局限、文本描述增强、轻量化适配器、训练自由方法 |
IDEA、CLIP-Adapter、Tip-Adapter |
|
图文检索与跨模态搜索 |
多模态嵌入空间、负样本挖掘、大规模索引、跨模态排序 |
CLIP检索系统、Jina AI、Milvus |
|
视觉问答与推理 |
视觉特征编码、多模态融合、语言解码、思维链推理 |
LLaVA、BLIP-2、Qwen-VL、GLM-4V |
|
多模态大模型 |
统一视觉编码器、交错图文输入、工具调用、长上下文视觉理解 |
GPT-4V、Claude 3.5 Sonnet、Gemini、GLM-4.6V |
|
OCR与文档理解 |
图文解析模型、手写体/表格/印章识别、竖排文本处理 |
GLM-OCR、PaddleOCR、Tesseract |
|
工程实践 |
垂直领域CLIP模型微调 + 多模态检索系统搭建 |
OpenCLIP + Milvus + Gradio |
前置要求:深度学习基础、自然语言处理基础
培训目标:使学员系统掌握三维数字人的全链路技术体系,涵盖三维人脸重建、表情驱动、语音驱动口型、动作生成等核心技术,具备构建高逼真度、实时交互数字人的研发与集成能力。
|
模块 |
主要培训内容 |
软件工具 |
|
三维人脸重建 |
单图/多视角重建、参数化模型(3DMM)、隐式表示重建、纹理烘焙 |
Deep3DFace、PRNet、FaceVerse、MetaHuman |
|
表情驱动与面部动画 |
人脸关键点检测、表情基编码、实时表情同步、面部重演 |
MediaPipe Face、ARKit BlendShapes、LiveLink Face |
|
语音驱动口型生成 |
音素-口型映射、端到端语音驱动、多语种适配、情感口型 |
3DXTalker、Audio2Face、Wav2Lip |
|
动作生成与绑定 |
动作捕捉驱动、视频驱动、文本驱动、物理动力学 |
Cascadeur、DeepMotion、MotionGPT |
|
数字人全栈引擎 |
ASR/NLP/TTS融合、多模态交互、情绪表达、行业知识库 |
中科汇联AIMeta、NVIDIA ACE、MetaHuman SDK |
|
工业级数字人系统 |
形象定制、画捕/动捕管线、实时驱动、跨平台API |
中科汇联3D全真数智人解决方案、Unreal MetaHuman |
|
工程实践 |
语音驱动数字人实时交互系统原型开发 |
Audio2Face + Unreal Engine + TTS API |
前置要求:计算机视觉基础、三维图形学基础
培训目标:使学员深入理解可微物理仿真在计算机图形学与材料科学交叉领域的前沿应用,掌握可微材质、可微流体、可微弹性体、物理感知学习等核心技术,具备构建物理驱动生成模型与数字孪生系统的研发能力。
|
模块 |
主要培训内容 |
软件工具 |
|
可微材质建模 |
BRDF可微化、逆向材质估计、神经材质、物理基材质生成 |
Mitsuba 3、PyTorch3D、OpenPBR、MaterialX |
|
可微流体仿真 |
纳维-斯托克斯方程可微求解、复杂流变学模型、多相流、纤维悬浮流 |
Fraunhofer FLUID、PhiFlow、Taichi |
|
可微弹性体 |
有限元法可微化、超弹性材料、损伤与疲劳建模、多尺度耦合 |
FeelMath、Abaqus二次开发、NVIDIA Warp |
|
物理感知学习 |
物理信息神经网络、可微物理引擎、强化学习物理模拟 |
TensorFlow Physics、NeuralPDE、DiffTaichi |
|
制造工艺仿真 |
注塑成型、纤维取向预测、固化反应、工艺-性能联动 |
Moldflow + FLUID/FEELMATH、Moldex3D |
|
多尺度数字孪生 |
微观结构→材料卡片→部件仿真全链条、虚拟材料实验室 |
FeelMath + GeoDict + Abaqus/LS-DYNA |
|
工程实践 |
纤维增强复合材料注塑成型工艺仿真与性能预测 |
FLUID + FeelMath + Moldflow |
前置要求:数值计算方法、有限元基础、深度学习基础
培训目标:使学员系统掌握视觉SLAM的技术谱系与前沿发展,从传统特征法到神经隐式SLAM,从单模态到多模态融合,从几何建图到语义场景理解,具备构建实时、鲁棒、智能化的空间定位与建图系统的研发能力。
|
模块 |
主要培训内容 |
软件工具 |
|
特征法SLAM系统 |
ORB特征提取、图优化、闭环检测、BA优化、多地图管理 |
ORB-SLAM3、OpenVSLAM、RTAB-Map |
|
直接法与稠密建图 |
直接法配准、光度一致性、稠密点云融合、Surfel建模 |
LoopSmart、ElasticFusion、InfiniTAM |
|
视觉惯性SLAM |
IMU预积分、紧耦合优化、滑动窗口、初始化与标定 |
OKVIS2-X、VINS-Mono、ORB-SLAM3-VI |
|
语义SLAM与场景理解 |
目标检测集成、语义约束建图、动态物体滤除 |
DynaSLAM、VDO-SLAM、vS-Graphs |
|
神经隐式SLAM |
NeRF/SDF在线建图、多分辨率哈希编码、实时神经隐式SLAM |
Orbeez-SLAM、DK-SLAM、Neural Implicit Dense SLAM |
|
多模态融合SLAM |
视觉+LiDAR+GNSS融合、因子图框架、在线标定 |
OKVIS2-X、LIO-SAM、因子图优化库 |
|
开放词汇语义地图 |
视觉语言预训练特征、开放词汇查询、语言-空间对齐 |
KM-ViPE、CLIP-SLAM、Talk2DINO |
|
工程实践 |
动态环境下视觉SLAM系统闭环检测与地图复用 |
ORB-SLAM3 + vS-Graphs扩展 |
前置要求:多视图几何、状态估计基础、深度学习基础
|
学员角色 |
建议选修专题 |
核心软件工具链 |
学习目标 |
|
图形学/AI交叉方向研究生/研究员 |
专题一 + 专题六 |
NeRF + 3DGS + ORB-SLAM3 |
掌握神经渲染与空间智能两大前沿,构建三维视觉完整认知 |
|
生成式视觉算法工程师 |
专题二 + 专题三 |
Diffusers + ComfyUI + CLIP生态 |
精通图像/视频生成与多模态理解,具备模型微调与部署能力 |
|
数字人/虚拟交互工程师 |
专题四 + 专题一(部分) |
3DXTalker + MetaHuman + Audio2Face |
掌握三维数字人全栈技术,构建实时交互虚拟形象 |
|
CAE/数字孪生仿真工程师 |
专题五 |
FLUID + FeelMath + Moldflow |
掌握可微物理仿真与材料建模,贯通工艺-性能数字主线 |
|
AR/VR空间计算工程师 |
专题六 + 专题一(3DGS) |
ORB-SLAM3 + OKVIS2-X + 3DGRUT |
构建实时定位建图与神经场景表示的融合能力 |
|
多模态大模型算法工程师 |
专题三 + 专题二 |
Qwen-VL + GLM-4V + Diffusers |
掌握视觉语言大模型与生成式视觉的统一框架 |
|
计算机视觉全栈研发专家 |
全六专题 |
全工具链覆盖 |
建立从三维感知→内容生成→数字人交互→物理仿真的完整AI+图形学视野 |