曙海培训-RAG检索增强生成培训-曙海培训,全国连锁

培训目标：

· 掌握核心思想与价值：深入理解RAG解决大模型核心痛点（幻觉、知识滞后、可解释性差）的机制。

· 精通全栈技术组件：掌握从文档处理、向量检索、提示工程到系统评估的完整RAG技术链。

· 具备架构与优化能力：能够设计、实现并优化生产级RAG系统，解决其常见问题（如检索不准、上下文窗口限制）。

· 了解前沿与行业应用：熟悉RAG的进阶范式、开源工具栈，并能将其与具体业务场景（如智能客服、知识库问答、法律金融分析）相结合。

目标学员：

· AI/ML工程师、算法工程师

· 后端/全栈工程师（希望在其产品中集成RAG能力）

· 数据科学家、NLP工程师

· 技术型产品经理、解决方案架构师

预备知识：

具备Python编程基础，了解机器学习基本概念，对大语言模型（LLM）有基本认知（如了解GPT系列）。

熟悉基本的信息检索或NLP知识更佳。

培训内容

一：RAG核心理念与架构基础

目标：建立对RAG技术的全局认知，理解其必要性与核心组件。

· 大模型的局限与RAG的诞生

o 大模型的核心痛点：幻觉、知识截止、无法访问私有/实时数据、计算成本高。

o RAG如何解决这些问题：将“记忆”外部化、增强可控性与可解释性。

· RAG基础架构与工作流程

o 索引阶段：从数据源到向量数据库的管道。

o 检索与生成阶段：Query -> 检索 -> 增强 -> 生成的端到端流程。

o RAG vs. 微调：两种知识注入范式的对比与选型。

· 技术组件全景图

o 文档加载器、文本分割器、嵌入模型、向量数据库、重排序器、大语言模型、提示模板。

二：核心组件深度解析与实现

目标：掌握每个组件的技术细节、选型标准和实现方法。

· 数据准备与分块

o 文档加载：PDF、Markdown、HTML、API等数据源处理。

o 分块策略：固定大小、递归分割、语义分割、文档感知分割。

o 元数据关联：为分块添加上下文信息，提升检索质量。

· 嵌入模型与向量检索

o 嵌入模型：Sentence-BERT、OpenAI text-embedding 等模型的选型与调优。

o 向量数据库：Chroma、Pinecone、Weaviate、Milvus/Qdrant的原理与实战。

o 检索算法：精确/近似最近邻搜索、混合检索（Hybrid Search）结合关键词（BM25）与语义搜索。

o 检索后处理：重排序（Re-ranking）技术提升Top-K结果精度。

· 提示工程与生成增强

o 基础提示模板：构建包含上下文、问题和指令的系统提示。

o 高级检索策略：多查询生成、HyDE（假设性文档嵌入）、子查询。

o 上下文管理：应对LLM的上下文窗口限制，关键信息压缩与选择性输入。

三：RAG系统进阶与生产化

目标：学习优化RAG性能，并构建健壮、可维护的生产系统。

· RAG的评估体系

o 评估指标：检索相关度（命中率、MRR）、生成质量（忠实度、答案相关度）、端到端质量（RAGAs框架）。

o 评估方法：人工评估、基于LLM的自动评估、A/B测试。

· RAG的高级范式与优化技巧

o 进阶架构：递归检索、自适应RAG、智能路由（Agentic RAG）。

o 查询优化：查询转换、扩展、改写。

o 多模态RAG：引入图像、表格等非文本数据的检索与生成。

· 生产级考量与工具链

o 架构设计：模块化、可观测性、监控（检索延迟、质量指标）。

o 开源框架实战：深入使用 LangChain 或 LlamaIndex 构建可复用的RAG管道。

o 成本与延迟优化：缓存策略、批处理、模型选择权衡。

RAG检索增强生成培训-曙海培训

培训班介绍