培训对象:生物医学研究人员、临床检验人员、生物技术企业研发人员、需要掌握高通量测序数据处理流程的初学者。
培训目标:
理解高通量测序数据的基本格式与质量评估方法,掌握原始数据的清洗与预处理流程。
掌握序列比对的核心原理与常用工具,能够完成从测序数据到比对结果的全流程操作。
了解变异检测、基因定量等下游分析的基本方法,为后续专题学习奠定基础。
培训内容介绍:
高通量测序技术概述:了解二代测序与三代测序的原理差异,熟悉测序数据的产生过程与常见应用场景。
生物信息学基础环境:熟悉Linux操作系统常用命令,掌握生信软件的安装与环境配置方法。
测序数据格式解析:深入理解FASTQ、FASTA、GFF/GTF、SAM/BAM等生物信息学标准文件格式。
数据质量控制与预处理:使用FastQC进行测序数据质量评估,掌握Trimmomatic/Cutadapt进行数据清洗与去接头。
序列比对原理:理解参考基因组索引构建、比对算法原理(BWT、哈希表)及比对结果的解读。
比对工具实战:使用BWA/Bowtie2将测序reads比对到参考基因组,生成SAM文件。
比对后处理:使用SAMtools进行格式转换、排序、索引,生成压缩的BAM文件。
比对结果可视化:使用IGV加载BAM文件,直观查看reads覆盖度、比对质量与变异位点。
变异检测初步:了解SNP/Indel的基本概念,使用GATK或bcftools进行基础的变异位点识别。
基因表达定量初步:了解RNA-seq数据的基本定量原理,生成基因表达计数矩阵。
生信流程自动化:使用Shell脚本串联多个分析步骤,构建简单的自动化分析流程。
综合实战演练:以一个真实的小型测序数据集为例,完成从原始数据到比对结果的完整分析流程。