培训对象:生物信息分析人员、NGS数据处理工程师、需要深入掌握比对后数据操作与格式转换的技术人员。
培训目标:
深入理解SAM/BAM/CRAM格式的规范与字段含义,掌握格式转换与数据提取的核心命令。
熟练运用SAMtools进行排序、索引、合并、去重等BAM文件操作,构建标准化的分析流程。
掌握SAMtools的变异检测与统计功能,能够生成比对报告并进行数据质量评估。
培训内容介绍:
SAM/BAM格式深度解析:逐字段解读SAM格式的11个必填列,理解FLAG、CIGAR、MAPQ等核心信息的含义。
格式转换实战:使用samtools view进行SAM与BAM、CRAM格式的相互转换,掌握参数设置技巧。
排序与索引:使用samtools sort对BAM文件进行坐标排序,使用samtools index创建BAI索引文件。
数据提取与过滤:根据区域、FLAG标记、比对质量等条件提取特定reads,满足下游分析需求。
合并与拆分:使用samtools merge合并多个BAM文件,使用samtools split按染色体拆分大文件。
去重处理:使用samtools markdup标记或去除PCR重复reads,理解重复reads对变异检测的影响。
比对统计与报告:使用samtools flagstat和samtools stats生成全面的比对统计报告。
深度与覆盖度计算:使用samtools depth计算各位置的测序深度,生成覆盖度分布文件。
MPILEUP与变异检测:使用samtools mpileup生成pileup格式文件,结合bcftools进行变异检测。
FASTA/FASTQ操作:使用samtools faidx对参考基因组建立索引并快速提取子序列。
视图与诊断:使用samtools tview在终端可视化查看比对情况,快速诊断比对问题。
综合实战演练:以真实测序数据为例,完成从原始SAM到过滤后BAM的全流程操作与质控报告生成。