培训对象: 生物信息学研究人员、基因测序数据分析师、生命科学领域科研人员、医学遗传学从业者。
培训目标:
掌握Python在生物信息学中的基础库(Biopython、pandas)。
理解二代测序数据格式(FASTA、FASTQ、SAM/BAM、VCF)。
能够进行基因组比对、变异检测和注释分析。
具备转录组差异表达分析能力。
培训内容介绍:
二、 序列数据处理(FASTA/FASTQ): 使用Biopython解析和操作序列数据,进行序列反向互补、翻译和质量过滤。
三、 基因组比对与BWA使用: 理解比对算法原理,使用BWA将测序reads比对到参考基因组,生成SAM文件。
四、 SAM/BAM文件处理(pysam): 使用pysam读取和操作BAM文件,进行排序、索引和比对质量统计。
五、 变异检测(GATK/FreeBayes): 使用GATK最佳实践流程进行变异检测,生成VCF文件。
六、 VCF文件解析与变异注释: 使用pyvcf解析VCF文件,使用ANNOVAR或SnpEff进行变异功能注释。
七、 转录组差异表达分析(DESeq2): 使用Python调用R或直接使用PyDESeq2进行RNA-seq差异表达分析。
八、 基因富集分析(GO/KEGG): 对差异表达基因进行功能富集分析,使用gseapy或GSEApy进行可视化。
九、 单细胞RNA-seq数据分析(Scanpy): 使用Scanpy处理单细胞数据,进行质控、降维聚类和细胞类型注释。
十、 基因组可视化(pyGenomeTracks): 使用pyGenomeTracks或IGV进行基因组浏览器可视化,展示比对和变异。
十一、 工作流管理(Snakemake/Nextflow): 使用Snakemake构建可重复的生物信息学分析流程。
十二、 实战项目:全基因组分析流程: 从原始测序数据开始,完成比对、变异检测、注释和可视化的完整流程。