培训对象:
临床医生/医学研究人员
生物信息学/生物统计学从业者
医药企业研发人员(CRO/药企)
公共卫生/流行病学研究人员
高校相关专业研究生(医学/生物/公卫)
培训目标:
使学员系统掌握医疗生物领域数据分析的核心方法与技术栈,包括临床数据分析、生物信息学分析、组学数据处理等;熟练运用R/Python/SAS等工具进行医疗数据清洗、统计建模与可视化;理解临床试验数据标准(CDISC/SDTM/ADaM)与监管要求;掌握生存分析、纵向数据分析、预测模型构建等核心统计方法;具备独立完成从医学研究设计、数据处理到结果解读的完整项目能力。
培训内容介绍:
医疗生物数据概述:医疗生物数据分类(临床数据/组学数据/影像数据/公共卫生数据);数据类型特征(纵向不规则数据/高维数据/多源异构数据);医疗数据伦理与隐私保护(HIPAA/GDPR/个人信息保护法);研究设计基础(队列研究/病例对照/随机对照试验);数据分析流程规范。
医学统计基础与软件工具:描述性统计在医学中的应用(均值/标准差/中位数/四分位距);统计推断基本原理;医学研究常用软件选型(SAS/SPSS/R/Python);R语言基础与tidyverse生态;Python数据分析栈(Pandas/NumPy/SciPy);软件工具选型策略。
临床数据清洗与预处理:电子健康档案(EHR)数据特点(纵向/不规则/缺失);数据质量控制方法;缺失数据处理策略(删除/填补/多重插补);异常值识别与处理;数据标准化与术语映射(ICD/LOINC/SNOMED CT);临床数据仓库构建。
生存分析:生存分析基本概念(生存时间/删失/生存函数);Kaplan-Meier生存曲线与log-rank检验;Cox比例风险回归模型原理;比例风险假定检验;时依协变量与分层Cox模型;竞争风险模型(Fine-Gray模型);生存分析在肿瘤预后研究中的应用。
纵向数据分析:纵向数据特点(重复测量/相关性);线性混合效应模型(LMM)原理与实现;广义线性混合模型(GLMM);随机截距与随机斜率;协方差结构选择;轨迹分析模型(群组轨迹模型GBTM);缺失数据处理方法。
预测模型构建与验证:临床预测模型开发流程;Logistic回归与Cox回归预测模型;变量筛选方法(逐步回归/LASSO/随机森林);模型性能评估(区分度C-index/AUC/校准度Hosmer-Lemeshow检验);内部验证(交叉验证/Bootstrap)与外部验证;模型校正与优化;风险评分卡开发;模型临床效用评估(决策曲线分析DCA)。
临床试验数据标准(CDISC):药物临床试验阶段与流程规范;CDISC标准体系概述;研究数据制表模型(SDTM):标准变量定义/域结构/通用观测标识类;人口统计学(DM)/不良事件(AE)/伴随用药(CM)/试验药物(EX/EC)数据结构;分析数据模型(ADaM):ADSL/BDS/OCCDS数据结构;数据可追溯性与即时分析。
临床试验统计分析:试验方案与统计分析计划(SAP);描述性统计在临床试验中的应用;组间均衡性检验;有效性分析( superiority/non-inferiority/equivalence);安全性分析(不良事件发生率/实验室检查异常);生存分析在临床试验中的应用(PFS/OS);期中分析与数据监查委员会。
临床试验图表制作:人口统计学与基线特征表(Table 1);不良事件汇总表与森林图;生存曲线图(Kaplan-Meier图);泳道图(Swimmer Plot);瀑布图(Waterfall Plot);CONSORT流程图;符合监管要求的图表规范(FDA递交标准)。
生物信息学基础与资源:生物信息学概念与发展历史;主要生物数据库(NCBI/Ensembl/UCSC);基因本体论(GO)与通路数据库(KEGG/Reactome);生物信息学标准文件格式(FASTA/FASTQ/BAM/VCF/GTF);Linux系统基础与命令行操作。
转录组数据分析:RNA-seq实验设计;原始数据处理(质量控制/序列比对/定量);STAR/HISAT2比对工具使用;基因表达定量与标准化(TPM/FPKM);差异表达分析(DESeq2/edgeR/limma);火山图/热图/MA图绘制;基因集富集分析(GSEA);加权基因共表达网络分析(WGCNA)。
单细胞转录组学分析:单细胞测序技术原理;10x Genomics数据处理流程(Cellranger);Seurat包分析流程(质控/标准化/降维/聚类);t-SNE/UMAP可视化;细胞类型注释(SingleR/CellMarker);差异表达基因鉴定;拟时序分析(Monocle/PAGA);细胞通讯分析(CellChat)。
基因组学与变异分析:全外显子组/全基因组测序分析流程;GATK最佳实践(BQSR/VQSR);变异检测(SNP/Indel/SV);变异注释(ANNOVAR/VEP);癌症基因组学(体细胞突变/Mutational Signature);拷贝数变异(CNV)分析;胚系变异与疾病关联分析。
表观遗传学与空间转录组:ChIP-seq分析流程(峰值检测/注释/差异分析);ATAC-seq染色质开放性分析;DNA甲基化分析(BS-seq/850K芯片);Hi-C数据分析与三维基因组学;空间转录组技术原理;空间基因表达模式可视化;细胞空间分布与通讯网络。
蛋白质组学与代谢组学:质谱技术原理;蛋白质鉴定与定量;差异表达蛋白分析;蛋白质相互作用网络(STRING);代谢组学数据处理(XCMS);通路富集分析;多组学数据整合分析策略。
机器学习在医疗中的应用:医学机器学习流程;特征工程与变量筛选;常用监督学习算法(随机森林/XGBoost/支持向量机);模型解释(SHAP/特征重要性);不平衡数据处理(SMOTE/代价敏感学习);多模态数据融合(临床+影像+基因组学)。
深度学习与医学影像分析:深度学习基础(CNN/RNN/Transformer);医学影像分类(X光/CT/MRI);图像分割(U-Net)在肿瘤分割中的应用;目标检测(病灶识别);影像组学特征提取;多模态影像分析。
自然语言处理在医疗中的应用:电子病历文本挖掘;医学命名实体识别(疾病/药物/症状);临床文本分类;医疗大语言模型应用(临床决策支持/病历摘要/数据治理);检索增强生成(RAG)在医学知识库中的应用。
公共卫生与流行病学数据分析:疾病监测数据分析;时空流行病学建模;传染病传播模型(SEIR);环境因素对健康影响分析(空气污染/气候变化);时间序列数据分析;横断面调查数据分析。
综合实战一:临床预测模型全流程开发:背景:心血管疾病风险预测。任务:电子健康档案数据清洗与整合→特征工程与变量筛选→Logistic回归/XGBoost模型构建→模型性能评估(C统计量/校准图)→决策曲线分析→风险评分卡开发→模型验证(内部/外部验证)→论文图表制作。
综合实战二:单细胞转录组数据分析:背景:肿瘤微环境单细胞研究。任务:Cellranger数据处理→Seurat质控与标准化→PCA降维与聚类→t-SNE/UMAP可视化→细胞类型注释→差异表达基因鉴定→拟时序分析(肿瘤演化轨迹)→细胞通讯网络构建→结果解读与图表输出。
综合实战三:临床试验数据递交准备:背景:某新药临床试验数据整理。任务:原始临床试验数据导入→SDTM数据集构建(DM/AE/CM/EX/VS)→ADaM数据集开发(ADSL/ADAE/ADQS)→统计分析表格生成(Table 1/不良反应表)→生存分析图表制作(KM图)→Pinnacle 21软件数据验证→XPT文件生成→递交文档撰写。