医疗大数据智能分析云平台培训
课程介绍:
本课程将使用影像数据、临床数据、检测报告、数据集成层、云端服务器、应用层等数据,详细介绍使用特征值类型及特征值类型结合进行:一阶统计量、形状特征量、纹理特征量、高斯-拉普拉斯算子特征量、小波变换特征量、平方根滤波特征量、对数滤波特征量,重测信度分析、主成分分析、相关性分析、聚类分析等分析方法,进行全方面系统化讲解;机器学习模型主要讲解SVM Logistic regression kNN Decision Tree Random Forest XGBoost 。
课程大纲
一、课程内容:
大数据平台整体框架
1、数据来源
影像数据:包括DR、CT、MR、PET等;一 般为DICOM标准格式;结构图像和功能图像;
临床数据:包括电子病例、体检报告、随访 报告等;一般为非结构化数据;种类繁多,数据量大;
检测报告,包括病理检测、分子检测和遗传 检测;结构化和非结构化数据;图片和文字 报告;快速发展中
2、数据集成层
根据客户需求,实现对不同厂商的PACS/HIS/LIS/RIS/EMR的对接,或者使用Uploader上传无接口数据;实现高速、无损、安全、低费传输
3、云端服务器
计算服务器,使用Docker/GPU等新的大数据处理服务器;实现数 据检索、分析和统计;使用云计算、机器学习、自然语义分析等大数据处理技术
存储服务器,根据客户需求,定制公有云/私有云/混合云;结构化数据使用MySQL,非结构 话数据使用Hadoop/MongoDB;实现分布式存储,弹性分配存储空间
4、应用层
日报/月报/年报 院内医疗信息云检索 课题管理云平台 脑功能分析云平台
影像组学云平台 脑梗/脑肿瘤智能分割 胸片智能诊断
特征值类型
1、一阶统计量
• First Order Statistics,共19个,描述感兴趣区内的强度信息
• 包括mean, standard deviation, variance, maximum, median, range, kurtosis 等
2、形状特征量
• Shape, 共13个,描述感兴趣区的形状和大小特征
• 包括volume, surface area, compactness, 2D/3D maximum diameter, flatness等
3、纹理特征量
• Texture, 共60个,描述感兴趣区内像素间关系,即图像的纹理信息
• 包括28个Gray Level Co-occurrence Matrix (GLCM),16个Gray Level Size Zone Matrix (GLSZM),16个Gray Level Run Length Matrix (GLRLM)
4、高斯-拉普拉斯算子特征量
• Laplacian of Gaussian (LoG),共158个
• 先用高斯函数对图像进行平滑降噪,然后用拉普拉斯算子进行梯度运算,提取变换 后的图像特征值
5、小波变换特征量
• Wavelet Transform, 共632个
• 将图像信号分解成一系列小波函数的叠加,主要用于图像不同频域信息的特征提取
6、平方根滤波特征量
• Square root filter, 共79个
• 将图像进行平方根滤波后计算其一阶统计量和纹理特征量
7、对数滤波特征量
• Logarithm filter, 共79个
• 将图像进行对数滤波后计算其一阶统计量和纹理特征量
特征值分析:降低数据维度的方法
1、重测信度分析
• test-retest reliability
• 用来测试特征值的稳定性和一致性
• 对同一组被试进行两次测量,然后得到结果的相关系数,相关程度高,
表示前后测量一致性高,稳定性好
2、主成分分析
• Principal Component Analysis (PCA) analysis
• 通过正交变换,将可能存在的相关性变量转换为线性不相关变量,
转换后的这 组变量叫做主成分
• 根据累计贡献率的大小提取前几个大的主成分,既保留了原始的大部分信息,
又达到降维的目的
3、相关性分析
• Correlation analysis
• 对变量的相关性进行分析,从而衡量变量之间的相关程度
• 保留相关性较弱的变量
4、聚类分析
• Clustering analysis
• 将变量按照相似程度划分类型,使得同类变量之间的相似性比其他的更强