01
基础数据准备:数据获取与预处理
任何分析都始于原始数据,通过对基础数据进行下载、预处理,可以确保后续分析的可靠性和可比性。这是所有后续分析的基石。
⭕核心操作:
手动下载TCGA数据→代码清洗批次效应
写Python/R处理缺失值
手动标准化(TPM/FPKM)
❓但数据怎么下载?哪些数据集能用?可以从哪些方向进行归类分析……
别急!解螺旋生信圈资深讲师 猕猴桃老师马上直播开讲了!适合0基础学员的“干货+实操”指导课,讲师全程手把手带你学~
……以下仅极少部分课程PPT展示
0基础入门?不知道如何获取数据与分析…
扫码0元 报名学习
资深讲师直播教学
课程PPT展示↓
……
02
定义研究问题/对比组 :样本分组
基于研究目标,利用临床信息(分期、组织类型、生存状态)或分子特征(表达聚类、已知分型)将样本划分为有生物学或临床意义的对比组。所有后续的差异分析、生存分析等都依赖于这些分组。
⭕核心操作:
写代码解析临床分期/生存状态
写Python/R处理缺失值用K-means聚类分子亚型
02
核心发现层
- 差异基因与功能注释-
接下来,我们拆解一下「核心发现层」,可以将其简单的理解为“核心发现与初步解释”。
三者均为独立分析目标,但模块4和模块5模块4和模块5均依赖模块3的输出,且功能上互补:
模块4解决 生物学机制问题(Why)
模块5解决 临床应用问题(How)
模块4解决 生物学机制问题(Why)
模块5解决 临床应用问题(How)
举一个比较典型的应用的场景,当研究者发现一组DEGs(模块3)后,可同时:
用功能富集(模块4)回答 “这些基因有什么作用?”
用生存分析(模块5)回答 “这些基因能否预测生存?
用功能富集(模块4)回答 “这些基因有什么作用?”
用生存分析(模块5)回答 “这些基因能否预测生存?
03
核心发现:差异表达基因
这是揭示潜在驱动基因或标志物的第一步,主要用于找出在不同分组间表达水平发生显著变化的基因(DEGs)。
⭕核心操作:
利用火山图等样式用于直观展示结果(显著性和变化幅度)。
课上,猕猴桃老师还为大家准备了一份详细的“基因列表”名单,感兴趣的同学,赶紧来课上听老师详细讲讲吧~
04
理解差异基因的生物学意义:功能富集分析
这一步将分子差异与生物学功能联系起来。通常用于解释步骤三(差异分析)发现的差异基因在生物学上意味着什么?它们富集在哪些功能或通路?
⭕核心操作:
GO和KEGG通路分析:使用DAVID、clusterProfiler等工具进行功能注释和通路分析。即将基因列表(通常是DEGs)映射到已知的生物功能(GO)或信号通路(KEGG)上,揭示这些基因共同参与的生物学过程。
GSEA(基因集富集分析):则从预设的基因集角度评估表型间的富集情况。
05
评估临床相关性:生存分析
这一步将生物学发现推向临床意义,常用于探究分子差异(单个基因或模型)是否具有临床预后价值。
⭕核心操作:
直接关联分子数据(基因表达)与最重要的临床结局(生存时间)。
Kaplan-Meier生存分析:用于单基因/分组的生存比较
❓但差异分析、功能富集分析、生存分析的过程,往往需要大家用到编程代码。不少同学抱怨,R语言真的太难学了,而且用起来也不简单,经常报错……
别急!猕猴桃老师还在课上分享了一款在线数据分析平台——仙桃学术工具,无需投入大量时间学习SPSS、Origin、GraphPad或R语言,就能搞定差异分析、功能富集分析、Cox回归等等160多种数据分析方法!
而且还有130多种CNS标准的图表模版供你选:火山图、热图、条带图、韦恩图、棒棒糖图、弦图……!赶快来试试吧~
产品功能展示↓
……以上仅极少部分仙桃功能展示
扫码0元 报名
资深讲师手把手教你用仙桃
轻松搞定3-5分SCI
03
应用转化层
- 临床预后与治疗应用-
简单说,这一层指的是“生信分析的 临床价值出口”,将核心发现层(差异基因、生存相关靶点)转化为“可直接指导临床的决策工具”。
当审稿人问: “How can your findings benefit patients?”( 即“研究结果对患者有什么用?”)
「应用转化层」提供的三重证据(预后分层、免疫特征、敏感药物)便是回答!
06
构建预后模型
这是将研究发现转化为潜在临床应用的关键一步,需要我们利用发现的分子特征去构建一个可用于预测患者预后的工具。
⭕核心操作:
特征选择:基于前面的发现(差异基因、生存相关基因),使用统计/机器学习方法(LASSO)从大量候选基因中筛选出最具有预测能力的少数关键基因。
预后模型构建:基于关键基因构建预后风险评分模型。
模型验证:使用训练集和验证集进行模型验证,评估模型的预测性能(如ROC曲线)。
07
探索肿瘤微环境:免疫浸润分析
这一步将有助于科研工作者了解肿瘤免疫微环境的组成及其与分子特征和预后的关系,为免疫治疗提供线索。
⭕核心操作:
免疫细胞浸润估计:利用算法反卷积(CIBERSORT, TIMER)估算样本中各种免疫细胞的比例。
分析免疫相关基因(包括重要的免疫检查点分子如PD-1, CTLA-4)的表达模式和预后意义。
08
探索治疗可能性:药敏分析
这一步尝试将基于分子特征预测潜在有效的治疗药物,为精准治疗提供依据。
⭕传统操作:
利用大型药物敏感性数据库(GDSC, CTRP)将肿瘤的分子特征(如基因表达谱)与已知的药物敏感性数据关联,预测敏感药物。
04
机制探索层
- 多维度机制挖掘 -
最后,小编带大家了解一下「机制探索层」,其主要用于解释 “为什么目标基因重要?”和“它们如何影响疾病?”。
09
深入机制探索:多组学整合分析
这一步追求更深层次的生物学机制理解,常用于从多维度理解关键基因/特征的分子机制(为什么这个基因重要?它如何影响肿瘤?)。
⭕核心操作:
整合基因组(突变、CNV)、表观组(甲基化、组蛋白修饰)、转录组(表达)、蛋白组(蛋白表达、修饰)数据,全方位探究关键基因的调控及其对细胞功能的影响。
基因组学:分析关键基因的突变、拷贝数变异(CNV)及其与特定癌肿发生的关系。
转录组学:研究关键基因对全基因组表达谱的影响。
表观组学:分析关键基因的DNA甲基化、组蛋白修饰状态。
蛋白组学:通过质谱分析研究关键基因对蛋白质表达和修饰的影响。
10
揭示分子互作网络:网络分析
⭕核心操作:
使用共表达网络(WGCNA)找出协同变化的基因模块(可能代表特定通路或功能单元)。
利用蛋白互作网络(PPI)找出核心枢纽基因(Hub genes)。返回搜狐,查看更多