TCGA/GEO/SRA/EBI公共数据库高通量数据挖掘分析价格

利用公共数据库的数据，对 TCGA/GEO/SRA/EBI中疾病相关转录组数据进行深度挖掘，筛选疾病相关 mRNA、lncRNA，并利用临床数据获得预后相关的潜在分子靶标。
1、公共数据获取和重注释
下载 TCGA 数据（https://tcga-data.nci.nih.gov/）中的疾病的 RNAseqV2 exon 数据（Level 3，raw count）和临床数据，共有*例样本纳入研究，其中肿瘤样本*例，癌旁样本*例；其中临床预后信息齐全的共*例患者；测序平台为 Illumina HiSeq 2000 RNA Sequencing platform；数据下载时间为 2017 年*月。
RNAseqV2 exon 数据提供了 exon 的染色位置、raw count 、rpkm 信息。结合 Gencode 数据库（https://www.gencodegenes.org/）的 lncRNA 染色体位置
注释信息（V25），通过比对 RNAseqV2 exon 数据，若某 exon 的起始位置包含于注释数据库的 lncRNA 或 protein coding RNA，且正负链相符合，则将该 exon定义为 lncRNA 或 protein coding RNA。

2 、差异基因识别
分别使用 R 包 edgeR （ Version ： 3.4 ，http://www.bioconductor.org/packages/release/bioc/html/edgeR.html）对 raw count 数据进行预处理，将 raw count 标化为 log-CPM 值，并过滤平均表达值低于第一四分位数(Q1)的基因；进行线性建模，并且使用由 voom 函数计算的精度权重来调节平均方差关系。
  使用 limma 包（Version 3.10.3, http://www.bioconductor.org/packages/2.9/bioc/html/limma.html）提供的 T-test方法，分别对 mRNA 和 lncRNA 数据 Tumor VS Normal 进行差异表达分析。所有基因经过T检验后得到相应的 P.Value 值，P.Value 采用Benjamini & Hochberg法进行校正得到 adj.P.Value，lncRNA 和 mRNA 差异表达阈值均为 adj.P.Value < 0.05 且|log2FC| > 2。

3 、功能、通路富集分析
使用 DAVID[6]在线工具（Version: 6.8, https://david.ncifcrf.gov/）对获得差异表达 mRNA 进行功能和通路富集分析，包括 GO富集分析和KEGG pathway富集分析，GO 分析结果包括 BP（Biological Process）、CC（Cellular Component）、MF（Molecular Function），显著富集阈值为 P.Value <0.05。

4、 PPI 网络分析
我们以 mentha（http://mentha.uniroma2.it/about.php）、BioGRID（Version：3.4，https://wiki.thebiogrid.org/）、HPRD（Release 9，http://www.hprd.org/）三个数据库中的人类蛋白-蛋白相互作用关系，取三者并集作为背景，在其中匹配上一步得到的差异 mRNA，获得差异基因的蛋白相互作用关系（PPI）。得到的 PPI 关系对之后，使用 Cytoscape 软件对其进行网络图构建。运用CytoNCA插件（Version 2.1.6,
http://apps.cytoscape.org/apps/cytonca）进行节点网络连接度（Degree）分析，通过各个节点的连接度得分排名，得到 PPI 网络中参与蛋白互作关系的重要节点，即 hub 蛋白。
利用 Cytoscape 软件的 MCODE 插件，在蛋白互作网络中，通过应用聚类分析进行功能模块识别，得到网络拓扑结构和网络组件间相互关系，最终获得有生物学意义的蛋白质复合体或功能模块。参数：Include Loops: false Degree Cutoff: 10，Node Score Cutoff: 0.2，Haircut: true，Fluff: false，K-Core: 2，Max. Depth from Seed: 100。利用 DAVID 工具对模块中的基因进行 kegg pathway 富集分析，显著富集阈值为 P.Value < 0.05。

5、 lncRNA-mRNA 调控网络
通过对应样本的 lncRNA 和 mRNA 表达值，计算每个差异 lncRNA 与 mRNA的 pearson 相关系数 r，并进行相关性检验得到 p.value，筛选|r| > 0.85 且 p.value < 0.05 的差异 lncRNA-mRNA 关系对，将差异 mRNA 看做是 lncRNA 的靶基因。利用 R 包 clusterProfiler（ Version 3.2.11, http://www.bioconductor.org/packages/release/bioc/html/clusterProfiler.html）分析这些 lncRNA 的靶基因所参与的功能和通路，认为是该 lncRNA 的相关功能，显著富集阈值为 BH 校正后的 adj.P.Value < 0.05。

6、 lncRNA 共调控和功能协同分析
利用两 lncRNA 的共同调控靶基因构建 lncRNA 之间的共调控网络。如果两lncRNA 之间的共同调控靶基因有显著的 GO BP（Level 4）富集结果，我们认为两 lncRNA 之间有功能的协同作用，并对全部有功能协同作用的 lncRNA 之间绘制功能协同作用网络。GO BP 富集利用 R 包 clusterProfiler 实现，显著富集阈值为 BH 校正后的 adj.P.Value < 0.05。

7 、预后相关 lncRNA 筛选
整理临床数据，匹配与 lncRNA 矩阵中肿瘤组样本名相吻合的总生存时间（OS）和生存状态。我们将差异 lncRNA 按照肿瘤组表达值中位数将样本分为两组：高表达和低表达，对两组绘制 K-M 生存曲线，并进行 log-rank 统计检验，设定 p<0.05 为统计学显著性阈值，获得与生存相关的差异 lncRNA 若干个。
  采用随机生存森林（Random survival forest, RSF）进一步筛选构建预后相关差异 lncRNA 模型。随机生存森林是在随机森林基础上，加入生存分析，采用 bootstrap 方法从原始数据中有放回地抽取 N 个样本，建立生存树模型，得到每个变量的重要性评分(variable importance measure ，VIMP)，VIMP 越大预测能力越强，接近 0 或者负值说明不具有预测性；RSF 由各个生长生存树来估算得到累积风险函数（cumulative hazard function ，CHF) ，反映出每个个体在某个时间处于风险的累积概率。
  将差异 lncRNA 表达数据按照随机抽样分为测试集（占样本总数 75%）和验证集（占样本总数 25%），利用 R 软件包 randomForestSRC（Version 2.4.0，https://cran.r-project.org/web/packages/randomForestSRC/index.html）进行 RSF 分析。先我们通过测试集构建 RSF 模型，得到每个 lncRNA 在模型中的 VIMP，按照 VIMP 由高到低排序，再按照排序依次将 lncRNA 纳入模型中获得当前模型的 Error rate，当 Error rate 最小时，认为当前的 lncRNA 组合是 RSF 模型的最好变量组合。重新以最好组合构建 RSF 模型，以每个患者在不同时间点的 CHF 值累加得到风险指数（Risk score)，并设定 Risk score 的中位数为分辨高风险与低风险的阈值。
用验证集对最好预后相关 lncRNA 集进行验证，采用相同的参数得到每个样本的 Risk score，利用上一步设定的 Risk score 阈值将样本分为高、低风险两组。对两组绘制 K-M 生存曲线，进行 log-rank 检验；并结合临床数据进行多因素 COX回归分析。

因为此项服务为定制化服务，故无法给出简单的报价，有需求的老师，请致电联系。

TCGA/GEO/SRA/EBI公共数据库高通量数据挖掘分析

产品详情

文献和实验

相关推荐

上海遐永医药科技有限公司

立即询价