colorectal adenocarcinoma外显子组测序数据分析

colorectal adenocarcinoma外显子组测序数据分析

价格: ¥3000 - 15000

产品详情

相关推荐

提供商 :上海源兹

服务名称 :数据分析

规格 :根据实际分析提纲定价

研究目的
在中国癌症患者中,结直肠癌(Colorectal cancerCRC)是仅次于肺癌、胃癌之后,发病率第三位的癌症。其病因与多种因素相关。但是,目前对于直肠癌的形成机制尚不明确。这里,我们使用外显子测序技术对一例CRC样本进行外显子DNA片段测序,通过观察该例样本中发生的DNA碱基突变,分析与癌症形成高度相关的碱基突变位点,并筛选出潜在的原癌基因和抑癌基因,结合分子辅助药物设计的方法确定针对这些基因的可行药物治疗方案。
 

材料和方法

1、外显子组测序数据来源
数据其中adenocarcinoma样本5例和正常样本3例的外显子测序数据。该数据使用Illumina HiSeq-2000对提取的外显子DNA片段进行了测序。

2、外显子测序数据与参考染色体序列的比对
基于UCSC **参考基因组序列信息,我们使用了bwa[1]软件进行了reads的比对工作。在比对过程中使用bwa的默认参数进行数据处理。在比对结果中,选取MAPQ不低于30read hits并对所有候选的PCR duplicates进行标记。为了确保bwa比对过程中找到的indel可靠,我们这里对所有indel位点进行了局部重比对(local realignment),并去除假阳性结果。

3、碱基突变位点(Single Nucleotide Variation, SNV)的检测和注释
我们使用GenomeAnalysisTK[2]软件进行了SNV位点的检测,这里我们要求每个可信的SNV位点的覆盖度不低于**,并且评分不低于**,对于分值高于**SNV位点,我们将其定义为高可信位点。之后,我们使用AnnoVar[3]软件进行SNV位点的注释。

4、高风险SNV位点检测
为了进一步筛选出潜在的癌症发生驱动型基因(driver cancer genes),我们使用VarioWatch[4]软件对发生在基因编码区域中的SNV位点做了突变风险性评估,对该基因蛋白产物功能的影响进行了分析,并筛选出所有蛋白功能改变可能性较高的SNV位点和其所在的基因,进行后续研究。

5driver cancer gene的功能注释
这里,我们基于DAVID[5]GO数据库对driver cancer gene的功能进行逐一注释。


分析结果

1CRC样本和正常样本之间的SNV比较
通过对CRC样本和正常样本的外显子区域reads序列分析,我们在CRC样本和正常组织样本中分别检测到********9SNV位点,各自的SNV发生率为**bp/MB**bp/MBCRC样本中碱基的SNV频率约为正常样本中的两倍,显示癌症组织中DNA碱基突变的高发性。根据SNV的类型,我们分别观察了每个样本中红碱基颠换(base transversion)、碱基置换(base transition)以及插入确实片段(indel)占所有SNV的百分比。
结果显示在CRC样本中碱基置换现象比例最高为**%,其次为碱基颠换,其比例为**%,发生频率最低的为插入缺失片段,比例仅占总体的**%。而在正常样本中,三种SNV类型的比例分别为**%**%*%。相比于癌症样本,indel比例下降2个百分点,碱基置换比例上升2.1个百分点,碱基颠换基本保持不变。综上,我们的结果显示,CRC样本中的SNV现象相对与正常样本而言发生更为频繁,但是各个类型SNV之间的发生比例基本保持不变(图1)。

2CRC样本特异性SNV位点的确定和分析
为了分析与CRC发生发展密切相关的SNV位点,我们这里基于正常样本中检测到的SNV位点和一系列目前已知的人类基因组正常发生的SNP位点信息,对CRC样本中的SNV位点进行了筛选,并尝试发现与CRC发生相关的潜在体细胞突变位点(candidate somatic mutation siteCSMS)。最终,我们总共确定了2**5CSMS(表1)。

1 SNV位点筛选过程
  SNV counts in adenoma
Raw SNV 6***5
SNP calling quality filter 8***7
Exclusion overlapped sites with the normal sample 4***0
Exclusion overlapped sites with dbSNP 137 2**5
Candidate somatic mutation sites 2**5

结合SNV位点注释,我们最终确定了2*1个发生在基因外显子区域内突变位点。之后,我们分别统计了外显子编码区域(CDS)、5端非翻译区域(5UTR)、3端非翻译区域(3UTR)以及外显子剪接位点(Splice Site)等区域上的碱基突变类型分布。
其中,在CDS区域上7*%的位点为错义突变(Mis-sense Mutation),而癌症样本CDS区域中无义突变(Non-sense Mutation)的发生频率仅为*%(图2)。这一结果暗示,CRC的发生和发展过程主要伴随着基因CDS区域的错义突变,这一突变通过改变了三联密码子对应的氨基酸残疾,从而改变局部蛋白质序列并可能对蛋白质正常功能的行驶造成干扰,而由于无义突变造成的蛋白质翻译的提前终止在我们的CRC观测样本中出现比例十分低。此外,我们在UTR区域共发现了**个突变位点(**个在5UTR区域、** 个在3UTR区域),但是,UTR区域主要与RNA翻译调控过程相关,目前这些位点对蛋白质功能是否存在实际影响尚不明确。最后,我们还发现了*个外显子剪接位点上的突变,考虑到剪接位点的高保守性,突变的发生可能改变原有mRNA的序列构成并进一步导致蛋白质结构的紊乱。

3、高风险突变位点的筛选
这里,我们结合VarioWatch[4]工具对发生在CDS区域和外显子剪接位点上的碱基突变进行了风险性评估分析,所得结果如图3所示。在纳入分析的1*7个突变位点中,有9*个突变位点被认为可能对蛋白质功能的影响较大,其中包括*个特高风险的突变位点(图3)。之后,我们确定了这9*个高风险位点对应的转录本9*个转录本,每个转录本中都只包含一个突变位点,并且这些转录本共对应5*个基因。
4、癌症相关高风险突变基因检测和功能注释
为了了解这些高风险突变基因与癌症发生发展的相关性,我们首先基于CancerGenes[6]数据库的记录信息检索了高风险基因中是否存在已知的促癌基因(Oncogene)和抑癌基因(Tumor Suppressor)。结果显示,我们分别找到了包括F***在内的2个抑癌基因和包括F**C**在内共4个促癌基因(表2),并且C**F**F**13个促癌基因均具备酪氨酸激酶的活性,而M**则主要定位在细胞质膜上,参与细胞信号转导和细胞增殖过程。

2 高风险基因中已知的抑癌基因和促癌基因
  Genes
Tumor Suppressor F*P*
Oncogene C*F*F*M*

针对这些已知的癌症相关基因的功能观察,我们着重分析了其他在CRC样本中发生高风险突变的基因是否大部分也都具备激酶功能。最终,我们发现M**P**两个高风险突变基因也均具备激酶活性,暗示其可能与CRC的发生发展相关(表3)。

3 高风险基因中与已知的抑癌基因和促癌基因具有相同功能基因的统计。图中粗体代表已知的抑癌基因和促癌基因。
  GO term Genes
MF GO:0***2~protein kinase activity F**P**P**M**F*C*
MF GO:0***3~protein tyrosine kinase activity F*P*F**C**
MF GO:0***5~cytokine binding M**C**
MF GO:0***6~nucleotide binding *******

但是,在所有的高风险基因中,除F**具备protein ubiquitination的功能外,并未发现在此类功能的突变基因。
在已知抑癌基因所涉及的生物学过程中,F**主要参与protein ubiquitination调控过程,负责细胞内蛋白质的降解。P**M**F**均参与在proteolysis过程,但是,在所有的高风险基因中,除F**具备protein ubiquitination的功能外,GO分析结果并未发现在其他与F**存在相同功能的突变基因。
而在促癌基因所涉及的phosphorus metabolic processcell proliferation过程中,除M**F*C*R外,我们还发现包括P*BM*S**在内的三个高风险基因也参与相同的生物学调控过程(表4)。

4 高风险基因中与已知的抑癌基因和促癌基因参与相同生物学过程的基因的统计。图中粗体代表已知的抑癌基因和促癌基因。
  GO Term Genes
BP GO:00**8~proteolysis F*P**6M*
BP GO:00**7~protein ubiquitination F*
BP GO:00**93~phosphorus metabolic process S*F*P*P*M*F*C*
BP GO:00**3~cell proliferation P*M*F*C*

结合Kegg数据库中已有的癌症调控通路注释,我们只发现C*RC**与癌症调控通路有关。目前,已知C**参与small cell lung cancer调控,但是,根据TiGER组织特异性基因表达数据库的信息,C**CRC中的表达水平较低,该基因在直肠肿瘤组织发生发展过程中是否起作用,需要进一步的实验才能确定。

5、与直肠息肉(adenoma)外显子测序数据检测结果的比较
结合之前的直肠息肉外显子测序数据分析结果,我们在直肠息肉与直肠癌样本的比较过程中总共确定了2*个共有高风险突变基因,其中F*C*为目前已知的促癌基因,而P*为已知抑癌基因。
值得主意的是,我们的分析结果显示在直肠息肉组织中检测到的CRC发生高度相关基因A*的突变并未在我们的CRC样本中发生,这一结果暗示A*突变可能并不是造成直肠癌发生所必须的基因突变。从抑癌基因的角度分析,P*基因的高风险碱基突变也十分可能与CRC形成相关。而F*C**这两个促癌基因的突变是否有助于CRC的形成,需要结合文献或实验进行确证。
在剩余的**个共有高风险突变基因中,M**S**也都涉及蛋白质或核酸的磷酸化功能,这一点与目前已知的癌症相关基因十分相似。结合TiGER[7]组织特异性基因表达数据库,我们发现这2*个共有突变基因中,M**E**Q**S****在正常直肠组织中高表达,而包括*****在内的基因,其表达水平远低于上述5个基因(表5)。
结合以上信息,相比与F*P*、和C*的突变,同样具有激酶活性的MAPK15,由于其在直肠组织中的表达水平高,该基因的突变更有可能对正常直肠组织的功能维持产生影响。个人认为,可以对M**进行后续研究。
目前的医学观点认为,在直肠癌的发生发展过程中,直肠息肉被认为是正常直肠组织向直肠癌衍变的一个中间过程。而我们的分析显示存在adenoma样本特异性的突变基因,这些基因的突变并未在CRC样本中观察到。这一结果说明,在基因组外显子区域的异常上,adenomaCRC存在一定共同特征,但是adenoma中的基因突变并未被CRC样本完全涵盖,无法说明CRC的发生源于adenoma的形成。所以,adenomaCRC两者均为异常直肠组织,但是这两者间是否存在衍变关系有待进一步研究。
此外,已知抑癌基因F**在正常直肠组织中呈现高表达状态,而我们的CRC样本数据分析结果显示F**在癌症组织中存在特异性高风险碱基突变(表5)。这一结果暗示CRC的发生可能与F**异常相关。

5 CRC样本和adenoma样本中高风险突变基因的统计。图中红色标记基因为已知促癌基因、绿色标记基因为已知抑癌基因。
  Gene Count High Expressed Genes Medium Expressed Genes Low Expressed Genes Expression Record Not Found
Adenoma specific mutated genes 20 B**6I**S** A**B*1C*C*P* *** ***
Overlapped mutated genes 23 C*E**** C*D*F*P**** A** A**
CRC specific mutated genes 36 F**F**G**** A**2** **C**F**G*G*M**** **
可以讨论的点
1P*F*C*R均具有酪氨酸激酶活性,但是P*则被定义为抑癌基因,而F*SC*R则为促癌基因,需要详细讨论一下P*与剩余两个基因之间的修饰目标上的区别和参与调控通路的差异。
2Oncogene的碱基突变是否存在改变蛋白质原有功能而不是使其失活的可能,由此导致异常组织的发生并最终发展成为肿瘤组织,需要结合文献进行讨论。
3、对M*进行详细的文献挖掘,研究该基因与癌症之间的关系。可能的话结合带有功能验证性实验的文献,对M*在细胞内部的调控目标以及M*5突变后对细胞的影响进行详细的讨论。
4、讨论抑癌基因F*与癌症发生发展的关系。
参考文献
References:
[1]. Li, H. and R. Durbin, Fast and accurate short read alignment with Burrows-Wheeler transform. Bioinformatics, 2009. 25(14): p. 1754-60.
[2]. McKenna, A., et al., The Genome Analysis Toolkit: a MapReduce framework for analyzing next-generation  DNA sequencing data. Genome Res, 2010. 20(9): p. 1297-303.
[3]. Wang, K., M. Li and H. Hakonarson, ANNOVAR: functional annotation of genetic variants from high-throughput sequencing data. Nucleic Acids Res, 2010. 38(16): p. e164.
[4]. Cheng, Y.C., et al., VarioWatch: providing large-scale and comprehensive annotations on human genomic  variants in the next generation sequencing era. Nucleic Acids Res, 2012. 40(Web Server issue): p. W76-81.
[5]. Huang, D.W., B.T. Sherman and R.A. Lempicki, Systematic and integrative analysis of large gene lists using DAVID bioinformatics resources. Nat Protoc, 2009. 4(1): p. 44-57.
[6]. Higgins, M.E., et al., CancerGenes: a gene selection resource for cancer genome projects. Nucleic Acids Res, 2007. 35(Database issue): p. D721-6.
[7]. Liu, X., et al., TiGER: a database for tissue-specific gene expression and regulation. BMC Bioinformatics, 2008. 9: p. 271.

 

上海源兹生物科技有限公司

未合作商家

购买咨询

换一个