NGS技术简介

 

 

新一代测序技术(Next Generation Sequencing)是对传统Sanger测序的革命性的改变,一次能对几十万到几百万条核酸分子进行序列测定。新一代测序系统自从问世以来,其产出的数据量每年都翻一番以上,远远大于摩尔定律。2007年,单次测序运行的通量最高可得到1Gb 数据;而目前上市的通量最高的测序仪中,HiSeq2500一次运行就可得到1000Gb 数据。新一代测序技术让科研人员从研究设想到实现数据获取仅需几小时或几天时间。人类基因组计划运用毛细管电泳测序技术耗费约十年时间进行测序,现在对个人基因组测序只需单台测序仪不到一周的时间就能完成从样品准备到数据产出的整个过程。

 

传统的对于肿瘤基因突变的检测都采用毛细管测序,而毛细管测序是通过信号峰来判断是否发生突变,往往只能检测20%以上突变频率的突变,对很多低频突变无法检测。而二代测序通过高覆盖度来检测突变,其对突变频率的判断更准确,灵敏度也更高,可以检测到 0.5%突变频率的突变。二代测序(NGS)可以在单个碱基水平上检测基因的异常,同时还可以用于分析基因表达,拼接变异,非编码RNA,DNA甲基化以及蛋白-核酸相互作用。

 

随着技术的不断进步,二代测序正在广泛地应用于在以下领域:肿瘤研究和诊断、药物基因组学研究、HLA分型、产前诊断、遗传疾病基因、感染性疾病诊断、线粒体疾病研究、microRNA 检测、微生物宏基因组检测、药物研发、开发新的诊断试剂盒等。

文库制备(Miseq平台)

1、  以肿瘤基因研究和诊断为例,介绍文库制备过程

(1)    TruSeq Amplicon Cancer Pannel kit(illumina公司提供):

该kit共采用 212个扩增子来检测48个肿瘤相关基因的外显子,其中包括 EGFR,KRAS,BRAF,TP53,PIK3CA等临床上常见检测的基因,包括EGFR的 18、19和20号外显子,PIK3CA的9和20号外显子,KRAS的2和3号外显子,KIT的9、13和17号外显子。 TruSeq Amplicon Cancer Pannel检测片段超过35kb,可一次检测超过8000个突变位点。

检测流程:

样本:通过手术或者微创穿刺获取肿瘤组织样本,也可以采用 FFPE样本(需 要使用 illumina FFPE QC kit对样本 DNA进行验证,通过可以检测),外周血样本,抽取DNA,需要的 DNA量为 250ng。

扩增:采用 TSACP试剂盒扩增样本,一轮扩增 96个样本,在扩增时同时加indix和接头。

测序:把96个样本通过磁珠纯化后混合,在MiSeq上测序,读长2X150bp或者2X250bp。

数据分析:软件自动完成数据分析,给出每个突变位点的基因型,突变频率和Q值。

(2)    GeneRead DNAseq Gene Panel(QIAGEN公司提供)

针对8种癌症分别提供对应的文库构建试剂盒,每种试剂盒涵盖20个常见基因,每个基因70个Amplicon,共计1400对Amplicons。以肺癌为例:包括EGFR、KRAS BRAF、PTEN、PDGFRA、KIT、NRAS、HRAS 、PIK3CA、ERBB2、AKT1、ALK、CDKN2A、MET、MTOR、PTGS2、TP53、CTNNB1、RB1、STK11。

8种癌症分别为:Breast Cancer(乳腺癌),Colon Cancer(结肠癌),Leukemia(白血病) ,Liver Cancer (肝癌),Lung Cancer(肺癌),Ovarian Cancer(卵巢癌),Prostate Cancer(前列腺癌),Gastric Cancer(胃癌)。

(3)    客户自己设计

利用PCR的方法对目标肿瘤基因进行扩增,比如对EGFR,KRAS, BRCA1和TP53 等单个或数个肿瘤基因进行Long Range PCR,获得基因片段,然后采用illumina的NexteraXT建库试剂盒进行文库构建,最后上机测序,最快2天可完成数十个到数千个样品的检测。

检测流程:

样本:肿瘤组织或者FFPE样本扩增:采用 Long-range PCR扩增待检测基因,扩增片段可从 1kb-10kb。

建库:把扩增的DNA纯化定量混合,采用Nextera XT建库,一步完成DNA片段化,加接头和加index的过程,90分钟完成操作,手动操作15分钟。

测序:把建库完成的DNA纯化,96个样本混合,在MiSeq上测序。

数据分析:软件自动完成突变分析。

试剂盒

TruSight  Cancer Panel

TruSeq  Custom Amplicon Cancer Panel

TruSight Tumor Panel

原理

Nextera Rapid Capture捕获富集法

TruSeq Custom Amplicon扩增法

TruSeq Custom Amplicon扩增法

针对样本种类

外周血(正常体细胞),起始50 ng

临床样品(肿瘤组织及FFPE样品),起始250 ng

临床样品(肿瘤组织及FFPE样品),起始30-300 ng

针对肿瘤种类

针对大多数常见癌症

针对实体瘤与血液类癌症

针对肺癌、结肠癌、胃癌、黑色素瘤、卵巢癌等实体肿瘤

涵盖基因数

94个基因及284个SNP

48

26

被测总长度

297 kb

35 kb,212个扩增片段

21 kb

平均测序深度

100×

1,000×

7,000×

可测得SNP最低频度

5%(体细胞突变筛查)

<5%

<3%

MiSeq一次可测样品数

V2试剂50个,V3试剂83个

V2试剂推荐20个

V2试剂一次4个,V3试剂一次6个

主要应用方向

肿瘤发病几率筛查

肿瘤病人相关基因突变检测

肿瘤病人相关基因深度检测

 

应用领域(Miseq平台)

应用领域——肿瘤基因的靶向测序

基因的靶向检测主要是针对已知的肿瘤基因进行检测。通过对肿瘤基因的靶向检测,发现这些基因上的突变,SNP和 indels,非常容易分析这些 SNP和突变与肿瘤的相关性。对不同类型的肿瘤以及不同发病阶段的肿瘤的特定基因的检 测可以用来阐述基因的发病过程,遗传图谱,环境和发病的关联等。目前国内和国际上多个研究单位和医院把靶向测序应用于临床,来进行肿瘤的诊断和靶向用药。(具体方案见文库制备内容)。

 

应用领域——肿瘤的个体化用药 

同样诊断是非小细胞肺癌的病人,有些病人使用化疗药物铂类药物治疗效果很好,有些人却没有疗效,这是有人的基因以及肿瘤不同的体细胞突变造成的。 目前在使用肿瘤化疗药物和靶向药物都需要检测病人的基因多态性和体细胞突变,来选择合适的药物。比如:在选择铂类药物前要检测 ERCC1,ERCC2, XRCC1,GSTP1以及 GSTM1基因的多态性,在选择靶向药物帕尼单抗和西妥昔单抗前,要检测 EGFR,KRAS,BRAF和 PIK3CA基因的体细胞突变。传统的采用毛细管测序来检测这些基因的变异一次只能检测有限的基因突变,而且周期比较长,成本也比较高,一般只能检测一种药物的相关靶向基因,如果这个药物不合适,再选择其他药物,再检测其相关的基因变异。而如果采用定量 PCR的方法只能检测已知的变异,对未知的变异无能为力。而采用二代测序,可以一次检测所以肿瘤药物全部的相关用药的基因,然后来选择最适合的药物,这样选择药物的周期短,操作简单,成本也降低。 同时药物进入人体后要进行吸收,转运,代谢和排出体外,有些人对药物的代 谢和排出速度很快,往往需要加大药物剂量,而有些人代谢慢,如果药物剂量 大往往会导致副作用增加。而药物的吸收,转运,代谢和排出体外的速度也于 基因相关,这些基因的 SNP或者突变往往会导致蛋白功能的改变。比如乳腺癌 药物芳香酶抑制剂使用时建议检测 CYP19A1, SULT1A1, SULT1A2等基因的20多个突变位点,三苯氧胺使用时建议检测 CYP2D6, CYP2C9, CYP3A4, CYP3A5, CYP2C19等基因的 100多个突变位点,而化疗药物巯嘌呤甲基转移酶在使用时 建议检测 TPMT, XDH, PRPP的 70多个突变位点。可以通过 Long-Range PCR,Amplicon或者 Enrichment的方法获得这些基因, 然后用Miseq进行测序,软件自动进行 mutation calling,指导个体化的用药。

 

应用案例——HLA分型检测 

在肿瘤器官移植前都需要进行HLA分型检测,目前HLA分型主要采用的技术为 PCR-SBT( Sequence based typing ,测序分型)的方法,这个方法耗时长, 价格昂贵,而且只能针对最多变的氨基酸结合位点区域,不适合多样本分型。 今年4月斯坦福基因组中心的科学家在PNAS上发表文章 High-throughput, highfidelity HLA genotypingwith deep sequencing,采用二代测序来进行HLA分型,采用二代测序技术的操作更简单,分型周期更短,成本降低,而且通量高,可 进行多样本分型。使用 Long Range PCR扩增 HLA-A, -B, -C和-DRB1基因的多变区域,再将多个基因的多变区域连接在一起后建库,文库300-350 bp, paired-end测序。文章中检测的数据结果与前期检测99%一致,在59个临床样 本中发现了三个以前未描述的 alleles(两个短插入片段,一个单碱基缺失)。在 MiSeq一次运行中可检测几十个样本。ILMN NGS平台相对其他平台,无论检测成本还是精度,都更适合 HLA分型。

 

应用案例——微生物宏基因组检测

illumina 推出了针对 16sRNA 检测的试剂盒,在其v4区域两段的恒定区域设计引物,对v4区域扩增后进行测序,可用于样品中的所有细菌的鉴定分型。可广泛应用于环境生物、海洋生物、食品安全、营养学等多个领域。

 

Miseq的其它应用:

遗传疾病基因、感染性疾病诊断、产前诊断、线粒体疾病研究、microRNA 检测、药物研发、开发新的诊断试剂盒等。

流程步骤 定义
富集 扩增基因组选定区域的方法。常规方法包括多重PCR和探针杂交(如Agilent的SureSelect)
文库制备 将gDNA, RNA (cDNA), PCR产物或者其他双链DNA加工成可以进行NGS检测的文库的流程。通常包括连接接头及其他需要酶激活的步骤,以及片段大小选择。  
片段大小选择

选择合适大小的片段(e.g.   200bp-400bp) 是文库制备必须的步骤,因为下游的克隆扩增,

测序过程只有在DNA片段大小一致时才能得到最优化。  

克隆扩增 将文库中的单分子使用“油包水”PCR或桥式PCR进行扩增(e.g.1000倍)。扩增的产物是与初始单分子相同的一个DNA分子簇。进行扩增的目的是能在测序过程中产生足购强的信号,与背景噪音区分开。
读长

能测到的DNA片段长度,与测序技术有关。长的读长(e.g. >600-800 bp) 对某些应用,

如从头测序(de novo   sequencing)很有帮助,而对某些应用如 miRNA-Seq 或 RNA-Seq则帮助不大。

每次运行的读数(读深),输出数据量

每次运行读数即一次测序中每簇DNA被测序的次数。如100bp的片段读数达到

10M次就会产生1GB的数据量。

测序精确度/测序错误率

测序精确度是由于测序中通常读长越长,错误率越高这一现象而定的标准,

通常精确度是根据平均读长计算的。举例来说,读长在50bp时精度可以达到99.9%,

而读长到150 bp时精度可能就只有98%了。

覆盖度 覆盖度是指基因组中特定DNA碱基的平均读数。 
一致性精确度

一致性精确度是指特定DNA碱基在多次测序中的一致度。相对测序精确度而言,

它更直接的反映了测序的错误率。一致性精确度可以通过增加读深而改善。

它在重测序中是一个很重要的数据,相比测序精确度更为重要。  

目标区域重测序 目标区域重测序是将基因组中选择的部分经扩增/富集进行测序的分析,可以仅对感兴趣的区域进行测序。  

 

本网站由阿里云提供云计算及安全服务 Powered by 安云建站