二代测序技术的读长为什么这么短
当我们提到“二代”这个词时,通常认为它意味着初代技术基础上全面的革新与进步。然而,比起传统的Sanger测序,市面上常见的二代测序平台读长较短(50-300 bp),准确度也有所不及。那么,它是凭什么被称作二代测序(Next-generation sequencing, NGS),又是凭什么占领市场,成为目前应用最为广泛的一类测序技术呢?
这得从它最基本的特征说起——
> 更高通量,更低成本
二代测序也叫高通量测序(High-throughput sequencing)。2005年,当NGS初次进入市场时,它还有另外一个名字,大规模并行测序(Massively-parallel sequencing)。
NGS可以说是人类基因组计划时代的产物。尽管在2003年,这项宏大的科学探索工程就宣告完成,但其影响之深远,并不限于它进行时的年代。
人类基因组草图的绘制主要由一代测序技术,即Sanger测序技术完成。对于整个基因组多达30亿对碱基的解析工作来说,早期的Sanger测序方法无疑是极为低效的。为了提高效率,早在1986年,美国Applied Biosystems(ABI)公司就在Nature杂志上提出了Sanger测序的自动化方案,随即推出了首台自动化测序仪,ABI Prism 370A。
> 改进手段1: 采用荧光基团标记四种碱基
在最初的Sanger测序流程中,测序反应分为四部分进行。每个反应只加入一种碱基的双脱氧核苷酸(ddNTP),并且分别进行独立的凝胶电泳来检测反应产物。光凝胶电泳就得跑四个,更别提那之后那繁琐的肉眼辨认、手动分析工作了。
ABI公司采用四种不同颜色的荧光基团对碱基进行标记,因此在反应结束时,可以将反应产物混合,然后仅运行单根凝胶电泳管,即可完成所有产物的分离与检测。荧光数据由计算机自动获取,并根据荧光波长(颜色)来判断是A、T、C、G中哪种碱基。
> 改进手段2:采用毛细管阵列电泳技术进行产物分离与检测
毛细管电泳(Capillary electrophoresis, CE)是以毛细管为分离通道、以高压直流电场为驱动力的液相分离技术。由于采用了内径仅25-100 μm的毛细管和高达数千伏的高压,它的分离效率更高,分离速度更快,样品消耗量更低。也由于单根毛细管体积小,容易实现多根毛细管的集成,从而提高分析通量(同时运行多根毛细管)与分离效率。
利用毛细管电泳技术而不是传统的凝胶电泳技术,于1998年推出的ABI Prism 3700真正地实现了规模化测序。改进后的版本3730xl可同时运行96道毛细管电泳,适配96孔板,一次能够完成96个样品的测序。目前,像3730xl这样的自动化Sanger测序仪仍有较为广泛的应用,可用来验证NGS测序结果的准确性(Sanger测序依然是测序界的“金标准”)。
借助四色荧光标记和毛细管阵列电泳这两种手段,Sanger测序的效率和通量有了显著的提升。但是,这样就够了吗?
在人类基因组计划完成时,据说,一个人的基因组测序成本接近5000万美元。要知道,NGS的目标可是“1000美元测整个人类基因组”。从50,000,000到1000,不止是四个0的距离。为了把基因测序"拉下神坛",让它“飞入寻常百姓家”,通量上仅仅是“显著”的提升是不够的。
它需要质的飞跃。
> NGS如何实现高通量
我们这里提到的“通量”,一般指的是某个系统可同时进行的反应数目。它和效率、速度这些词的意思不同,但相辅相成。高通量往往意味着快速、高效——千万个反应同时进行,肯定比一个一个地反应更快、更爽嘛!
二代测序技术的所谓“高通量”,你可以理解为:跑一次测序反应,它可以测得的DNA分子数/碱基数很多,非常多。
大幅度提高通量,是实现低成本测序的必经之路。
为了实现高通量,首先,NGS基本上沿用了荧光标记法来区分A、T、C、G四种碱基。该方法简单方便,已经发展得非常成熟。
在此基础上,我们可以设想一下,最简单的实现高通量测序的方式是什么。
很可能是这样的:把所有需要测序的DNA分子分散在一个平面上,再加入四种碱基的ddNTP,进行DNA合成,然后利用光学检测系统同时检测所有的DNA分子——根据每个分子的荧光信号,判断该分子在此次反应中结合的是哪种碱基的ddNTP,并用计算机自动记录每个分子在该位置的碱基。
但可惜的是,单个DNA分子的荧光信号极其微弱,无法达到现有的光学检测系统的检出限。
那么,当务之急就是:增大信号强度。由于DNA可以复制,具备天然优势,则可以通过DNA扩增,增加同种DNA分子的数目(这些分子必须聚集)来实现这一点。
打个比方,当一个人孤零零地举着发光的手电筒站在地面上,那点光亮对于高空中的观察者来说是完全看不见的。但当这个人叫来成千上万的人,每个人都举着手电筒,扎堆站在一起,那么,高空中的观察者就会看到一个明显的光点。
不同的NGS技术用于聚集同种DNA分子的方式可谓是八仙过海各显神通。比如454测序技术是把DNA分子捕获在固态微球上,然后再把微球分散在不同的微孔里,将每个合成反应限制在独立的微孔中进行(孔内修饰化学发光反应所需的酶和底物)。于是由每条原始DNA分子扩增得到的所有分子都聚集在其所处的微孔里。
Illumina测序技术则与之不同。沿用我前面提到的类比来描述:454技术是在地上画了个大圈,勒令所有举着手电筒的人站在圈内,不能走出圈外;而Illumina技术在这个例子里要显得魔幻一些,是预先在地上均匀地打上木桩(人必须站在木桩上),然后让第一个人A以手拉手的方式召唤出第二个人B,B站在与A相邻的木桩上。B再手拉手召唤出C……于是整体呈现出扎堆的效果。
> 桥式扩增:手牵手,好朋友
众所周知,桥式扩增是illumina测序技术的关键特点之一。
Illumina的测序反应在流动槽(Flow cell)中进行,而每个流动槽包含8条泳道(Lane)。通道表面均匀地修饰了两种寡核苷酸。每次测序前,待测样品中的DNA片段的两端也会被接上两种接头序列,与通道内的寡核苷酸互补。当样品进入通道,每条DNA分子和与之互补的寡核苷酸结合。接着进行DNA复制,在寡核苷酸的基础上形成互补链。然后DNA变性,洗去原先的模板链,只留下互补链。
该互补链从通道上其中一种寡核苷酸延伸而来,是扎根在通道表面上的。而它的另一端,也和通道上的另一种寡核苷酸互补。于是,有趣的地方来了,它会弯曲,“尾部”不动,“头部”则与邻近的寡核苷酸互补结合,像一个人做仰卧推起成桥的动作。然后就以这个“桥”为模板,在第二种寡核苷酸的基础上延伸出DNA分子。
成桥,解桥……如此反复,由于每条DNA分子只能和与之相邻的寡核苷酸“牵手搭桥”,所以PCR扩增时,只会从原始DNA分子一点一点地往外扩散,最终聚集性地扩增出足量的DNA分子,形成簇(Cluster)。这些簇产生的荧光信号足够强,能够被光学检测系统有效地捕捉。
> 短读长:高通量测序反应的必然事件
如前所述,NGS“高通量”的实现离不开待测DNA分子及其荧光信号的聚集。比如在Illumina测序平台上,需要先形成Cluster,而每个Cluster由大量的、一端固定在通道表面上的同序列DNA分子组成。在测序反应中,Cluster的同序列分子将同时与某种碱基的脱氧核苷酸反应,并同时释放出同种颜色的荧光分子。
因此,每个Cluster的荧光信号的强弱非常依赖于其中DNA分子的测序反应的同步性。一旦有一部分分子漏了一拍,产生错误,这些错误将随着读长的延长而逐步累积。当累积到了一定程度,Cluster发出的荧光信号中红的红,黄的黄,绿的绿,难以准确辨别,这个Cluster就会作废。
实际的反应不可能像严谨的计算机程序那样指哪打哪。就如同我前面举的那个例子:那些扎堆的人中,有些人是急性子,有些人是慢性子,有些反应迟钝,有些快人一步。一开始还好好的,说好的举黄色光的手电筒,就齐刷刷放黄光;次数多了,错误就会越来越多。到最后,颜色不一致,乱成一团,那高空中的观察者就会犯迷糊:这到底是什么颜色的光啊?
所以说,如果二代测序采取的是我所说的技术路线,短读长现象就必然发生。
本文转载自微信订阅号“不懂不知”,如有侵权,请联系弘德网删除。