二代测序数据分析步骤概览
二代测序(next-generation sequencing, NGS)是一种DNA测序技术,通过对多个小DNA片段进行平行测序来确定基因序列。这种“高通量”技术可大幅提高个人基因组测序的速度(并降低成本)。
NGS数据的处理对于后续应用是NGS工作流程中至关重要的一部分,因为它直接影响数据解释和实验结论。
了解NGS数据分析的基础知识、常用的生物信息学工具以及数据分析流程的一般框架,可以有助于设计实验。下面以Illumina测序平台产生的数据为例,说明NGS数据分析工作流程。
NGS数据分析是一个计算密集型的任务,需要存储、传输和处理非常庞大的数据文件(通常大小为1-3 GB)。虽然有许多现成的工具可用,但很可能需要一定程度的脚本编写和编程技能。Python、Perl、R和Bash脚本是最常见的,它们通常在Linux操作系统以及命令行环境中执行。
NGS数据分析通常涉及三个核心步骤:初级分析、次级分析和终级分析。
初级分析评估原始测序数据的质量,通常由内置于测序仪器中的软件执行。次级分析利用多个生物信息学工具将数据转换为结果,比如序列比对和表达。在终级分析中,对感兴趣的遗传特征、表达或突变进行结论推断。
初级分析
初级分析提供了输入文库的总reads数和质量指标,用于评估测序效率和质量。在Illumina测序中,初级分析的输入是一个原始二进制文件,其中包含在测序运行期间识别的核苷酸碱基。这个文件的扩展名是 .bcl。初级分析的输出是一个文本格式(ASCII)的文件,通常以FASTQ格式呈现。
1.原始数据评估
产量(Yield):在一个运行中获得的碱基reads总数;较低的数字表明加载和/或测序效率不佳。
错误率(Error rate):根据包含在Illumina测序运行中的内部控制而确定的错误reads数量。
Phred质量分数(Phred quality score):每个碱基基于Phred标度被分配一个质量分数,也称为Q分数。Q分数使用方程式Q = -10 log10 P来测量发生错误碱基识别(base call)的概率(P)。在大多数情况下,Q > 30,表示<0.1%的碱基识别错误是可以接受的。
% 对齐(% aligned):对齐的序列百分比是通过使用外源控制(例如PhiX基因组)来衡量引入的错误。
簇密度(Cluster density):用于测序生成克隆簇的密度,根据通过筛选的簇(CFP)或通过筛选的百分比(%PF)进行评估。它是对碱基识别信号纯度水平的衡量,>80% PF被认为是最佳的聚类。
2.Demultiplexing
由于可以同时对多个文库样品进行测序(即多重复合),它们在初级分析过程中通过索引reads进行识别和分离。Demultiplexing导致多个FASTQ文件,每个文件对应一个唯一的样本。Demultiplexing的文件包含读取名称、流式细胞位置等信息,用于样本识别。
次级分析
Demultiplexing后的FASTQ文件在次级分析中用于逐个处理每个样本。包括以下步骤:
步骤 | 目的 |
清理 | 从数据中删除低质量序列reads。输出为“清理过的”FASTQ文件。 |
比对 | 将每个碱基识别与感兴趣的生物体的基因组(或RNA转录组)中的相应位置进行匹配或映射。输出为二进制比对映射(BAM)文件。 |
突变识别 | 从BAM文件中鉴定(或识别)不与感兴趣的参考基因组匹配的突变、特征和/或其他异常。输出为VCF格式的文本制表文件。 |
基因表达分析 | 包括基因计数和(差异)表达数据,没有标准文件格式。大多数工具输出以制表符分隔的格式(如TSV文件),其中每列表示样本、基因、引物ID、原始计数、标准化计数等。 |
终极分析
终极分析可能是NGS数据分析工作流程中最主观的步骤。这一步包括基因和转录本的注释;对测序数据的解释;以及对信号通路、蛋白质和表型突变效应的预测。因此,实验假设(例如,假设哪些突变和/或遗传特征是感兴趣的)、所获数据的统计置信度以及研究基因和突变的数据库的可用性和质量都会影响该分析。
1.突变、基因和转录本注释
针对正在研究的生物体,可能有数据库可用于注释VCF文件中的突变。还有一些关于已知和预测转录本以及常见SNP的数据库。Ensembl就是一个例子,它为多种生物提供基本转录本信息以及对蛋白质突变效应的预测。Ensembl可以作为在线工具,也可以作为一个可直接集成到数据分析流程中的下载程序。
对RNA转录本进行注释通常更具挑战性,因为同一基因组序列可能来源于多个转录本(例如编码、非编码、不同的起始/终止位点、剪接变体)。在某些情况下,测序的文库片段可能无法覆盖转录本的所有外显子。
在报告突变或序列变异时,清楚和一致地注释变异的核苷酸位置和性质至关重要。用于识别和记录变异的一个被广泛接受的建议是人类基因组变异学会(HGVS)提出的命名规范。
在鉴定后,应根据以下因素对突变和其他变异进行优先考虑:
突变调用的有效性或置信度
突变或遗传特征对研究目标的重要性
突变的潜在影响
在准备最终报告时,一个常见的建议是对突变进行排序或分类,以指导根据测序数据采取适当的操作。此外,还应参考文献中报告的排序流程,因为选择的方法取决于感兴趣的遗传特征和表型类型,以及NGS报告所预期的情况。
2.差异表达
以RNA-Seq 为例,终极分析通常包括对从次级分析中确定的标准化表达指标进行高级统计分析的可视化。诸如 Cufflinks 等工具用于比较多个文库中的基因表达情况。不同的模型可能被应用来检测系统偏差,例如来自高表达基因的偏斜数据。不同的概率分布,比如泊松分布与二项分布,可能被应用来量化可重复性和置信水平。
参考资料:NGS Data Analysis for Illumina Platform—Overview and Workflow
本文转载自:生物信息技术,如有侵权,请联系弘德网删除。