做NGS(下一代测序/高通量测序)实验时,我们总盼着测序仪“吐”出的原始数据能直接用——毕竟从样本制备到上机测序,每一步都耗费了时间和经费。但现实是,刚拿到的原始数据里藏着不少“杂质”,直接用来分析只会让结果跑偏。
今天就跟大家聊透NGS数据分析的“第一关”——数据过滤。搞懂这一步,才能让后续的比对、变异检测、差异分析更靠谱~
一 先搞懂:为什么必须做数据过滤?
测序过程会产生多种类型的低质量或干扰性数据,主要包括:
测序仪本身的技术限制:碱基识别时出现错判(比如把A当成T);
实验过程中的污染:样本交叉污染、接头序列残留(建库时连接的接头没去除干净);
低质量序列:测序末端的信号衰减,导致碱基质量值极低,可信度差;
冗余序列:大量重复的reads,会增加后续分析的计算量,还可能干扰定量结果。
如果不先清理,这些问题会放大到下游的每一步:比对率下降、假阳性上升、变异检测灵敏度受损等。因此,拿到 FASTQ 后的第一步,就是做“干净、可用”的数据过滤。
二 重点看:过滤掉的都是哪些“坏数据”?
数据过滤不是“一刀切”,而是有针对性地剔除几类特定的“问题序列”,常见的过滤目标主要有4种:
1. 低质量碱基与低质量reads
每个测序碱基都会有一个质量值用Qhred值表示(简称Q值),其与测序错误率 E的换算关系为:
Qphred = −10 log10 E
Q值越高,说明这个碱基的识别越准确:
Q20:碱基正确的概率≥99%,错误率≤1%;
Q30:碱基正确的概率≥99.9%,错误率≤0.1%(常用的“高质量标准”)。
过滤时,会先扫描每个reads的碱基质量分布:如果reads末端的Q值持续低于阈值(比如Q20),就会截断这部分低质量序列(叫“截尾”);如果截尾后reads的长度太短(比如短于36bp),就直接剔除这个reads;另外,整个reads的平均质量值低于阈值的,也会被过滤掉。
2. 接头污染序列
建库时,为了让DNA片段能结合到测序芯片上,会给片段两端连接特定的“接头序列”。理想情况下,测序只针对目标片段,但实际中难免会测到接头序列——这些接头序列不属于样本本身,必须剔除。
如果不剔除接头,后续比对时,这些“外来序列”可能会错误地比对到基因组上,导致假阳性结果。现在的过滤工具(比如Trimmomatic)能精准识别接头序列,并将其从reads中切除。
3. N含量过高的reads
“N”代表测序仪无法识别的碱基——如果一个reads里N的比例过高(比如超过5%),说明这个reads的可信度极低,后续分析无法利用,直接过滤即可。
4. 冗余重复reads
测序过程中会产生大量完全相同或高度相似的重复reads(比如PCR扩增时的偏好性导致某些序列被过度扩增)。这些重复reads不仅会增加服务器的计算负担,还可能导致基因表达定量偏高、变异检测假阳性升高。
过滤时,会通过去重工具(比如Picard MarkDuplicates)识别并标记这些重复reads,后续分析时忽略它们的影响。
三 实操篇:常用的过滤工具
搞懂了过滤目标,接下来就是“怎么操作”。生信领域有很多成熟的开源工具,不用自己写代码,掌握核心参数就能用,常见的有这几个:
1. Trimmomatic(最常用的通用过滤工具)
支持单端(SE)和双端(PE)测序数据,功能全面,能同时完成接头切除、质量截尾、低质量reads过滤。
2. FastQC
严格来说,FastQC不是过滤工具,而是“过滤前的质检工具”——它能生成详细的质量报告,包括碱基质量分布、接头含量、N含量、重复序列比例等。建议在过滤前后分别运行FastQC:过滤前用于诊断数据问题,指导参数设定;过滤后用于验证过滤效果。
3. Picard MarkDuplicates
主要用于去除PCR重复和测序重复reads,尤其适合全基因组测序(WGS)、全外显子测序(WES)数据。它会通过比对后的坐标信息,识别重复reads并标记,后续分析软件会自动忽略标记的reads。
四 避坑指南:数据过滤的3个关键注意事项
数据过滤看似简单,但参数设置不当,很可能“筛掉有用的数据”或“留下有害的杂质”,这3个坑一定要避开:
1. 不要过度过滤
比如把质量阈值设得过高、最短reads长度设得太长,可能会导致有效数据量大幅减少,尤其是样本本身测序深度不高的情况,会影响后续分析的统计效力。建议根据数据质量和研究目的设置阈值。
2. 双端数据要“同步过滤”
如果是双端测序(PE,即一个DNA片段的两端都测序),过滤时要保证一对reads的完整性:如果其中一条reads被剔除,另一条也要一起剔除,否则会导致后续比对时出现“单条reads”,影响分析结果。Trimmomatic等工具会自动处理双端数据的同步问题,不用手动操作。
3. 保留过滤日志,便于追溯
记录过滤前后的reads数量、质量分布、接头切除比例等信息,便于质量评估、过程追溯与研究复现。
五 总 结
其实数据过滤的逻辑很简单:“去伪存真”——通过针对性剔除低质量、污染、冗余的序列,让数据更“干净”、更可靠。这一步虽然基础,但直接决定了后续分析的成败,千万不能省略或敷衍~