gather 用法

gather 用法

背景

在基因组分析领域,我们经常需要合并VCF文件,这是处理基因型数据的常见操作。

关于VCF文件

VCF文件,即变异调用格式文件,主要记录样本的基因型信息。除此之外,它还包含关于这些基因型来源的详细信息。这类文件在基因组分析中占据重要地位。

文件的上下游关系

VCF文件的上游文件是BAM文件,它主要记录的是Reads与参考基因组的比对信息;再上游则是FASTQ测序数据以及物种的参考基因组。

不同类型的VCF文件

我们需要了解VCF文件的多种类型,如单样本VCF、多样本VCF,普通VCF(只记录变异,未测到的、野生型的都不记录)以及GVCF文件(野生型的、变异的都记录,未测到的不记录)。在处理这些文件时,方法和工具可能会有所不同。

合并VCF文件的注意事项

合并VCF文件是常见的操作,有时涉及多个样本、个体或病例的合并,有时则是不同染色体区域的VCF合并。这些不同的场景可能需要使用不同的软件、程序和算法,操作时需要非常小心和谨慎。

合并GVCF文件的操作

对于GVCF文件的合并,我们可以使用GATK的CombineGVCFs和GenotypeGVCFs两个程序。这两个程序是一套组合,不能单独使用。合并时需要注意样本的数量、内存的使用等问题。当样本很多、数据量较大时,CombineGVCF程序会消耗大量内存,此时可以尝试通过限制内存或使用GenomicsDB来替代这两个程序,处理多个样本的GVCF文件。

合并不同染色体区域的VCF文件

对于不同染色体区域的VCF文件合并,我们可以使用MergeVcfs程序。这个程序主要用于合并样本相同、位点独立的VCF文件,如同一个或一组样本的不同染色体的结果。与CombineGVCFs不同,MergeVcfs不做gVCF block的计算,并且会检测两个VCF文件里的样本名是否相互匹配。在使用MergeVcfs时,需要注意其特点,避免误用。除了MergeVcfs,还有vcf-concat和bcftools concat等工具可以完成类似的操作。

合并普通VCF文件

对于普通VCF文件的合并,我们可以使用vcf-merge和bcftools等工具。这些工具在合并时会重新计算一些指标的值,如AC、AN等。在合并分型质量时,不同的工具可能会采取不同的策略,如取平均值、最大值或最小值。

合并VCF文件需要根据文件类型、场景选择合适的工具和方法。在处理基因组数据时,建议优先考虑使用GATK的工具,其次是bcftools和vcftools等其他工具。在操作时要注意文件的上下游关系、工具的特点和使用方法,以确保流程的兼容性和流畅性。


gather 用法