生物信息分析:第一期 FASTQ! BAM! VCF! 傻傻分不清楚?

2019-01-11  Biotechsu...

今天给你讲讲数据格式,我们生信猿常觉得自己是格式转换器。生信分析的旅程大致是,接收FASTQ,获得BAM,然后生成VCF。



Q

FASTQ文件是什么?

通常人们会拿着DNA的碎纸片,由碎纸片扫描的图片文件,转化成文本文件就是FASTQ。

FASTQ存的是测序仪产生的原始测序数据:

  • 第一行:以‘@’开头,是这一条序列的名字

  • 第二行:序列,由A,C,G,T和N这五种字母构成,这是我们真正关心的DNA序列,N代表的是测序时那些无法被识别出来的碱基

  • 第三行:固定为‘+’

  • 第四行:测序质量值,它描述的是每个测序碱基的可靠程度,用ASCII码表示

碱基质量值:用来定量描述碱基好坏程度的一个数值。如果测序测得越准确,这个碱基的质量就越高。      

为了格式存储以及处理方便,这个数字被直接转换成了ASCII码,并与第二行的序列一一对应。

生信小白

产生这些小拼图文件之后,这些拼图与盒子上的参考图会有不同吗?


当然会啦,这张图片毕竟只是个参考啦。人与人之间存在许多差异,这些差异解释了为什么有的人容易得某种癌症,有的人对一些药物有反应,而另一些人没有反应。找寻差异的过程也使生信分析变得更加有趣。



Q

BAM文件是什么?

把FASTQ文件比对到参考基因组之后,我们得到SAM或者BAM。BAM就是SAM的二进制文件。SAM是纯文本文件,十分巨大。为解决空间爆满的问题,BWA的开发者设计了一种高效的压缩算法,压缩得到的BAM文件大小差不多只有原来的1/6。

BAM文件分为两个部分:头文件(header)和比对结果(record,有时也叫alignment section)。

头文件:每一行都用‘@’ 符号开头,里面主要包含了版本信息,序列比对的参考序列信息

比对结果:BAM的核心,包含以下几个内容

生信小白


让我们回忆一下:

FASTQ记录的是原始序列和测序质量,BAM记录的是序列比对信息,下面介绍VCF,这是记录变异信息的文件格式。


Q

VCF文件是什么?

VCF文件分为两个部分,第一部分是说明文件,每行均以两个## 符号开头,第二部分是突变信息。

这样我们就可以解释倒数第四行的内容:

20:17330 是一个新发现的由T到A的变异,但质量值较低(QUAL=3),根据说明文件的第十三行,质量值小于10,被标成了‘q10’,在后续分析中可以被过滤掉。

其它行代表什么信息,大家感兴趣的话也可以试着翻译翻译。


欢乐的时光总是过得特别快,今天就讲到这啦,遇到不懂的地方欢迎在留言区讨论。今天的重点我都画出来了:


FASTQ记录原始序列和测序质量,BAM记录序列比对信息,VCF记录变异信息。




生信小白

你忘了比心...


送你一个转运RNA会有好运biubiubiu~

参考文献:

1、李金明.高通量测序技术[M].北京:科学出版社,2018:84-91.

2、Goodwin S , Mcpherson J D , Mccombie W R . Coming of age: ten years of next-generation sequencing technologies[J]. Nature Reviews Genetics, 2016, 17(6):333-351.

3、FASTQ_format:https://en.wikipedia.org/wiki/FASTQ_format

4、SAM / BAM / CRAM - Mapped sequence data formats:https://gatkforums.broadinstitute.org/gatk/discussion/11014/sam-bam-cram-mapped-sequence-data-formats

5、Variant_Call_Format:https://en.wikipedia.org/wiki/Variant_Call_Format


文章来源于: 聚道科技GeneDock


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。如发现有害或侵权内容,请点击这里 或 拨打24小时举报电话:4000070609 与我们联系。

    猜你喜欢
    关闭