16S基因作为mark gene在微生物群落结构的研究中发挥中重要作用, 但是候选的mark gene 肯定不止16S 一种,最新比较火热的功能基因,也可以作为mark gene。利用功能基因作为mark  gene, 相比16S有什么优势呢?

在功能基因的文献中指出了两点:

1) 不同物种的16S基因序列可能完全相同,尤其是在二代测序中,我们通常指扩增16S的部分序列,这样不同物种扩增出来的序列完全相同的概率大大增加,这样不同有效的区分物种,所以说利用16S基因做的species 水平的注释,可信度一般;

2)16S基因在一个物种中会有多拷贝,这样PCR是会有多个扩增产物,这样导致在OTU 定量会引入错误,比如物种A只有1个16S基因,物种B有2个16S基因,在群落中,二者丰度相同,经过相同循环次数的PCR , 理论上最终测序得到的reads中,物种B的reads会是物种A的2倍; 在16S研究中,我们通常使用reads 表征某个OTU的分度,尽管在群落中物种A和B相同,但是由于拷贝数的差异,所以定量的结果,不能正确的反映在群落中二者的丰度比例;丰度定量不准确,对于后续的alpha 和 beta 多样性的分析都会有影响;

之前只是文章中这么一说,对于某个物种16S的拷贝数也没有认真去研究过,今天看到了rrnDB 这个数据库;

这个数据库中收录了16S基因为多拷贝的物种;可以直观的看到16S基因多拷贝的现象;

数据库网址如下:

https://rrndb.umms.med.umich.edu/

点击导航栏的 search 按钮,先看一下数据库中的具体记录

rrnDB数据库简介-16S基因多拷贝数的证据-LMLPHP

先用默认的关键字进行检索,看下检索出来的记录,点击下图的Search 按钮,

rrnDB数据库简介-16S基因多拷贝数的证据-LMLPHP

检索的结果如下:

rrnDB数据库简介-16S基因多拷贝数的证据-LMLPHP

第一列Data source record id 是物种基因组在NCBI中的版本号,Data source organism name 是物种名称,RDP  taxa 是在RDP 数据库中的注释信息,最后一列16S copies 就是在该物种中16S基因的拷贝数;

从检索的结果可以直观的看出,还是有很多的物种存在16S基因多拷贝的现象;

最新更新的RDP Classifier 程序中,考虑了16S基因的多拷贝现象,对于16S基因的多拷贝数问题,通过这个数据库可以更加直观的了解。

05-11 15:15