高通量测序技术的发展促进了组学技术在环境微生物研究中的广泛应用,而宏基因组学是目前最为关键和成熟的组学方法。生物信息学在微生物宏基因组学研究中具有至关重要的作用。它贯穿于宏基因组学的数据收集和存储、数据处理和分析等各个阶段,既是宏基因组学推广的最大瓶颈,也是目前宏基因组学研究发展的关键所在。本文主要介绍和归纳了目前在高通量宏基因组测序中常用的生物信息学分析平台及其重要的信息分析工具。未来几年之内,测序成本的下降和测序深度的增加将进一步增大宏基因组学研究在数据存储、数据处理和数据挖掘层面的难度,因此相应生物信息学技术与方法的研究和发展也势在必行。近期内我们应该首先加强基础性分析和存储平台的建设以方便普通环境微生物研究者使用,同时针对目前生物信息分析的瓶颈步骤和关键任务重点突破,逐步发展。
The development of high-throughput sequencing technology promoted the wide applications of omics in the study of environmental microbiology. Among all omics technologies, metagenomics is the most critical and widely used method at present, while bioinformatics plays a very important role in its applications. The bioinformatic technologies were involved in metagenomics data collection, storage, preprocess and analysis. Therefore, it is not only the key of metagenomic development, but also the bottleneck for its implementation. This paper introduces the commonly used bioinformatic pipelines in both shotgun metagenome and amplicon of high-throughput sequencing. In next few years, the decline in cost and the increase in depth of high-throughput sequencing will dramatically elevate the difficulty on the analysis of metagenomic data. It is imperative to pay more and more attentions to develop the bioinformatics tools and analysis pipelines. Nowadays, we should strengthen the construction of fundamental analysis and storage platform to facilitate the data mining for ordinary microbial researchers. Meanwhile, we should develop more bioinformatic algorithms and tools to overcome the current bottleneck in the analysis of metagenomics.
目前,人类社会已进入全新的信息时代,崭新的生物科技时代正在逐步到来。以基因工程技术为代表的新学科、新应用技术的兴起和迅猛发展是这个时期的重要标志之一。生物信息学是20世纪80年代末随着人类基因组计划的启动而兴起的一门新的交叉学科[
环境中微生物群落组成、结构、动态和功能的深入研究,使生物组学技术在环境微生物研究领域得到了迅速发展[
环境微生物组学技术与环境地化参数结合以揭示自然状态下微生物群落的组成和功能
Microbial community composition and function in natural condition were revealed by environmental microbial omics technologies and environmental geochemistry measurement
随着宏基因组学研究的深入,研究者们逐渐意识到生活在土壤、淡水、海水、空气、甚至人体等环境中的微生物,其系统发育的多样性和复杂度远远超过我们以往的认识[
宏基因组学(也称元基因组学),是环境样品中所有微生物基因组集合的研究技术和方法[
目前宏基因组学在环境微生物研究中已经占据了主导地位[
生物信息分析在微生物宏基因组学和其他组学分析中占据十分重要的地位[
宏基因组学大数据分析的各个环节都需要运用信息学和生物信息学技术(
宏基因组研究中信息处理的运用流程
Data process in the study of metagenomics
近年来,宏基因组学作为环境微生物学的前沿工具,被广泛应用于土壤、海洋、河湖水、肠道,以及极端生境如沙漠、苔原、深海底床、酸矿、生物反应器等一系列环境样品的微生物群落组成的分析研究[4,43-46]。其中,以对16S rRNA基因扩增进行检测的测序技术最为常用[
目前针对大规模测序技术,主要是扩增子测序和宏基因组全测序,宏基因组学研究中常用的生物信息学平台如
常用的生物信息学分析平台及描述
Commonly used bioinformatic pipeline and its description
平台及入口 Pipeline and its entrance | 适用范围 Range of application | 重要工具及其功能 Important tools and its functions |
ARB[ | 扩增子测序 (rDNA amplicon sequence) | Sequencher:基因组拼装 PT Server/SINA:序列比对 MARK:构建系统发育树 BLAST:识别相关序列 |
Genboree Microbiome Toolset[ | RDP Classifier:物种聚类 cd-hit, mothur, and uclust:创建OTU表 Chimera Slayer:嵌合体检测 UniFrac:进化分析 | |
Mothur[ | RDP:质量控制 NAST, SINA, and RDP aligners:序列比对 DOTUR, CD-HIT and SONS:序列分配,估算丰富性和多样性 ∫-LIBSHUFF/TreeClimber/UniFrac:群落结构检测 | |
Orione[ | FastX and FASTQC:质量控制 de Bruijn graph, ABySS and SPAdes/SSAKE, Edena:基因组拼装 Glimmer and tRNAscan-SE:基因组注释 | |
PHYLOSHOP[ | HMMER search:基因组预测 ChimericSlayer:嵌合体检测 RDP, NCBI or Hugenholtz:物种分类 Fast UniFrac:细菌群落的组成和结构比较 | |
Visualization and Analysis of Microbial Population Structures (VAMPS)[ | BioPerl scripts:质量控制和物种分类 UCLUST, oligotyping, SLP and CROP:OTU分类 Taxonomy Tables/Heatmap Comparison:群落可视化工具 | |
Quantitative Insights Into Microbial Ecology (QIIME)[ | Denoiser/AmpliconNoise:质量控制 PyNAST/Infernal:序列比对 ChimeraSlayer:嵌合体检测 RDP Classifier/RTAX and USEARCH:物种分类 FastTree/RAxML and pplacer:构建系统发育树 Emperor:比较分析 | |
Ribosomal Database Project (RDP)[ | RDP Aligner:序列比对 RDP Classifier:物种分类 Tree Builder:构建系统发育树 Defined Community Analysis and Chimera Check:群落分析和嵌合体检测 | |
BioBakery https://bitbucket.org/biobakery/biobakery/ wiki/biobakery_wiki | 宏基因组全测序 (shotgun metagenome sequence) | MetaPhlAn:群落组成分析 PICRUSt:基因组功能预测 PhyloPhlAn:构建系统发育树 GraPhlAn:可视化分类和系统发育信息 |
Cloud Virtual Resource (CLoVR)[ | Celera assembler/Velvet:基因组拼装 Glimmer3:基因组预测 BLASTN against RefSeq:物种分类 BLASTX against COG:功能分类 BLASTX against UniREF100 and COG, HMMER search against Pfam and TIGRfam:功能注释 Metastats:比较分析 | |
Community Cyberinfrastructure for Advanced Microbial Ecology Research and Analysis (CAMERA)[ | GIS Query:数据查询 QC Filter and 454 Duplicate Clustering:质量控制 454 Read Assembly:基因组拼装 Metagenomic Data Annotation and Clustering workflow:功能注释和聚类 | |
EBI Metagenomics[ | BiopythonSeqIO package:质量控制 InterProScan 5:功能预测 RDP classifier and Greengenes:分类分析 | |
Galaxy[ | UCSC:基因组注释 Fetch Alignments/Multiple Alignments:序列比对 Plotting tool:数据绘图 Phylogenetic Tree:构建系统发育树 | |
Integrated Microbial Genomes System for Metagenomes (IMG/M)[ | Lucy and DUST:质量控制 CRT and PILER-CR:基因组预测 Pfams, COGs and hmmsearch:功能注释 SNP VISTA:SNP可视化 Abundance Comparison tool:丰富度比较 | |
JCVI Metagenomics Reports (METAREP)[ | SOAP de novo assembler:基因组拼装 JPMAP/HUMAnN:基因组注释 NCBI taxonomy (family level)/KEGG pathways (pathway level):聚类分析 METASTATS:统计学检验 Compare Page: 不同功能和分类水平的多重比较 | |
MEtaGenome ANalyzer (MEGAN)[ | BLAST:序列比较 NCBI taxonomy:物种分类 SEED/KEGG/COG/EGGNOG:功能分析 PCoA:分类和功能分析 | |
MetaGenomics Rapid Annotation using Subsystem (MG-RAST)[ | SolexaQA/DRISEE/Bowtie:质量控制 FragGeneScan:基因组预测 NCBI taxonomy:物种分类 SEED FIFfams:功能分类 LCA:分类注释 SEED:基因组注释 Analysis page:功能分析 | |
MetAMOS[ | FastQC and Bambus 2:质量控制 HMP:基因组拼装 FCP and Bowtie:基因组注释 BLAST:功能注释 Ruffus:后置处理 | |
MOCAT[ | FastX and SolexaQA:质量控制 SOAPaligner/USEARCH:序列比对 SOAPdenovo and BWA:基因组拼装 Prodigal/MetaGeneMark:基因组预测 mOTU:物种分类 | |
Parallel-META[ | POSLX thread, OpenMP, and CUDA:基因组预测和注释 Here Velvet:基因组拼装 GO-term annotation and SEED annotation:功能分析 Krona:分类结构可视化 SVG:功能结构可视化 | |
Rapid Analysis of Multiple Metagenomes with a Clustering and Annotation Pipeline (RAMMCAP)[ | CD-HIT-454:质量控制 CD-HIT-EST:序列聚类 CD-HIT:ORFs聚类 HMMER/RPS-BLAST:ORFs注释 | |
Short Oligonucleotide Analysis Package (SOAP)[ | SOAPaligner/soap2/SOAP3/GPU:序列比对 SOAPsv:扫描结构变异 SOAPdenovo:基因组拼装 | |
Simple Metagenomics Analysis Shell formicrobial communities (Smash Community)[ | Lucy:质量控制 Arachne and Celere:基因组拼装 GeneMark and MetaGene:基因组预测 | |
WebCARMA[ | BLAST and HMMER:物种分类 HMMER variant:功能分类 | |
WebMGA[ | QC-filter and SolexaQA:质量控制 CD-HIT-EST, CD-HIT, H-CD-HIT and CD-HIT-454:序列聚类 HMMER3 and RPS-BLAST:功能注释 FNA-stat and FAA-stat:序列统计 |
从宏基因组技术诞生的那一刻起,信息分析一直是其研究的主要瓶颈[
2010−2019年10年内宏基因组研究中测序经费和时间成本估算
Estimation of sequencing of financial and time cost in metagenomic study in next ten years (2010−2019)
在数据存储和数据处理的层面上,rDNA和扩增序列的分析难度较小,基本可以在个人电脑或者小型服务器上完成,但宏基因组全测序的分析却主要受限于计算技术的发展。宏基因组全序列的分析难度包括:(1) 数据存储的容量。目前Illumina公司HiSeq 2000测序仪一次运行将产生6×109左右序列(100 bp×2端),而一般的分析将产生10倍以上的数据量。因此,一次测序将增加(10−20)×1012的数据量。当样本数量十分庞大的时候,往往还需要结合多次的测序结果进行研究,如此巨大的数据量将会对数据存储设备提出严峻的挑战。(2) 序列的拼接。目前比较成熟的序列拼接算法都是基于一个或少数几个基因组的数据(如Genovo[102],MetaVelvet[
在宏基因组数据挖掘的层面上,目前的难点主要体现在:(1) 物种多样性(taxonomy diversity)、功能多样性(functional diversity)和遗传多样性(genetic diversity)的估算。生物多样性(biodiversity)一直都是生态学研究的重点,而其所属的各类多样性的描述或计算都有相应的方法[
作为环境微生物研究的重要组成部分,微生物宏基因组学中的生物信息分析在我国的开展和研究仍需要大力加强。而这部分所涉及的领域十分广泛,不仅仅包括环境科学、生态学和环境微生物学,而且需要用到大量的生物信息学、统计学、超级计算机技术和比较基因组学,其中很多学科也才刚刚兴起并在迅速发展之中。所以,随着微生物组学技术的普及,在未来数十年之内数据分析的基础平台建设将对我国环境微生物学的发展提供保障,而分析技术本身的研究和发展也大有可为。
首先,近期内应该着重加强基础性分析和存储平台的建设。对于大部分研究者而言,宏基因组的信息分析并不是其研究领域,如何能够快速有效地获得测序后的分析结果,使得分析平台的建设十分必要。而随着宏基因组技术的发展,新的算法和计算平台也在不断出现。有效的整合通用的算法和分析手段,比较和平衡不同算法之间的准确性和速度的矛盾,也需要基础分析平台的建设。此外,数据的整合和保存需要一个统一的存储空间。为了规范环境样本信息,有效存取海量数据信息,提供更多公用的数据源,我们需要建立规范的宏基因组存储平台。分析和存储平台的建设应该结合计算机技术的最新发展趋势,有效利用超级计算技术、云存储技术等新的信息技术,从而为宏基因组技术的广泛应用提供坚实的基础。
其次,针对基础的生物信息学算法研究,应该抓住分析的主要瓶颈步骤,重点突破。例如,复杂生物背景下,超大规模序列的拼接是目前无法逾越的障碍。如何高效地结合实验技术和超算技术的发展,准确、快速地对微生物群落的宏基因组进行有效的拼接和重组,依然有大量的研究工作可以挖掘。此外,新的计算机技术,如图形处理器(GPU)和超算技术的发展也为宏基因组分析提供了更多更快速的解决方案。如何有效的利用这些新的技术和资源,为大型生物信息运算提供通用的算法和接口,也值得进一步发展和研究。
最终,微生物群落宏基因组学的信息分析目标还是要阐明微生物群落组成、结构、功能、以及群落与环境的相互作用,所以如何有效的利用和挖掘微生物宏基因组学的数据来建立分子生态的理论,是微生物生态信息分析的重点任务。在这个方向上,可以借鉴宏观生态学建立起来的生态理论和模型,将其用于宏基因组鉴定出来的微生物群落,并通过改进这些理论和模型来理解和改造微生物群落,从而为预测环境变化提供依据,为我国环境的修复和治理提供理论基础。
目前,微生物群落宏基因组学的研究仍处于初级起步阶段,但是随着实验技术成本的下降和生物信息学技术的日趋成熟,宏基因组学的应用将会更加广泛。此外,宏基因组学、宏转录组学、宏蛋白组学及宏代谢组学的并行应用使我们可以在不同层面上研究微生物的群落结构。这些组学方法在微生物研究中将会有广阔的应用前景,包括整体微生物多样性及其活动规律的揭示,以及对特殊生境下可能发挥重要功能的未知微生物的探索。
:中国科学院战略性先导科技专项B 项目(No. XDB15010302);国家自然科学基金项目(No. 21437005);森林与土壤生态国家重点实验室开放基金项目(No. LFSE2014-02)