CHEN Qiaoling, E-mail:
多杀性巴氏杆菌(
通过对HN02菌株的全基因组测序及生物信息学分析,扩充多杀性巴氏杆菌的基因组数据库信息;通过毒力基因鉴定和系统进化树分析,明确该菌株含有的毒力基因和遗传进化关系,为临床预防和诊断提供理论依据。
使用单分子实时测序(Single Molecule Real Time Sequencing,SMRT)技术对Pm HN02菌株进行全基因组测序,利用Illumina测序校正后进行基因功能注释和生物信息学分析。使用PCR鉴定菌株毒力基因,并构建进化树进行分析。
Pm HN02菌株全基因组大小为2 333 292 bp,GC含量为40.15%,预测到的编码基因有2 389个,包含19个rRNA (6个23S rRNA、6个16S rRNA、7个5S rRNA)、62个tRNA基因、5个sRNA;含84个串联重复序列、66个小卫星DNA、2个微卫星DNA、9个基因岛、9个前噬菌体;分别有1 648、2 190和1 917个基因注释在GO、KEGG和COG数据库中,而且大部分富集于Pm的代谢过程;还有85个III型分泌系统效应蛋白、191个表型突变基因、165个毒力因子相关基因。根据分析结果绘制该菌株的全基因组圈图,并将基因组信息提交至NCBI后获得登录号cp037865。PCR鉴定发现该菌株含有
研究完成了A型Pm HN02株的全基因组测序和生物学特性鉴定,揭示了其同国内外Pm分离株的进化关系,为预防Pm疾病流行和探索Pm致病机制提供了参考。
The Gram-negative
We sequenced the whole genome of HN02 and analyzed the bioinformation, thereby supplementing the genome information of Pm. Through identification and phylogenetic analysis, the virulence genes and genetic evolution of the strain were clarified, respectively, which laid a theoretical basis for clinical prevention and diagnosis of related diseases.
The whole genome of HN02 was sequenced by SMRT and corrected by Illumina sequencing, followed by genome annotation and bioinformatics analysis. The virulence genes were identified by PCR and the phylogenetic tree was constructed for analysis.
The whole genome of HN02 was 2 333 292 bp, with GC content of 40.15%. It was predicted to have 2 389 coding genes, including 19 rRNA genes (6 23S rRNA, 6 16S rRNA, and 7 5S rRNA genes), 62 tRNA genes, and 5 sRNA genes, 84 tandem repeats, 66 minisatellite DNAs, 2 microsatellite DNAs, 9 genomic islands, and 9 prophages. A total of 1 648, 2 190, and 1 917 genes were annotated in Gene Ontology (GO), Kyoto Encyclopedia of Genes and Genomes (KEGG), and Cluster of Orthologous Groups of proteins (COG), respectively. Most of them were involved in the metabolic process of Pm. In addition, 85 type III secretion system effector genes, 191 phenotypic mutation genes, 165 virulence factor-related genes, and 1 important secondary metabolism gene cluster were identified. According to the analysis result, a circular map for the genome was plotted, and the genome information was submitted to NCBI to obtain the accession number cp037865. PCR identification showed that the strain had 14 virulence genes such as
The whole-genome sequence and biological characteristics of capsular type A Pm HN02 were elucidated and the evolutionary relationship was revealed, providing a reference for preventing the epidemic of Pm-induced disease and exploring the underlying pathogenic mechanism.
多杀性巴氏杆菌(
遗传操作系统的最新发展和多基因组序列的出现,有助于解释特定病理条件下病原菌与特定宿主的联系,阐明其致病机制。自1995年第一个完整的细菌基因组序列公布以来,基因组测序得到了蓬勃发展。从传统的Sanger测序法到高通量的第二代测序技术,Illumina平台广受科研人员欢迎,可被用于细菌的基因组测序。随着技术的发展,PacBio第三代测序技术于2011年推出,其增加了基因组的测序读取长度,从而提高了完整基因组的组装速度和质量[
本实验室先前从绵羊肺中分离鉴定了一株A型Pm,命名为Pm HN02株。为了进一步探索其致病机理,本研究使用SMRT技术联合Illumina测序平台完成Pm HN02菌株全基因组测序和基因组的组装,通过生物信息学分析软件进行基因功能注释,并使用PCR鉴定了菌株的毒力基因,构建了系统进化树进行分析。
A型多杀性巴氏杆菌HN02株分离于辽宁省朝阳市某羊场内呼吸道感染病死绵羊的肺脏,由本实验室保存[
胰蛋白胨大豆肉汤(Trypticase Soy Broth,TSB)培养基,青岛海博生物技术有限公司;细菌基因组提取试剂盒,天根生化科技(北京)有限公司;NextEra XT DNA文库制备试剂盒,HiSeq PE Rapid Cluster Kit V2,北京诺禾致源科技股份有限公司。电泳仪,北京六一生物科技有限公司;PacBio RS II系统和Illumina HiSeq 1500测序系统,北京诺禾致源科技股份有限公司。
将Pm HN02菌株冻存液以1:100的体积比加入TSB培养基中,37 ℃、180 r/min培养10 h。使用细菌基因组DNA提取试剂盒提取基因组DNA,经琼脂糖凝胶电泳检测和Qubit定量质检通过后,使用PacBio RS II系统和Illumina HiSeq 1500测序系统进行全基因组测序。
提取的Pm HN02菌株基因组DNA通过质检后,合成基因组测序文库。使用NextEra XT DNA文库制备试剂盒制备DNA文库,并在Illumina平台(NextSeq)上进行读长2×150 bp的测序。简单地说,1 ng DNA由NextEra XT转座体在55 ℃下标记5 min,然后进行末端修复、加A尾、接头连接和文库扩增。
DNA文库由Agilent BioAnalyzer和Qubit 2.0系统验证,用于质量控制分析。文库被变性和稀释到最佳浓度,并应用于聚类生成步骤。HiSeq PE Rapid Cluster Kit V2用于在流动细胞上产生群集。使用Illumina HiSeq Rapid SBS Kit V2进行PE151双端测序,平均文库大小为350 bp。
质检通过后,使用PacBio RS II系统进行测序。根据制造商的说明,通过使用协议和试剂的10 kb模板库制备流程,从剪切的基因组DNA中生成10 kb的SMRTbell文库,随后用PacBio平台进行测序。
[
基因组组分预测包括编码基因、重复序列、非编码RNA、基因组岛、前噬菌体。
[
分别使用数据库Gene Ontology (GO)[
使用Pathogen Host Interactions (PHI)数据库[
使用Circos软件[
参考彭忠[
从Pm HN02株全基因组测序结果中找到其16S rRNA基因序列,在NCBI上进行BLAST比对,从中挑选21条不同地区的同源性序列,利用MEGA 7.0.26软件[
将从PacBio和Illumina两者产生的序列数据用于从头组装,经过适配接头的修剪和低质量读数的剔除,获得了Pm的有效数据,然后使用SMART Link中的Arrow软件对组装结果优化,并用Illumina测序数据进行校正,得到了Pm HN02株的全基因组。最后将基因组序列及其注释信息提交至NCBI数据库中,获得登录号cp037865。
Pm HN02株的全基因组序列全长为2 333 292 bp,GC含量为40.15%,分析得到所有编码基因2 389个,所有编码基因的总长度为2 053 785 bp,平均长度为860 bp,编码区总长度占全基因的88.02%;串联重复序列的拷贝数目84个,总长度为5 990 bp,占基因组总长度的0.256 7%;小卫星DNA 66个,微卫星DNA 2个;含有tRNA基因62个,rRNA基因19个(其中23S rRNA基因6个、16S rRNA基因6个、5S rRNA基因7个),sRNA基因5个;基因岛9个;前噬菌体9个,总长度为299 612 bp,平均长度为33 290.29 bp。
将Pm HN02株基因的蛋白序列与
Pm HN02株基因组功能分析汇总
Summary of genome function analysis of the Pm HN02 strain
数据库类型Database type | 基因数量Gene number |
NR | 2 308 |
Swiss-Prot | 1 714 |
KEGG | 2 190 |
COG | 1 917 |
TCDB | 370 |
GO | 1 648 |
PHI | 191 |
VFDB | 165 |
ARDB | 0 |
CARD | 18 |
Secretory protein | 124 |
T3SS | 85 |
CAZY | 74 |
Pm HN02株的全基因组共有2 389个蛋白质编码基因,其中有2 308、2 190、1 917、1 714、1 648个基因分别被NR、KEGG、COG、Swiss-Prot、GO数据库注释,上述是注释基因数最多的数据库。在CARD数据库中注释的基因数目最少为18个,在ARDB数据库中未注释到基因。
在GO功能分析中,生物过程中的细胞过程(Cellular Process)和代谢过程(Metabolic Process)是基因富集程度最高的2个途径,分别富集了913个和930个基因;细胞组成中的细胞(Cell)和细胞部分(Cell Part)是基因富集程度最高的2个途径,均富集了607个基因;分子功能中的结合(Binding)和催化活性(Catalytic Activity)是基因富集程度最高的2个途径,分别富集了754个和839个基因(
Pm HN02基因组的GO功能分类图
GO function classification map of the Pm HNO2 genome
KEGG代谢通路分析时,富集在碳水化合物代谢、膜运输、辅助因子、维生素代谢和氨基酸代谢途径的基因比其他途径多(
Pm HN02基因组的KEGG代谢通路分类图
Classification diagram of KEGG metabolic pathway of the Pm HN02 genome
COG数据库是一种流行的蛋白质功能注释工具,被广泛用于编码蛋白质的功能分类,是新基因组测序常规的描述之一。有1 917个蛋白质编码基因被注释到COG数据库中A−X的23个类别中(
Pm HNO2基因组的COG功能分类
coG function classification diagram of the Pm HN02 genome
NR是一个非冗余的蛋白质数据库,由NCBI创建并维护,其特点在于内容比较全面,同时注释结果中会包含有物种信息,可用于物种分类。将Pm HN02株的基因序列翻译为氨基酸序列后与NR数据库进行比对,有2 308个基因在NR数据库得到注释,其中注释到Pm上的基因数量最多,为2 163个。
TCDB转运蛋白分类数据库是膜转运蛋白包括离子通道的分类系统。TCDB数据库转移系统以5个级别进行分类,第一级统计结果如
Pm HN02基因组的TCDB功能分类图
TCDB function classification diagram of the Pm HN02 genome
共有370个基因注释到TCDB数据库的7个功能分类中,它们分别是:Channels/Pores的37个基因,Electrochemical Potential-Driven Transporters的99个基因,Primary Active Transporters的161个基因,Group Translocators的20个基因,Transmembrane Electron Carriers的14个基因,Accessory Factors Involved in Transport的6个基因,Incompletely Characterized Transport Systems的33个基因。
蛋白质一般由一个或多个功能区构成,这些区通常被称为域。结构域的不同组合方式产生的蛋白质在自然界中各不相同。因此,蛋白结构域的鉴别对分析蛋白质的功能尤其重要。
Pfam数据库有2个组成部分:Pfam-A和Pfam-B,其中Pfam-A经过人工筛选,质量较高。Pm HN02株中有1 640个基因的蛋白序列功能注释到了Pfam数据库。
Swiss-Prot是一个精选的蛋白质序列数据库,包括蛋白质功能、结构、翻译后修饰、变异等描述,Pm HN02株中有1 714个基因的蛋白序列功能注释到了Swiss-Prot数据库。
CAZy[
Pm HN02株中有74个基因注释到CAZy数据库中,其中包含与碳水化合物相关Modules的基因有14个、糖类酯解酶的基因3个、糖苷水解酶的基因22个、糖基转移酶的基因39个,均无多糖裂解酶和氧化还原酶(AAs)基因。
PHI数据库中的每个基因都包含核酸和氨基酸序列及感染宿主过程中预测的蛋白功能的详细描述。Pm HN02株有191个基因注释到PHI数据库中,它们均发生了表型突变,病原体PHI表型突变类型基因数目的统计情况如
Pm HN02基因组的PHI数据库注释结果
PHI database annotation results of the Pm HN02 genome
这191个基因中有13个突变后毒力增加,123个突变后毒力降低,3个突变后致死,16个突变后使菌株丧失致病性,32个突变后不受影响,2个突变成效应子,2个突变后致菌株具有化学耐受性。
VFDB是一个用于研究病原菌、衣原体和支原体的数据库。除了毒力基因的种类信息和基本特征描述外,还提供了毒力基因功能和致病机理的详细描述。用Diamond软件将Pm HN02株基因的氨基酸序列与VFDB数据库进行比对,有165个基因得到注释。其中注释到毒力因子脂寡糖(Lipooligosaccharide,LOS)和荚膜(Capsule)的基因是最多的。
使用ARDB和CARD数据库对Pm HN02菌株的所有基因进行注释,发现Pm HN02株中只有18个基因被注释到CARD数据库,但是无基因注释到ARDB数据库。
从PacBio和Illumina这2个平台产生的序列数据被用于从头组装,以生成Pm HN02参考基因组。根据基因组序列基本信息、基因预测结果、非编码RNA预测结果(sRNA、rRNA、tRNA注释结果)和生物信息学分析结果(GO、KEGG、COG注释结果),利用Circos软件绘制该菌株的全基因组图谱(
Pm HN02的全基因组图谱
Whole genome map of the Pm HN02
Pm HN02株23种毒力基因的PCR鉴定结果如
Pm HN02株23种毒力基因的PCR鉴定
Identification of 23 virulence factor-associated genes of the Pm HN02 strain by PCR
由
从Pm HN02菌株的系统进化树(
Pm HN02菌株基于16S rRNA基因序列构建的系统进化树
Phylogenetic tree of Pm HN02 strain based on 16S rRNA gene sequences
随着测序技术的快速发展,尽管细菌基因组信息的获取变得越来越容易,然而截止到2021年1月29日,NCBI数据库中收录了285个Pm全基因组序列,其中大部分质量偏低,只有少部分是完整的。已收录Pm的物种来源很多,但绵羊源很少[
Pm是一种常见致病菌,主要可以引起动物呼吸道疾病,如慢性上呼吸道炎症、急性肺炎或败血症[
Pm HN02基因组大小为2 333 292 bp,GC含量为40.15%,与其他Pm亚种的基因组相似。Pm HN02株的全基因组共有2 389个蛋白质编码基因,其中有1 648、2 190、1 917个基因分别被GO、KEGG和COG数据库注释。经过分析发现,COG、GO和KEGG的注释结果相似,基因富集程度最高的都在代谢过程,这说明了代谢过程对于维持细菌的生命至关重要[
用Diamond软件将Pm HN02株基因的氨基酸序列与VFDB数据库进行比对,有165个基因得到注释。其中注释到毒力因子脂寡糖和荚膜(Capsule)的基因最多。荚膜由粘性表层组成,是Pm的基本结构成分和致病因子,在感染过程中为细菌分子模仿、抵抗吞噬和免疫逃避提供了一种免疫学机制,以保护细菌免受宿主防御[
本研究通过构建Pm HN02株的16S rRNA基因系统进化树,发现Pm HN02株同中国北京的Pm3株(MH150895.1)处在同一分支,进化关系最近;并与中国新疆、重庆、湖北、武汉,以及韩国、马来西亚、孟加拉国等地的Pm分离株进化关系较近;同苏格兰、丹麦、瑞士、法国、美国等地的Pm分离株进化关系较远,符合疾病的流行规律,为Pm的流行病学调查提供了一定参考。
本研究完成了A型Pm HN02株的全基因组测序和生物学特性鉴定,揭示了其同国内外Pm分离株的进化关系,为预防Pm疾病流行和探索Pm致病机制提供了参考。
Harper M, Boyce JD, Adler B.
Wilkie IW, Harper M, Boyce JD, Adler B.
Harper M, Boyce JD. The myriad properties of
Rhoads A, Au KF. PacBio sequencing and its applications[J]. Genomics, Proteomics & Bioinformatics, 2015, 13(5): 278-289
Cao RY, Zhang ZX, Nie X, Li BB, Huang HF, Yang XJ, Zhu S, Du L, Wang FY. Isolation, identification and phylogenetic analysis of
曹瑞勇, 张振兴, 聂鑫, 李宝宝, 黄海峰, 杨小健, 朱姝, 杜丽, 王凤阳. 多杀性巴氏杆菌的分离鉴定及其系统进化分析[J]. 中国兽医杂志, 2018, 54(10): 55-58, 3
Ardui S, Ameur A, Vermeesch JR, Hestand MS. Single molecule real-time (SMRT) sequencing comes of age: applications and utilities for medical diagnostics[J]. Nucleic Acids Research, 2018, 46(5): 2159-2168
Reiner J, Pisani L, Qiao WQ, Singh R, Yang Y, Shi LS, Khan WA, Sebra R, Cohen N, Babu A, et al. Cytogenomic identification and long-read single molecule real-time (SMRT) sequencing of a
Besemer J, Lomsadze A, Borodovsky M. GeneMarkS: a self-training method for prediction of gene starts in microbial genomes. Implications for finding sequence motifs in regulatory regions[J]. Nucleic Acids Research, 2001, 29(12): 2607-2618
Zhou Y, Liang Y, Lynch KH, Dennis JJ, Wishart DS. PHAST: a fast phage search tool[J]. Nucleic Acids Research, 2011, 39(suppl): W347-W352
Hsiao W, Wan I, Jones SJ, Brinkman FSL. IslandPath: aiding detection of genomic islands in prokaryotes[J]. Bioinformatics, 2003, 19(3): 418-420
Saha S, Bridges S, Magbanua ZV, Peterson DG. Empirical comparison of
Benson G. Tandem repeats finder: a program to analyze DNA sequences[J]. Nucleic Acids Research, 1999, 27(2): 573-580
Lowe TM, Eddy SR. tRNAscan-SE: a program for improved detection of transfer RNA genes in genomic sequence[J]. Nucleic Acids Research, 1997, 25(5): 955-964
Lagesen K, Hallin P, Rødland EA, Stærfeldt HH, Rognes T, Ussery DW. RNAmmer: consistent and rapid annotation of ribosomal RNA genes[J]. Nucleic Acids Research, 2007, 35(9): 3100-3108
Gardner PP, Daub J, Tate JG, Nawrocki EP, Kolbe DL, Lindgreen S, Wilkinson AC, Finn RD, Griffiths-Jones S, Eddy SR, et al. Rfam: updates to the RNA families database[J]. Nucleic Acids Research, 2009, 37(Database): D136-D140
Nawrocki EP, Kolbe DL, Eddy SR. Infernal 1.0: inference of RNA alignments[J]. Bioinformatics, 2009, 25(10): 1335-1337
Ashburner M, Ball CA, Blake JA, Botstein D, Butler H, Michael Cherry J, Davis AP, Dolinski K, Dwight SS, Eppig JT, et al. Gene Ontology: tool for the unification of biology[J]. Nature Genetics, 2000, 25(1): 25-29
Kanehisa M, Goto S, Hattori M, Aoki-Kinoshita KF, Itoh M, Kawashima S, Katayama T, Araki M, Hirakawa M. From genomics to chemical genomics: new developments in KEGG[J]. Nucleic Acids Research, 2006, 34(S1): D354-D357
Galperin MY, Makarova KS, Wolf YI, Koonin EV. Expanded microbial genome coverage and improved protein family annotation in the COG database[J]. Nucleic Acids Research, 2015, 43(D1): D261-D269
Li WZ, Jaroszewski L, Godzik A. Tolerating some redundancy significantly speeds up clustering of large protein databases[J]. Bioinformatics, 2002, 18(1): 77-82
Urban M, Cuzick A, Seager J, Wood V, Rutherford K, Venkatesh SY, De Silva N, Martinez MC, Pedro H, Yates AD, et al. PHI-base: the pathogen-host interactions database[J]. Nucleic Acids Research, 2020, 48(D1): D613-D620
Chen L, Xiong Z, Sun L, Yang J, Jin Q. VFDB 2012 update: toward the genetic diversity and molecular evolution of bacterial virulence factors[J]. Nucleic Acids Research, 2012, 40(D1): D641-D645
Liu B, Pop M. ARDB: antibiotic resistance genes database[J]. Nucleic Acids Research, 2009, 37(Database): D443-D447
Jia BF, Raphenya AR, Alcock B, Waglechner N, Guo PY, Tsang KK, Lago BA, Dave BM, Pereira S, Sharma AN, et al. CARD 2017: expansion and model-centric curation of the comprehensive antibiotic resistance database[J]. Nucleic Acids Research, 2017, 45(D1): D566-D573
Krzywinski M, Schein J, Birol I, Connors J, Gascoyne R, Horsman D, Jones SJ, Marra MA. Circos: an information aesthetic for comparative genomics[J]. Genome Research, 2009, 19(9): 1639-1645
Peng Z. Isolation and whole genome resequencing of
彭忠. 猪多杀性巴氏杆菌的分离鉴定及全基因组重测序[D]. 武汉: 华中农业大学博士学位论文, 2018
Kumar S, Stecher G, Tamura K. MEGA7: molecular evolutionary genetics analysis version 7.0 for bigger datasets[J]. Molecular Biology and Evolution, 2016, 33(7): 1870-1874
Saitou N, Nei M. The neighbor-joining method: a new method for reconstructing phylogenetic trees[J]. Molecular Biology and Evolution, 1987, 4(4): 406-425
Cantarel BL, Coutinho PM, Rancurel C, Bernard T, Lombard V, Henrissat B. The Carbohydrate-Active EnZymes database (CAZy): an expert resource for glycogenomics[J]. Nucleic Acids Research, 2009, 37(S1): D233-D238
Peng Z, Wang XR, Zhou R, Chen HC, Wilson BA, Wu B.
Boyce JD, Adler B. How does
Petruzzi B, Briggs RE, Tatum FM, Swords WE, De Castro C, Molinaro A, Inzana TJ. Capsular polysaccharide interferes with biofilm formation by
Hua RQ, Zhao XX, Cheng AC. Research progress in the lipopolysaccharide of
华瑞其, 赵新新, 程安春. 多杀性巴氏杆菌脂多糖的结构与功能研究进展[J]. 畜牧兽医学报, 2016, 47(10): 1961-1968