目的 探索9型猪链球菌基因组功能及遗传关系。方法 采用生物信息学方法对1株9型猪链球菌强毒株GD18的全基因组序列进行注释,并与GenBank上的15株猪链球菌进行比较基因组学分析。结果 GD18菌株基因组全长2 067 661 bp,总蛋白1 961个,注释到 COG、GO、KEGG、CAZy和PHl-base数据库的基因分别占总蛋白的77.05%、71.29%、43.91%、4.49%和3.37%。毒力因子分析表明猪链球菌毒力因子的复杂以及并非所有的猪链球菌菌株都有一套通用的毒力因子。耐药基因分析表明GD18含多种类的耐药基因,且存在丰富的外排系统。蛋白预测结果显示GD18具有114个信号肽蛋白和30个分泌蛋白。16个菌株基因组比较分析发现共有的核心基因为 1 244 个,非共有基因共1 685个,特有基因共1 417个。进化分析表明GD18与加拿大分离株89-3576-3亲缘关系最近,且国内菌株基本处在不同分支。结论 对1株9型猪链球菌分离株的全基因组、基因功能、进化关系等进行分析,为9型猪链球菌基因组整体水平的研究奠定基础和提供数据支撑。
In this study, the whole genome sequence of the virulent strain of Streptococcus suis serotype 9 GD18 was annotated through bioinformatics methods, and comparative genomics analysis was performed with 15 strains of S. suis in GenBank. The genome of GD18 is 2 067 661 bp, with 1 961 proteins. The genes annotated in COG, GO, KEGG, CAZy and PHL-Base accounted for 77.05%, 71.29%, 43.91%, 4.49% and 3.37% of GD18 total protein, respectively. Virulence factor analysis indicated that the virulence factors of S. suis were complex, and not all S. suis strains shared a set of common virulence factors. Drug resistance gene analysis revealed that GD18 contains many drug resistance genes and has a rich drug efflux system. GD18 contains 114 signal peptide proteins and 30 secretory proteins. A total of 1 244 core genes, 1 685 dispensable genes and 1 417 specific genes were identified in 16 S. suis strains through comparative genome analysis. Phylogenetic analysis indicated that GD18 was most closely related to the Canadian strain 89-3576-3, and the domestic strains were located in different branches. Therefore, the genetic relationships among S. suis strains are complex, and their evolutionary pathway is diverse in China. This study lays a foundation and provides data support for research on the overall level of the genome of S. suis serotype 9.
猪链球菌(Streptococcus suis)是一种对人兽健康有严重危害的革兰氏阳性病原菌, 可造成猪和人患上败血症、脑膜炎等病, 对畜牧养殖业和人的健康造成很大的威胁[1]。我国于1998年和2005年发生两起人感染猪链球菌聚集性疫情, 造成多人死亡, 近年来常有零星病例报告, 需要引起重视[2, 3, 4]。猪链球菌根据荚膜多糖抗原的不同分为33个血清型, 包括1/2、1-31、33型[5, 6, 7], 2型是迄今为止从猪和人类病例中分离出的最常见的血清型[8, 9]。然而, 在许多欧洲国家, 9型已经成为引起猪侵袭性疾病的重要且流行的血清型, 这种血清型经常从密集饲养的猪群的患病猪分离出来, 流行病学研究表明, 近年来, 我国9型的流行率不断上升[9, 10, 11]。并且已有从野猪、野猫中分离出来的报道[13, 14]。近年来也有猪链球菌9型引起的人类病例的报道[15], 说明这种血清型具有人兽共患特性, 这应该引起我们重视。
基因组技术的使用使得猪链球菌发病机理的研究有了质的飞跃, 以往研究表明猪链球菌种群的基因组存在很大差异, 即使是同一血清型的菌株之间基因型也可能不同, 同时毒力因子也存在差异, 存在较大地理差异[16, 17], 意味着毒力潜力是遗传相关的。尽管9型流行率越来越高, 但是关于9型菌株的数据很少, 有少量的研究报道称并非所有9型菌株都具有相同的毒力潜力[18, 19], 加大对9型猪链球菌的分子水平研究十分必要。本研究测定分离自广东某猪9型猪链球菌强毒株的全基因组序列, 将测序得到的结果与NBCI上的基因组数据库上的数据进行对比分析, 获得全基因组序列注释信息并与NCBI中得到近缘菌株进行比较分析。本研究结果为9型猪链球菌基因组整体水平的研究奠定基础和提供数据支撑。
菌株GD18分离自广东某猪场发病猪的关节液, 鉴定为9型高致病菌株并采用Illumina HiseqTM 完成基因组测序[20]。
将GD18菌株测序得到的基因信息与NCBI上的COG、GO、KEGG、CAZyVFDB、PHI-base、CARD数据库进行比对, 使用SinalP软件预测信号肽、使用ProCamp软件对蛋白进行亚细胞定位, 最终可获得GD18菌株全基因组注释的结果。
根据菌株GD18的基因组序列获取16S rRNA的基因序列, 采用BLAST与NCBI上的16S rRNA数据库进行比对, 选取同源性高的近缘菌株, 并从NCBI中得到近缘菌株的基因组信息, 利用PGAP软件比较GD18与近缘菌株的共有基因和特有基因。进一步对不同的菌株进行比较分析得到基因上的SNPs位点, 以UPGMA聚类方式构建系统发育树。
猪链球菌GD18的基因组大小为2 067 661 bp, GC含量为41.33%。组分分析发现, 基因总数为2 048个, 基因平均长度为893.79 bp, 基因总长度为1 830 482 bp, 基因编码比例率为88.53%。总蛋白数1 961 个, tRNA为45个, rRNA为5个。
2.2.1 COG数据库注释结果 COG数据库是位于NCBI上一个基于同源基因直系关系的数据库, COG将所有编码基因分为25类。COG数据库对比分析结果显示, GD18菌株有1 511个功能基因被划分为20个COG亚类, 占总蛋白的77.05%, 存在最多的是碳水化合物运输和代谢相关基因(10.79%), 其次是用于翻译、核糖体结构和生物发生(10.13%), 氨基酸转运与代谢(8.14%), 转录(7.41%), 复制、重组和修复(6.35%), 细胞壁、膜合成(5.43%), 无机离子转运与代谢(4.24%)相关基因等(图1)。
2.2.2 GO数据库注释结果 GO数据库是一个基因功能的分类体系, 含有分子功能、生物过程、细胞组分3个本体。GD18在GO数据库中注释到1 398个蛋白, 占总蛋白的71.29%。在3个类别的分布:分子功能为19项, 主要体现在催化和结合等; 参与生物过程为13项, 主要体现在代谢过程和细胞过程等; 构成细胞组分为12项, 主要体现在细胞和细胞部分等(图2)。
2.2.3 KEGG数据库注释结果 KEGG数据库是关于生物系统较完善的数据库, 包括基因组、化学信息以及系统功能信息。对预测到的GD18菌株基因预测信息进行KO注释, 结果显示GD18仅有861个基因可以对应, 占总蛋白的43.91%, 主要包括碳水化合物代谢通路、氨基酸代谢通路、膜转运通路等(图3)。
2.2.4 CAZy数据库注释结果 CAZy 数据库是表示碳水化合物活性酶的数据库, 该数据分为按照活性酶的在生物学过程中的作用不同分为5个主要分类和与碳水化合物结合结构域。使用HMMER3将GD18与CAZy数据库进行比对, 38个基因注释为糖苷水解酶、25个基因注释为糖基转移酶、12个基因注释为糖类酯解酶、10个基因注释为碳水化合物结合结构域、2个基因注释为多糖裂解酶、1个基因注释为氧化还原酶, 共注释到88个碳水化合物活性酶基因, 占总基因的4.49%。
2.2.5 PHI-base数据库注释结果 PHI-base是病原与宿主互作数据库, 对药物干预靶基因的研究具有重要的作用, 数据库主要是关于微生物病原与动植物、真菌宿主的相互作用数据。GD18共有66个基因注释到该数据库中, 占总基因的3.37%。将这些基因进行表型分类, 注释为导致毒力降低的基因26个, 对毒力没有影响的基因24个, 导致毒力损失的基因6个, 混合功能的基因6个, 致病效应基因5个, 导致毒力增强的基因4个, 致死因子2个, 抗药性1个, 其中有10个基因注释为2~5个表型。
2.2.6 毒力因子分析 VFDB数据库是一个用于专门研究致病菌的相关的毒力因子的数据库, 分为setA和setB两部分。GD18菌株预测蛋白与VFDB数据比对, 与SetA数据库比对得到毒力因子133个, 与SetB数据库比对得到毒力因子140个, 包括多种结合蛋白、反应调控因子、透明质酸裂解酶前体和荚膜多糖等。对照已报道的70个毒力因子[21, 22, 23, 24, 25, 26, 27, 28], GD18具有66个, 缺乏epf、sly、rgg、nadR。
2.2.7 耐药基因分析 CARD数据库是用于研究药物作用、环境治理的经典耐药性数据库。使用BLAST把基因蛋白序列与CARD数据库进行对比, 后将GD18全基因组序列和其对应的耐药性注释信息结合分析, 注释结果表明GD18包含β -内酰胺类、喹诺酮类、大环内酯类、林可酰胺类、四环素类、氨基糖苷类、磺胺类等多种类型的抗生素耐药基因, 共28个抗生素耐药基因。其作用机制主要药物作用靶位改变、核糖体靶位改变、靶蛋白的保护、产生修饰酶、二氢蝶酸合成酶发生变异等。另外存在多种与外排机制相关的基因, 如假定ABC转运蛋白ATP结合蛋白/MT1014、大环内酯输出ATP结合/渗透酶蛋白MacB、假定的ABC转运蛋白ATP结合蛋白YxlF。
2.2.8 信号肽预测 信号肽蛋白是一种携带新合成的蛋白转移到相应的代谢通路信息的短肽链。运用SignalP软件进行GD18菌株的信号肽蛋白预测, 结果显示GD18具有114个信号肽蛋白, 占总蛋白的5.81%, 大小由12~52个氨基酸组成。
2.2.9 蛋白的亚细胞定位 细胞中的蛋白需要在特定的位置发挥作用, 细胞中蛋白的位置往往与作用位置相同, 通过对蛋白位置的定位可以初步了解蛋白所发挥的作用。运用ProtCamp软件对GD18菌株的蛋白进行亚细胞定位, 结果显示1 098个位于胞浆(55.99%), 414个位于细胞膜(21.11%), 30个位于胞外(1.53%)。
使用GD18D的16srRNA序列与NCBI上的数据库进行比对, 选取同源性高15个近缘菌株, 各菌株基因组基本信息见表1, 基因组大小在1.88~2.35 Mb之间, GC含量基本在41%左右, 基因数在1 813~2 265个之间, 蛋白数在1 709~2 139个之间, tRNA在27~59个之间, rRNA在3~12个之间, 各菌株间表现出较大差异。PGAP软件对16个菌株基因组序列分析结果表明16个菌株共有的核心基因为1 244个, 特有基因24~214个, GD18有特有基因82个(表1), 共有基因占各菌株总基因的58%~73%。16个菌株非共有基因共1 685个, 菌株特有基因共1 417个, COG注释表明共有核心基因以代谢相关基因占优势, 有401个(32%), 而非共有基因和特有基因主要是功能未知等无显著特征的基因, 分别有1 057和1 102个(63%和78%)(表2)。
将上述15株菌株与GD18的全基因组进行比较分析构建系统进化树图, 结果详见图4, 该进化树含有6 个分支, GD18株与加拿大分离株89-3576-3, 丹麦分离株4417和一个国内分离株YS24同处一个分支, 与89-3576-3株亲缘关系最近; 而其它3个国内分离株均属于不同分支(图 4)。
随着现代基因测序技术的进步, 为防治猪链球菌提供了一种全新的思路。针对现有的猪链球菌株研究主要集中在2型, 9型菌株的数据很少的现状, 本研究测定一株9型高致病猪链球菌菌株全基因组序列, 基因组全长为2 067 661 bp, 基因总数为2 048个, 蛋白总数为1 961个。COG结果显示GD18菌株碳水化合物运输和代谢、翻译, 核糖体结构和生物发生、氨基酸转运和代谢等相关基因特别活跃, GO分析显示在分子功能方面大多数基因参与催化、结合和转运, 生物过程方面大多数基因参与代谢过程和细胞过程, KEGG分析显示GD18主要包括碳水化合物代谢通路、氨基酸代谢通路、膜转运通路, 这些重要的功能和通路也许与该菌的致病性、物质转运、胞内环境的建立以及表达调控有重要的联系。CAZy 数据库注释结果表明GD18含有丰富的碳水化合物活性酶, 说明该菌能利用多种糖类, 环境适应性强。另外GD18预测到114个信号肽蛋白, 其长度在12-52个氨基酸之间, 信号肽蛋白可引导蛋白质分泌到细胞外, 通常分泌蛋白可能在细菌致病中起重要作用, 对GD18亚细胞定位显示有30个蛋白位于细胞外, 长度在48-1104个氨基酸之间, 其中26个蛋白长度小于700个氨基酸, 小型蛋白结构一般简单, 会更方便与宿主互作, 但是它们在致病中是否起重要作用, 有待实验验证。同时注释结果也表明有很多基因并没有注释入这些数据库或功能未知, 这些基因有待于进一步的挖掘功能。
VFDB数据库对比结果表明GD18具有丰富的毒力因子, 与SetA数据库比对得到133个, 与SetB数据库比对得到140个。对照已报道的70个毒力因子, GD18具有66个, 缺乏epf、sly、rgg、nadR, 已有研究表明菌株的高毒力与其mrp/epf/sly基因的存在呈正相关[29], 而GD18缺乏其中2种, 但临床表现仍为高致病性菌株, 这表明猪链球菌毒力因子的复杂以及并非所有的猪链球菌菌株都有一套通用的毒力因子。CARD对比结果表明GD18具有7大类, 28个抗生素耐药基因, 其耐药机制多样, 存在多种可能与外排机制相关的基因, 这些外排系统意着示GD18可能处于一个高浓度的抗生素环境, 多种抗生素的使用导致其具备了多种耐药基因。
在GD18与其它15个近缘猪链球菌菌株的比较分析发现猪链球菌不同菌株在基因组大小、基因数、tRNA、rRNA等方面表现出较大差异。PGAP软件对16个菌株基因组序列分析结果表明16 个菌株共有的核心基因为 1 244 个, 共有基因占各菌株总基因的58%~73%, 特有基因24~214个, 说明猪链球菌遗传高度可变和复杂性。共有基因以代谢相关基因占优势, 占比约32%, 体现了菌株的基本生物学特性。而非共有基因和特有基因主要是功能未知等无显著特征的基因, 分别占比约63%和78%, 这些基因也许体现了不同菌株在致病性、耐药性等方面的差异, 值得进一步对比研究。进化分析表明16个菌株分为6个分支, GD18与加拿大分离株89-3576-3亲缘关系最近, 同处一个分支的还有丹麦分离株4417和一个国内分离株YS24, 但其它3个国内分离株均处在不同分支, 这表明国内菌株遗传关系复杂, 且菌株存在国际交流, 进化途径多样。
利益冲突: 无
引用本文格式: 席小燕, 李晓琪, 陈家苑, 等. 1株9型猪链球菌全基因组分析[J]. 中国人兽共患病学报, 2022, 38(8):707-713. DOI:10.3969/j.issn.1002-2694.2022.00.0102
编辑: 王晓欢
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
|
[10] |
|
[11] |
|
[12] |
|
[13] |
|
[14] |
|
[15] |
|
[16] |
|
[17] |
|
[18] |
|
[19] |
|
[20] |
|
[21] |
|
[22] |
|
[23] |
|
[24] |
|
[25] |
|
[26] |
|
[27] |
|
[28] |
|
[29] |
|