留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于RNA-Seq高通量测序技术的大口黑鲈转录组分析

黄勇 龚望宝 陈海刚 熊建利 孙西红

引用本文:
Citation:

基于RNA-Seq高通量测序技术的大口黑鲈转录组分析

    作者简介: 黄 勇(1979—),男,博士,副教授,从事水产经济动物非编码RNA调控研究。E-mail: huangyong1979111@126.com;
  • 中图分类号: S 917.4

Sequencing and bioinformatic analysis for transcriptome of Micropterus salmoides based on RNA-seq

  • CLC number: S 917.4

  • 摘要: 文章以大口黑鲈(Micropterus salmoides)组织作为研究对象,利用RNA-seq技术进行转录本测序和数据分析,经拼接组装,最终获得35 659条unigenes,序列平均长度738 bp,序列长度中位数 (N50)为1 052 bp。另外从长度分布与GC含量等方面对unigenes进行评估,数据显示测序质量好、可信度高。使用6大数据库 (KOG、Nr、Pfam、Swiss-Prot、GO和KEGG) 注释大口黑鲈转录组unigenes,分别对应有15 832、21 279、14 524、16 973、15 024和11 185条unigenes获得注释。其中,5 617条unigenes在以上所有数据库中同时注释成功,17 253条unigenes至少被一个数据库注释。KEGG分析结果显示,获得注释的11 185条unigenes被划分到267个代谢通路中,参与信号转导通路的unigenes数量最多,共有1 349条(12.06%)。另外还检测到4 030个微卫星 (SSR)位点。通过对大口黑鲈转录组测序,获得了大量的转录组信息,为大口黑鲈的功能基因克隆、基因组学、遗传多样性分析、分子标记开发及遗传改良等研究奠定了基础。
  • 图 1  Unigenes GC含量分布

    Figure 1.  GC content distribution of unigenes

    图 2  转录组transcript和unigenes长度分布

    Figure 2.  Length distribution of assembled transcripts and unigenes of transcriptome

    图 3  Unigenes GO功能注释

    Figure 3.  GO functional annotation of unigenes

    图 4  Unigenes的KOG注释

    Figure 4.  KOG annotation of unigenes

    图 5  Unigenes的KEGG注释

    Figure 5.  KEGG annotation of unigenes

    表 1  转录组数据拼接结果统计

    Table 1.  Assembly result of transcriptome data

    序列种类
    category
    总数
    total number
    N50长度/bp
    N50 length
    总长度/bp
    total length
    最大长度/bp
    maximum length
    中等长度/bp
    median length
    最小长度/bp
    minimum length
    平均长度/bp
    average length
    transcript 42 264 1 331 36 549 208 35 516 522 201 864
    unigene 35 659 1 052 26 340 493 35 516 472 201 738
     注:N50表示将转录本从长到短排序,依次累加碱基数,当累计碱基数达到转录本总碱基数的50%时的转录本的长度  Note: N50 of transcript or unigenes was calculated by ordering all sequences, then adding the lengths from longest to shortest until the summed length exceeded 50% of the total length of all sequences.
    下载: 导出CSV
  • [1] LI Y, ZHOU Z, TIAN M, et al. Exploring single nucleotide polymorphism (SNP), microsatellite (SSR) and differentially expressed genes in the jellyfish (Rhopilema esculentum) by transcriptome sequencing[J]. Mar Genom, 2017, 34: 31-37 doi: 10.1016/j.margen.2017.01.007
    [2] CARRUTHERS M, YURCHENKO A A, AUGLEY J J, et al. De novo transcriptome assembly, annotation and comparison of four ecological and evolutionary model salmonid fish species[J]. BMC Genom, 2018, 19(1): 32 doi: 10.1186/s12864-017-4379-x
    [3] JORGE P H, MASTROCHIRCO F A, HATA M E, et al. Genetic characterization of the fish Piaractus brachypomus by microsatellites derived from transcriptome sequencing[J]. Front Genet, 2018, 9: 46 doi: 10.3389/fgene.2018.00046
    [4] 罗辉, 叶华, 肖世俊, 等. 转录组学技术在水产动物研究中的运用[J]. 水产学报, 2015, 39(4): 598-607
    [5] CUI J, XU J, ZHANG S, et al. Transcriptional profiling reveals differential gene expression of Amur ide (Leuciscus waleckii) during spawning migration[J]. Int J Mol Sci, 2015, 16(6): 13959-13972
    [6] 邱忠营, 刘菲, 张克瑶, 等. 疣蝗转录组分析[J]. 基因组学与应用生物学, 2016, 35(8): 1989-1998
    [7] SUDHAGAR A, KUMAR G, EL-MATBOULI M. Transcriptome analysis based on RNA-Seq in understanding pathogenic mechanisms of diseases and the immune system of fish: a comprehensive review[J]. Int J Mol Sci, 2018, 19(1): 1-19
    [8] CAO S, ZHU L, NIE H, et al. De novo assembly, gene annotation, and marker development using Illumina paired-end transcriptome sequencing in the Crassadoma gigantea[J]. Gene, 2018, 658: 54-62 doi: 10.1016/j.gene.2018.03.019
    [9] JIA Z, WANG Q, WU K, et al. De novo transcriptome sequencing and comparative analysis to discover genes involved in ovarian maturity in Strongylocentrotus nudus[J]. Comp Biochem Physiol D, 2017, 23: 27-38
    [10] LU T, SUN Y, MA Q, et al. De novo transcriptomic analysis and development of EST-SSR markers in the Siberian tiger (Panthera tigris altaica)[J]. Mol Genet Genom, 2016, 291(6): 2145-2157 doi: 10.1007/s00438-016-1246-4
    [11] RAI R, CHAUHAN S K, SINGH V V, et al. RNA-seq analysis reveals unique transcriptome signatures in systemic lupus erythematosus patients with distinct autoantibody specificities[J]. PLoS One, 2016, 11(11): e0166312 doi: 10.1371/journal.pone.0166312
    [12] LI S, SHEN L, SUN L, et al. Small RNA-Seq analysis reveals microRNA-regulation of the Imd pathway during Escherichia coli infection in Drosophila[J]. Dev Comp Immunol, 2017, 70: 80-87 doi: 10.1016/j.dci.2017.01.008
    [13] SALEM M, REXROAD C E, WANG J N, et al. Characterization of the rainbow trout transcriptome using Sanger and 454-pyrosequencing approaches[J]. BMC Genomics, 2010, 11: 564 doi: 10.1186/1471-2164-11-564
    [14] COPPE A, PUJOLAR J M, MAES G E, et al. Sequencing, de novo annotation and analysis of the first Anguilla anguilla transcriptome: EeelBase opens new perspectives for the study of the critically endangered european eel[J]. BMC Genomics, 2010, 11: 635 doi: 10.1186/1471-2164-11-635
    [15] PEREIRO P, BALSEIRO P, ROMERO A, et al. High-throughput sequence analysis of turbot (Scophthalmus maximus) transcriptome using 454-pyrosequencing for the discovery of antiviral immune genes[J]. PLoS One, 2012, 7(5): e35369 doi: 10.1371/journal.pone.0035369
    [16] 赵文, 高峰英, 石振广. 达氏鳇鱼肌肉组织转录组测序与功能分析[J]. 水产学报, 2014, 38(9): 1255-1262
    [17] MU Y N, DING F, CUI P, et al. Transcriptome and expression profiling analysis revealed changes of multiple signaling pathways involved in immunity in the large yellow croaker during Aeromonas hydrophila infection[J]. BMC Genom, 2010, 11: 506 doi: 10.1186/1471-2164-11-506
    [18] WANG R J, SUN L Y, BAO L S, et al. Bulk segregant RNA-seq reveals expression and positional candidate genes and allele-specific expression for disease resistance against enteric septicemia of catfish[J]. BMC Genom, 2013, 14: 929 doi: 10.1186/1471-2164-14-929
    [19] SUTHERLAND B J, KOCZKA K W, YASUIKE M, et al. Comparative transcriptomics of Atlantic Salmo salar, chum Oncorhynchus keta and pink salmon O. gorbuscha during infections with salmon lice Lepeophtheirus salmonis[J]. BMC Genom, 2014, 15(1): 200 doi: 10.1186/1471-2164-15-200
    [20] DANG Y, XU X, SHEN Y, et al. Transcriptome analysis of the innate immunity-related complement system in spleen tissue of Ctenopharyngodon idella infected with Aeromonas hydrophila[J]. PLoS One, 2016, 11(7): e0157413 doi: 10.1371/journal.pone.0157413
    [21] 赵刚, 龚全, 刘亚, 等. 基于Illumina高通量测序的岩原鲤转录组分析[J]. 西南农业学报, 2016, 29(7): 1743-1749
    [22] 许建, 赵建, 徐礼鸣, 等. 基于RNA-Seq技术的鲮转录组分析[J]. 大连海洋大学学报, 2014, 29(6): 556-560 doi: 10.3969/J.ISSN.2095-1388.2014.06.003
    [23] 全迎春, 马冬梅, 白俊杰, 等. 大口黑鲈转录组SNPs筛选及其与生长的关联分析[J]. 水生生物学报, 2016, 11(40): 294-300
  • [1] 李胜杰樊佳佳姜鹏白俊杰孙建国吴建开费志平 . 大口黑鲈HSC70-1基因多态性及其双倍型与生长性状的关联分析. 南方水产科学, 2018, 14(6): 74-80. doi: 10.12131/20180086
    [2] 张凯李志斐谢骏余德光王广军龚望宝郁二蒙田晶晶 . 生态基对大口黑鲈池塘养殖系统水质及能量收支的影响研究. 南方水产科学, 2018, 14(5): 53-59. doi: 10.3969/j.issn.2095-0780.2018.05.007
    [3] 孙成飞谢汶峰胡婕董浚键田园园吴灶和叶星 . 大口黑鲈3个养殖群体的遗传多样性分析. 南方水产科学, 2019, 15(2): 1-8. doi: 10.12131/20180203
    [4] 谢一荣吴锐全谢骏叶富良陈刚王广军关胜军 . 维生素C对大口黑鲈生长与非特异性免疫的影响. 南方水产科学, 2006, 2(3): 40-45.
    [5] 王文豪董宏标孙永旭曹明段亚飞李华刘青松张家松 . MS-222和丁香酚在大口黑鲈幼鱼模拟运输中的麻醉效果. 南方水产科学, 2018, 14(6): 52-58. doi: 10.12131/20180100
    [6] 关胜军吴锐全谢骏王广军 . 饥饿对大口黑鲈消化器官、蛋白酶与淀粉酶活力的影响. 南方水产科学, 2007, 3(2): 25-29.
    [7] 魏涯钱茜茜吴燕燕杨贤庆赵永强黄卉 . 栅栏技术在淡腌半干鲈鱼加工工艺中的应用. 南方水产科学, 2017, 13(2): 109-120. doi: 10.3969/j.issn.2095-0780.2017.02.014
    [8] 蒋依依李安兴 . 鰤诺卡菌特异性PCR快速检测方法的建立. 南方水产科学, 2011, 7(6): 47-51. doi: 10.3969/j.issn.2095-0780.2011.06.008
    [9] 徐田军刘楚吾刘丽吴勇 . 金焰笛鲷rDNA基因转录间隔区ITS-1序列分析. 南方水产科学, 2006, 2(5): 61-64.
    [10] 范武江王晓清杨品红谢春华 . 鳙鱼不同组织基因组DNA提取方法的探讨. 南方水产科学, 2007, 3(1): 44-47.
    [11] 夏军红朱彩艳苏天凤周发林江世贵 . 斑节对虾基因组微卫星分离及其序列特征研究. 南方水产科学, 2006, 2(6): 1-7.
    [12] 黄晟姜敬哲王江勇许新 . 基于病毒宏基因组技术侦测牡蛎体内病毒. 南方水产科学, 2017, 13(5): 39-46. doi: 10.3969/j.issn.2095-0780.2017.05.006
    [13] 曹款郑娇王志勇刘贤德蔡明夷 . 黄姑鱼基因组大小和染色体物理长度的测定. 南方水产科学, 2015, 11(4): 65-70. doi: 10.3969/j.issn.2095-0780.2015.04.010
    [14] 吴勉之杨丽诗周发林黄建华姜松杨其彬江世贵 . 斑节对虾2种高血糖激素家族基因的基因组序列分析和表达研究. 南方水产科学, 2018, 14(4): 27-36. doi: 10.3969/j.issn.2095-0780.2018.04.004
    [15] 刘志刚可小丽卢迈新方伟王淼朱华平高风英曹建萌 . 罗非鱼无乳链球菌强毒株基因组表达文库的构建及鉴定. 南方水产科学, 2015, 11(6): 34-40. doi: 10.3969/j.issn.2095-0780.2015.06.005
    [16] 李莉好喻达辉 . 基因组微卫星位点的分离方法及其在水产动物中的应用. 南方水产科学, 2006, 2(5): 74-80.
    [17] 区又君李加儿吴勇刘楚吾 . 驼背鲈线粒体细胞色素b基因的序列分析. 南方水产科学, 2008, 4(5): 51-54.
    [18] 李富祥王鹏飞闫路路邱丽华 . 花鲈irak4基因cDNA的克隆与表达分析. 南方水产科学, 2018, 14(5): 70-79. doi: 10.3969/j.issn.2095-0780.2018.05.009
    [19] 杨喜书章群余帆洋吕金磊底晓丹邵伟军黄镇宇卢丽锋 . 华南6水系与澜沧江-湄公河攀鲈线粒体ND2基因的遗传多样性分析. 南方水产科学, 2017, 13(3): 43-50. doi: 10.3969/j.issn.2095-0780.2017.03.006
    [20] 王信超孙敬敬范美华武梅石戈王日昕廖智 . 厚壳贻贝血细胞颗粒的蛋白质组学分析. 南方水产科学, 2012, 8(2): 7-14. doi: 10.3969/j.issn.2095-0780.2012.02.002
  • 加载中
图(5)表(1)
计量
  • 文章访问数:  356
  • HTML全文浏览量:  133
  • PDF下载量:  8
  • 被引次数: 0
出版历程
  • 收稿日期:  2018-04-10
  • 录用日期:  2018-06-15
  • 网络出版日期:  2018-12-05
  • 刊出日期:  2019-02-01

基于RNA-Seq高通量测序技术的大口黑鲈转录组分析

    作者简介:黄 勇(1979—),男,博士,副教授,从事水产经济动物非编码RNA调控研究。E-mail: huangyong1979111@126.com
  • 1. 河南科技大学动物科技学院,河南 洛阳 471023
  • 2. 中国水产科学研究院珠江水产研究所,广东 广州 510380
  • 3. 中国水产科学研究院南海水产研究所,广东省渔业生态环境重点实验室,广东 广州 510380

摘要: 文章以大口黑鲈(Micropterus salmoides)组织作为研究对象,利用RNA-seq技术进行转录本测序和数据分析,经拼接组装,最终获得35 659条unigenes,序列平均长度738 bp,序列长度中位数 (N50)为1 052 bp。另外从长度分布与GC含量等方面对unigenes进行评估,数据显示测序质量好、可信度高。使用6大数据库 (KOG、Nr、Pfam、Swiss-Prot、GO和KEGG) 注释大口黑鲈转录组unigenes,分别对应有15 832、21 279、14 524、16 973、15 024和11 185条unigenes获得注释。其中,5 617条unigenes在以上所有数据库中同时注释成功,17 253条unigenes至少被一个数据库注释。KEGG分析结果显示,获得注释的11 185条unigenes被划分到267个代谢通路中,参与信号转导通路的unigenes数量最多,共有1 349条(12.06%)。另外还检测到4 030个微卫星 (SSR)位点。通过对大口黑鲈转录组测序,获得了大量的转录组信息,为大口黑鲈的功能基因克隆、基因组学、遗传多样性分析、分子标记开发及遗传改良等研究奠定了基础。

English Abstract

  • 大口黑鲈(Micropterus salmoides)俗名加州鲈,原产于北美洲的密西西比河水系,属于鲈形目、太阳鱼科、黑鲈属,具有生长迅速、抗病力强、肉质鲜美、耐低温和易捕捞等特点,是重要的淡水名特优养殖肉食性鱼类之一。从20世纪80年代初引种到广东省,现在全国大部分水产养殖地区均有养殖。但20多年来,由于种质的提纯复壮工作严重滞后,使得大口黑鲈养殖群体遗传多样性降低,导致出现种质严重退化的现象,降低了生产性能。

    高通量RNA测序技术即RNA-seq技术,能够在没有该物种完整基因组序列的前提下,准确获取特定组织在某一状态下转录组基因的全面信息,完整记录该条件下基因表达水平、生物学过程的分子机制以及遗传标记信息等[1-7]。当前大口黑鲈基因组序列未知,遗传背景尚不清楚,限制了对大口黑鲈相关功能基因(如与生长、繁殖和抗病等重要经济性状相关的基因)的挖掘;也造成其基因组学研究的困难。因此,丰富大口黑鲈转录组信息具有重要的科学研究价值。

    鉴于此,本研究利用RNA-Seq测序技术开展大口黑鲈组织的高通量转录组测序,通过对获得的转录本数据进行拼接与组装、基因功能注释以及微卫星 (SSR)位点挖掘等研究,获得更多的大口黑鲈转录本和更为全面的转录组信息,以期为大口黑鲈重要功能基因的发掘、相关基因克隆与表达和品种改良等问题奠定理论基础。

    • 实验材料为体表无伤健康的大口黑鲈3尾,体质量500~700 g。均采集自中国水产科学研究院珠江水产研究所养殖基地。

    • 取样于2016年5月13日上午10时进行,分别取大口黑鲈脾脏、肌肉、肾脏、肝脏、心脏、胃和性腺组织,取样规格100 mg,于– 80 ℃超低温冰箱中保存备用。

    • 将上述大口黑鲈组织样品分别进行总RNA抽提,按照Invitrogen公司的Trizol Reagent试剂说明书方法进行操作。样品符合转录组RNA检测标准:RNA总量≥10 μg,OD260/280为1.8~2.1,28S∶18S≥1.5∶1.0,RIN (RNA integrity number)≥8.0。通过1.2%琼脂糖凝胶电泳和Nanodrop-2000核酸蛋白测定仪检测总RNA的完整性和纯度质量,以保证使用合格的样品进行转录组测序。随后将检测合格的RNA组织样品各取10 μL混合为一个样品,准备后续测序分析。

    • 利用Oligo (dT)磁珠和磁分离器分离并纯化出mRNA,将mRNA打断为片段,通过RT-PCR扩增富集得到大口黑鲈转录组cDNA文库,最后将构建好的文库进行高通量测序。测序部分由联川生物科技有限公司(杭州)协助完成,并对所获得的序列进行拼接组装及SSR分析。最后将组装得到的大口黑鲈转录本数据与6个公共数据库Swiss-Prot (Swiss Prot protein database)、Nr (non-redundant protein sequences)、KEGG (Kyoto Encyclopedia of Genes and Genomes)、KOG (Eukaryotic Ortholog Groups)、Pfam (protein families database)和GO (Gene Ontology)进行Blast比对。选择阀值条件为E value<1e−10,通过序列相似性进行功能注释。

    • 大口黑鲈混合组织的RNA样本具有完整清晰的28S、18S和5S带型,OD260/280值为2.04,28S∶18S值为1.8,RIN值为8.5,说明所得到的RNA质量较好,符合后续转录组测序要求。

    • 采用Illumina Hiseq 2500测序平台对大口黑鲈组织进行转录组测序。对获得的测序数据进行统计,共产生42 415 596条原始读序(reads),总碱基数为6.36 G。序列质量评估显示,碱基Q20 (质量不低于20的碱基)为95.33%,Q30 (质量不低于30的碱基)为90.47%,GC含量平均值为48.86%,其中GC含量过高(大于80%)或过低(小于20%)的unigenes不存在,GC含量基本呈正态布(图1),表明测序碱基组成情况良好,测序结果质量较高,能用于后续数据分析。

      图  1  Unigenes GC含量分布

      Figure 1.  GC content distribution of unigenes

    • 经过De novo拼接后,获得42 264条transcripts,序列信息达到36 549 208 bp,其序列长度中位数(N50)的片段长度达到了1 331 bp,平均长度为864 bp。在transcripts数据基础上,经trinity软件对序列进行组装,最终获得35 659条unigenes,序列信息达到26 340 493 bp,序列大小201~35 516 bp,平均长度为738 bp,N50为1 052 bp (表1)。其中长度200~500 bp的transcripts有20 207条,500~1 000 bp的11 114条,1 000~2 000 bp的7 110条,≥2 000 bp的3 833条;200~500 bp的unigenes有18 863条,500~1 000 bp的9 445条,1 000~2 000 bp的5 141条,≥2 000 bp的2 210条(图2),以上这些测序结果说明数据组装质量较高。通过GENScan软件预测unigenes编码区,有17 270条序列可被编码,占全部unigenes的48.43%。

      序列种类
      category
      总数
      total number
      N50长度/bp
      N50 length
      总长度/bp
      total length
      最大长度/bp
      maximum length
      中等长度/bp
      median length
      最小长度/bp
      minimum length
      平均长度/bp
      average length
      transcript 42 264 1 331 36 549 208 35 516 522 201 864
      unigene 35 659 1 052 26 340 493 35 516 472 201 738
       注:N50表示将转录本从长到短排序,依次累加碱基数,当累计碱基数达到转录本总碱基数的50%时的转录本的长度  Note: N50 of transcript or unigenes was calculated by ordering all sequences, then adding the lengths from longest to shortest until the summed length exceeded 50% of the total length of all sequences.

      表 1  转录组数据拼接结果统计

      Table 1.  Assembly result of transcriptome data

      图  2  转录组transcript和unigenes长度分布

      Figure 2.  Length distribution of assembled transcripts and unigenes of transcriptome

    • 利用MISA软件对35 659条unigenes进行SSR位点搜索,共检测到含有SSR位点的序列294条,共鉴定4 030个SSR位点。SSR类型较为丰富,单核苷酸至六核苷酸重复类型均有检测到。其中出现频率最高的SSR类型为二核苷酸(2 131个);其次为三核苷酸(1 009个);单核苷酸SSR位点有764个;四和五核苷酸SSR位点的数量相对较少,分别有77和30个;六核苷酸SSR位点的数量最少(19个)。其中单核苷酸SSR的重复类型主要为A和T;二核苷酸重复的主要类型为GT和AC;三核苷酸重复的主要类型是TGC、GCA、GGA、TAA、GAG、CTC、TCC和AGG;四核苷酸重复的主要类型为AAGA。这些SSR位点的鉴定,可为开展大口黑鲈差异基因分析、分子标记开发和遗传图谱构建提供良好基础,并为后续大口黑鲈生物标记开发与应用提供分子水平的参考依据。

    • 对组装得到的35 659条unigenes与已知的KOG、Nr、Pfam、Swiss-Prot、GO和KEGG数据库进行注释。共有5 617条unigenes在以上6个数据库中同时注释成功,占总数的15.75%,至少在1个数据库中注释成功的有17 253条,占总数的48.38%。其中15 024条unigenes在GO数据库中获得注释,占42.13%;15 832条unigenes在KOG数据库中获得注释,占44.40%;11 185条unigenes在KEGG数据库中获得注释,占31.37%;14 524条unigenes在Pfam数据库中获得注释,占40.73%;27 515条unigenes在Swiss-prot数据库中获得注释,占47.60%;在Nr数据库中,共有21 279条unigenes得到注释,占总数的59.67%。通过与Nr库进行比对注释,大口黑鲈转录组与深裂眶锯雀鲷(Stegastes partitus)能匹配到的相似基因序列最多,达37.4%;其次为尼罗罗非鱼(Oreochromis niloticus,12.1%);相似性序列数量大于4%的物种有斑马拟丽鱼(Maylandia zebra,6.5%)、布氏新亮丽鲷(Neolamprologus brichardi,4.8%)、伯氏朴丽鱼(Haplochromis burtoni,4.3%)和红丽鱼(Pundamilia nyererei,4.2%);而其他物种占了30.7%,这可能与数据库中没有大口黑鲈的全基因组序列有关。

    • 根据GO数据库注释分类信息,一共有15 024条unigenes得到注释,占42.13%。GO功能大致可分为基因参与的生物过程、所处的细胞组分和具有的分子功能3大类(图3)。这3大类别又被详细划分为50个亚类,例如代谢过程、生化过程、免疫防御生长与发育过程等。其中生物过程包含25个不同的亚类,也是3大类别中所含类别最多的一类,其中转录、DNA依赖性所占比例最高(71.13%),其次为转录(60.47%),而内噬作用所占比例最低,仅有56条(10.03%);在细胞组分类别中有15个亚类,细胞核和细胞浆所占比例最高,分别为81.34%和72.48%,而高尔基体最低,仅有31条(8.65%);在分子功能类别中有10个亚类,ATP结合和锌离子结合所占比例最高,分别为60.56%和51.45%,而蛋白质丝氨酸特异酶结合所占比例最低,仅有21条序列(7.79%)。

      图  3  Unigenes GO功能注释

      Figure 3.  GO functional annotation of unigenes

    • 将在KOG数据库获得注释的13 466条unigenes进行功能分类,共获得25个功能组分,涉及了大多数的生命活动(图4)。其中,信号转导机制类所占比例最高,为17.85%(2 404条),其后依次是一般功能预测类(17.35%,2 337条)、翻译后修饰-蛋白质周转-分子伴侣(10.02%,1 396条)、转录类(8.81%,1 187条)、功能未知类(6.73%,906条)、细胞内分泌和囊泡运输(6.61%,891条)、细胞骨架(5.94%,801条)和RNA加工和修饰(4.37%,589条),而参与辅酶转运和代谢(0.63%,85条)及细胞运动(0.38%,51条)的unigenes最少。

      图  4  Unigenes的KOG注释

      Figure 4.  KOG annotation of unigenes

    • 采用KEGG数据库对大口黑鲈可能参与的生理生化反应途径进行注释,有11 185条(31.37%) unigenes在KEGG数据库中得到注释。这些unigenes共参与了细胞过程、环境信息处理、遗传信息处理、代谢和有机系统5大类共29小类的267个功能通路(图5)。参与信号转导通路的unigenes较多,共有1 349条,其中较多的几个分别是MAPK信号通路(471条)、Calcium信号通路(241条)和ErbB信号通路(161条),这几个代谢通路与环境信息处理大类中信号转导相关;其次是免疫系统通路(1 002条);参与萜类和酮类化合物代谢的unigenes数量最少,仅有49条。

      图  5  Unigenes的KEGG注释

      Figure 5.  KEGG annotation of unigenes

    • 近年来,高通量测序技术在揭示转录组差异基因的表达、功能基因的发掘、分子标记开发、相关标记的分析和非编码RNA鉴定与调控等方面起着重要作用,已广泛应用于动植物的转录组和基因发掘与功能研究中[8-12]。这种高通量测序技术在一些鱼类的转录组研究中也有报道,如虹鳟(Oncorhynchus mykiss)[13],欧洲鳗鲡(Anguilla anguilla)[14],大菱鲆(Scophthalmus maximuz)[15]、达氏鳇(Huso dauricus)[16]、大黄鱼(Larimichthys crocea)[17]、斑点叉尾鮰(Ictalurus punctatus)[18]、大西洋鲑(Salmo salar)[19]和草鱼(Ctenopharyngodon idella)[20]等。通过这些研究获得了大量的鱼类转录组信息,如赵刚等[21]利于该技术对岩原鲤(Pocypris rabaudi)全组织转录组进行了测序,结果获得了83 252条unigenes,平均长度为787 bp,有37 157条unigenes得到注释;许建等[22]利用RNA-Seq技术对鲮(Cirrhina molitorella)进行了转录组分析,经过拼接与组装,最终获得了19 962条unigenes,平均长度为1 269 bp,有10 577个特异蛋白通过基因功能得到注释,鉴定了具有完整开放阅读框 (ORF)的全长cDNA序列共5 931条。这些信息的获得能为后续水产动物功能基因发掘和转录调控研究提供有价值的数据参考。目前,有关大口黑鲈转录组的研究还很少,已有的文献中,仅见到对大口黑鲈肝脏和肌肉混合组织通过转录组测序进行SNPs筛选与生长关联分析的研究,而没有进一步对转录组数据进行功能注释信息分析[23]。本研究利用拼接得到的unigenes序列在Pfam、Swiss-prot、KEGG、Nr、GO和KOG 6个公共数据库中进行注释,结果发现仅有5 617条unigenes在公共数据库中均能获得注释。造成这种结果的原因可能有3个方面:1)数据库中大口黑鲈基因序列信息少,尚无大口黑鲈基因组测序研究的报道;2)转录组测序也可能有一些新出现的基因是目前数据库里所没有的,因鱼种类繁多、种间差异巨大可能导致其同源序列难以被发现;3)测序技术的局限性。基于从头拼接测序技术的准确度和拼接长度极大依赖于测序深度和参考基因组序列,而组装测序中序列长度较短也会影响后期数据质量,如过短的unigenes序列在数据库中无法获得有效的比对信息。

      Nr数据库物种注释中,有37.4%的unigenes在深裂眶锯雀鲷基因中获得注释,在所注释物种中比例最高,可能是由于这2个物种同属鲈形目,在亲缘关系上可能较近;而有30.7%的unigenes未被注释到其他物种中,以上结果也说明,数据库中已有的大口黑鲈序列信息还很少,难以将大口黑鲈本身特有的基因信息与其他物种的基因信息分离开来。本研究获得的unigenes进一步丰富了目前数据库中已有的鲈形目基因资源。KEGG代谢通路分析表明11 185条大口黑鲈unigenes共参与到267个代谢通路中。其中与信号转导通路相关的unigenes数量最多,主要有MAPK、Calcium和ErbB等信号通路,这些信号通路都与疾病发生、细胞离子交换和细胞凋亡相关。其次是参与免疫系统通路的unigenes,有1 002条。这些与免疫通路相关的基因包括抗病毒免疫因子,如炎症细胞因子和受体、补体成分、模式识别受体、B细胞、T细胞抗原活化分子和干扰素等。SSRs作为一种分子标记在动物中研究很广泛。利用MISA软件查找测序序列,共发现了4 030个SSR位点,而且发现SSR重复碱基以二核苷酸类型最多,有2 131个分子标记,占所有SSR位点的52.88%,这为进一步利用分子标记研究大口黑鲈功能基因定位、群体遗传多样性、遗传连锁图谱构建等奠定了基础。

(5)  表(1) 参考文献 (23) 相关文章 (20)

目录

    /

    返回文章
    返回