如何写一篇家族分析文章(一)—家族分析文章的研读
首先,我们要先确定一下哪一类家族分析文章可以发高分,或者这类高分文章都有哪些套路,下面我们通过文献查询工具google学术搜索镜像,以gene family为关键字,进行搜索:
结果显示,共2019年就有927片家族分析的文章新鲜出炉!
今天我们先解读一篇发表在gene上的家族分析文章 Genome-wide identification and characterization of the Dof gene family in cassava (Manihot esculenta)—木薯中Dof基因家族的分析
1.Dof家族简介
首先,让我们先认识一下Dof转录因子家族。Dof转录因子具有一个Dof结构域,可以与DNA结合,对植物的生长发育中扮演重要的角色,而且对各种胁迫均有响应。在此家族中,Dof结构与高度保守,经常定位于氮端,由大约52个氨基酸构成,有一个C2C2锌指结构域。对于特异性结合具有保守目标DNA的5′-T/AAAAG-3′ 核心序列以及与其他蛋白质,例如OBF(ocs元件结合因子)和TCP14(TCP转录因子14)相互作用来说,Dof在其中的作用非常重要。Dof蛋白液有一个二分核定位信号(NLS)与Dof结构域部分重叠,且在C端有一个转录激活结构域。
与N-端相比,Dof蛋白的C-端区域是高变的。自从第一个Dof蛋白从玉米中分离出来,它的同源类似物也接连从其他植物中分离。与在大部分藻类中的Dof蛋白成员相比,Dof家族蛋白在陆生植物中表现出来较高的分布广泛性.例如,拟南芥中发现了36个此家族成员,水稻中30个,白杨41个,白菜中76个。基于进化分析,Dof蛋白被分为四个亚家族(A,B,C,D),且B,C,D亚家族能够进一步分为一些groups。相比较而言,对木薯中此家族的研究知之甚少!
2.实验方法及结果展示
介绍完这个家族,那么我们就正式看一下这篇文章都做了哪些内容吧!
2.1数据和序列准备
首先,作者分别下载了水稻(RGAP7网站http://rice.plantbiology.msu.edu/)中30个和拟南芥(TAIR10网站http://www.arabidopsis.org/)中36个Dof基因(根据前人文献)。然后将结果存到这样的附表中。
下载木薯基因组数据(Phytozome v12 (https://phytozome.jgi.doe.gov/pz/portal.html),cassava AM560–2),其他的数据,例如核酸序列,ESTs序列以及RNA-seq数据均下载字NCBI。
2.2Dof家族基因的鉴定及人工校正
Dof结构域的pfam号为PF02701,从Pfam上获得(http://pfam.sanger.ac.uk/),然后用HMMER3.0和TBLASTN进行搜索。E-value值小于1e-5的正向基因组序列在GeneMark.hmm(http://exon.biology.gatech.edu/GeneMark/)上进行验证。
基因模型稍后进一步用cDNAs,ESTs和RNA-seq reads进行校正确认。Dof结构与是否出现,用SMART来验证。
然后鉴定出来的结果,以表格的形式展示:
用BLASTN搜索之前报道的核酸或ESTs同源类似物。之前的RAN-seq数据也用于表达注释,用MCScanX软件获得线性关系和WGD重复事件(定位在重复染色体上且在线性block中出现的重复基因)。当两个基因在基因组中是连续的,考虑是串联重复。
染色体定位以及线性关系,重复事件以下图形式表现:
Ks和Ka用codeml和PAML软件包计算。此外,BRH方法用于鉴定不同物种间的同源基因。
Ka/Ks的结果以如下形式呈现:
2.3 序列比对和进化分析
用MUSTCLE对鉴定的Dof蛋白序列进行多序列比对,然后用MEGA6.0构建进化树,其中选用最大似然法(ML),用bootstrap方法重复1000次,用JTT替代模型,用Boxshade(http://www.ch.embnet.org/software/BOX_form.html)软件对比对后的Dof结构与进行可视化。
MeDof基因的系统命名根据其在染色体上的位置来进行,通过CDS序列和基因序列用GSDS对其基因结构进行分析。
多序列比对的结果:
进化树及分类的图:
结合进化树做了一个柱形图:
2.4蛋白特性及保守的motif的分析
理论分子质量(MW),等电点(PI),和亲水性平均值(GRAVY)用ProtParam(http://web.expasy.org/protparam/)计算。
亚细胞定位用CELLO(http://cello.life.nctu.edu.tw/)预测。
亚细胞定位结果图:
Dof蛋白的保守motif用MEME (http://meme-suite.org/tools/meme)分析,
其中,最优参数如下:最大motif数为25;最大位点为2;每个motif的最优宽度为6到100个残基。
MAST程序 (http://meme-suite.org/tools/mast)也用来在蛋白库中搜索鉴定的motifs。
基因结构图与motif图的结合结果展示:
记得motif的基本信息列出来:
记得
2.5基因表达分析
不同组织的全部基因的表达模式是基于RNA-seq样品(GEO接收号为GSE82279)。包括顶端分生组织(SAM),侧芽,叶,中脉,叶柄,茎,纤维根,贮藏根,根顶端分生组织(RAM),脆性胚性愈伤组织(FEC)和体细胞组织胚性发育结构(OES)。使用Bowtie 2将过滤的读数定位到Dof和其他蛋白质编码基因的编码序列(CDS),基因表达水平表示为FPKM。除非特定声明,否则本研究中使用的工具是使用默认参数执行的。
不同组织表达量的热图:
大概,我们了解了这篇文章的基本结构,那么接下来我们就这篇文章对草莓中Dof基因家族进行分析吧!
后面,会分解步骤以及各个软件如何应用,敬请期待