全基因组测序后续分析中找不同物种之间的Gene family clusters的问题,,

在《Genome sequencing reveals insights into physiology and longevity of the naked mole rat》文章中,找human、 mouse 、 rat和naked mole rat的Gene family clusters 的时候,首先把预测到naked mole rat的蛋白序列和下载到human、 mouse 和rat的蛋白库合成一个“大的蛋白序列”文件,然后用此文件同时作为query和database做blastp,生成一个m8格式的 alighment file,然后把alighment file用Solar软件conjoined fragmental alignments for each gene pair,然后用Hcluster_sg提取Gene family clusters。
问题(1):在ensembl上下载的human、 mouse 和rat的蛋白库要不要去“冗余”?(意思说,一个基因对应好几个蛋白序列,要不要只保留每个基因对应的一个最长的蛋白序列,还是不用去冗余?)
问题(2):不要去冗余的话,在提取不同物种之间的基因家族的时候,会不会出现本来就剩同一个基因的蛋白序列,而错误划分为基因家族中的成员?
希望高手指点!谢谢
已邀请:

bioclown

赞同来自: wangms

我感觉去冗余是必须的,尽量保留最长的,并且5' 和3' 端完整的那个蛋白质,因为你要看是不是一个家族,那么一条蛋白质就可以代表这个基因了。不去冗余的话,某些蛋白质可能存在比较大的差异,因此有可能错误划分,这一点我曾经用某些预测工具时遇到过。

sxjwyj

赞同来自: wangms

你的第一个问题应该是选择性剪切的问题。在ensemble数据库中有些基因对应多个转录本,每个转录本会有相应的编码蛋白。像这种情况下,有些文献的处理方式是选择最长的转录本。但是,选择性剪切基因的不同转录本在动物体内的表达往往是在不同组织或器官中出现的,有时候他们的功能会存在着一些差异。像选择最长的转录本这种方法是不完美的,存在着一定的错误性。期待有更好的方法能解决这类问题。

要回复问题请先登录注册