由生物中心的杨效曾研究员课题组和北京大学生命科学学院李磊教授课题组共同开发的植物microRNA(miRNA)百科全书数据库于2019年5月6日正式上线。
miRNA是一类长度多为20-22个碱基的非编码RNA,通过对靶基因的mRNA的调控,miRNA可以在转录后水平实现对基因的表达调控。之前的研究表明,miRNA广泛存在于几乎所有的物种当中,与动植物的形态建成、生长发育、激素分泌以及抗逆响应等各项生命活动紧密相关,是一类非常重要的调控因子。在作物研究领域,已经发现miRNA与很多重要的农艺性状相关,成为增加产量、抗性等农艺性状的目标基因。
然而目前学术界并没有专业的植物miRNA数据库。普遍使用的几个miRNA数据库都存在很多问题,比如miRBase作为最为广泛使用的miRNA数据库之一存在:1)数据来源不一,大量噪音;2)数据完整性差;3)功能单一等缺陷。这些问题在一定程度上限制了miRNA的研究,比如对miRNA功能及演化的研究。基于以上原因,我们对现有已经测序的植物基因组,同时具有小RNA(sRNA)高通量测序数据的物种进行大尺度的miRNA挖掘。需要指出的是我们采用的统一的注释方法,即miRDeep-P2(miRDP2)。miRDP2是miRDeep-P的升级版本,同样由杨效曾研究员课题组和李磊教授课题组共同开发(分别于2012和2018年发表在bioinformatics杂志上),该方法在过去的几年中得到的广泛的应用(40多个植物物种的miRNA由该方法注释,2012年以来的引用次数达到了168次)。
上线的植物miRNA百科全书数据库(PmiREN)具有以下特点:
I.完整的miRNA信息
涵盖了从水生植物到被子植物88个物种,20388个miRNA loci(MIRs),5757个miRNA家族,1365条miRNA簇信息,1668条miRNA共线性信息,141327个预测靶基因。数据的完整性得到了空前的提升,如下图是与miRBase数据完整性的一个比较(选取了最为保守的30个miRNA家族)。