一、实验室研究工作的背景和意义
实验室的研究工作始终围绕着基因组中的非编码序列、非编码基因和非编码RNA,集中于新非编码基因和非编码RNA的系统发现及其结构和功能的研究。
实验室的研究方向始终瞄准国际学科发展的前沿。快速发展的基因组研究已经度过了二十个年头。早期的研究把测序获得的基因组DNA序列作为对象,综合运用数学、计算机科学和生物学的工具,对这些信息进行分析和释读,希望找到基因组序列中编码蛋白质的基因区和其上游的调控区等功能元件以破译隐藏在DNA序列中的遗传语言规律,为认识代谢、发育、分化、进化等重要生物学问题提供依据。
进入二十一世纪后,基因组学与生物信息学又有了很大发展,在新一代测序设备,像454、solexa、SOLiD等的帮助下,每天都可以获得数以亿计的碱基数据。海量的基因组序列数据进一步证实了:DNA上编码蛋白质的区域(也就是通常说的基因)只占人类基因组的一小部分,不会超过整个基因组的3%, 其余97%左右的DNA序列绝大部分仍不清楚其功能,最初科学家们习惯地把这部分DNA统称为"Junk" DNA,也就是基因组中的非编码序列。近年来大量转录组的新实验结果表明基因组中的非编码序列绝大部分是可以转录的,其转录产物就是数量巨大的非编码RNA。而且,越来越多的事实证明非编码RNA具有重要的生物功能,microRNA的研究就是最突出的例子。当今,非编码序列、非编码基因和非编码RNA的研究已成为生物学领域的研究热点,重新唤起了科学家们对“RNA世界”的重视及对“生命起源于RNA分子”这一命题的兴趣。
尽管长度小于50个碱基的非编码RNA(像:microRNA和piRNA)等的研究已取得突破性进展,但具有功能且长度大于50个碱基的非编码RNA,当前只是作为个别例子被发现。申请者的实验室使用Affymetrix线虫全基因组 tiling array芯片,所做的线虫转录组研究的结果表明:长度在50到500碱基之间的全长非编码RNA数量有一千多个,而长度更长的非编码RNA数量就更多。这表明即使在很简单的多细胞生物中长非编码RNA的数量也远大于microRNA和piRNA的数量。日本理化研究所(RIKEN)对小鼠转录组所作的实验发现了几万个全长的非编码RNA 克隆,它们的长度大部分为几百到几千碱基,而功能未知。值得注意之点是:当RNA的长度增长时它们也会折叠,并形成固定的空间结构,比如:长度为70-80个核苷酸的tRNA就有三叶草样的结构。可以设想有空间结构的非编码RNA并不是像microRNA那样通过碱基匹配来实现功能的。
当前国际非编码RNA领域的研究态势是:大量的功能非编码RNA,特别是长非编码RNA分子尚未被发现,它们的结构与功能未知,由它们参与的大量生物学过程的规律尚未被认识。所以,进一步开展非编码序列、非编码基因和非编码RNA的研究,系统发现新的长非编码RNA,研究它们的空间结构与功能,可能为我们带来更多的创新机会,有可能发现新的生物学规律。
实验室的研究方向坚持面向国家的重大需求。在传统的分子生物学研究中,认为一个基因表达一个蛋白,一个蛋白有一个结构,一个结构完成一个功能,也就是遵从由序列、到结构再到功能这样一个思维方式。随着大量非编码RNA的发现,通过RNA与蛋白质相互作用或RNA与RNA相互作用来实现生物功能的事例也越来越多, 如snRNA U1, U2, U4, U5, U6同多达75种蛋白质组成剪接复合物,负责pre-mRNA的剪接;小鼠的NRON RNA同11种蛋白质结合,控制NFAT蛋白的转运。非编码RNA还可以通过与target mRNA序列匹配来定位靶标,并进一步招募功能蛋白质来行使功能。近年来越来越多的证据表明,非编码RNA和蛋白质一样也参与众多的生命过程,也与动、植物的表型和人类疾病有紧密联系。本实验室将着重研究非编码RNA与人类重大疾病,特别是肿瘤的关系,同时也将研究国际上目前开展尚少的病源微生物中非编码RNA的致病作用。
以非编码核酸为对象,实验室已经成为我院疾病防治的基础与应用基础研究的重要组成部分。实验室选择肿瘤,神经性疾病和传染性疾病-结核病等威胁我国公共卫生及人口健康的主要疾病,开展相关致病和耐药机制及防控策略研究。实验室整合了生物信息学、生物物理学、神经生物学、微生物学、分子细胞学、分子免疫学以及基础临床的力量,通过团队合作、集体攻关的研究模式,已在院内形成了特色和优势的非编码核酸研究团队。得益于中科院这种前瞻性部署与实质性建设,实验室参与和承担了国家及科学院的各种重大科技攻关和专项任务,并取得令人瞩目的成果,成为我院非编码核酸研究的重要部分。
二、实验室研究方向
本实验室定位于非编码序列、非编码基因与非编码RNA的研究。具体是:系统地发现新非编码RNA及其基因;确定非编码RNA与各种生物大分子(DNA、RNA及蛋白质等)的相互作用;研究非编码RNA的空间结构及生物功能;构建由RNA和蛋白质共同实现的典型pathway或生物网络(双色网络);分析这类网络的数学、物理学特征;推断它们的生物学含义及可能的新规律。
1、非编码基因与非编码RNA的系统发现及生物网络的构建
利用本实验室改善的国际领先的非编码RNA获取技术,我们曾单独或与其他科学家合作在线虫、家蚕、果蝇、蜜蜂、家鸡、恒河猴、人、拟南芥、水稻、玉米、病原微生物等体系系统地发现了数以千计的长度介于50-500 nt的新非编码RNA。本实验室拟进一步发展与完善这一平台,使本实验室的研究工作都能从最原始发现的非编码基因出发。
本实验室始终认为:仅依赖于蛋白质分子构建的pathway和生物网络是不完备的。认为成千上万不编码蛋白质的RNA分子与蛋白编码基因和蛋白质之间组成了巨大的分子网络,从而调节细胞中的各种生命活动。因此,如果说染色体中的蛋白编码区带有组成生物体具体材料(蛋白质,结构RNA等)的信息,那么大量的非编码区应当包含把这些材料按照特定的时间、空间安置, 以组成完整个体的四维调控信息。长期以来,科技界以蛋白质为元件积累起来的pathway和生物网络的知识是重要的,但,是不完备的。因此,很多科学家认为:未来10年,这些领域可能产生大量原创性成果。为此,我们提出了双色网络这一新概念,并将通过本申请的执行构建这样的网络。
2、非编码RNA与生物大分子相互作用研究
长期以来令人惊异与困惑的是:生命并不是一群分子的堆集,它是高度有组织的。生物分子组成细胞,细胞构成组织,组织形成器官并进而构成系统。生物分子间有作用;细胞与细胞间有关联;组织与组织间有分工;器官与器官间有协同。因此一个正常生存的生物个体是极端有序的,是多层次的,是动态的。他是由亿万年的进化才由无序到有序,由简单到复杂的。因此,从根本上说来,生命的产生是由于复杂的物质相互作用;当简单生命出现以后,生命的进化也是由于生物体与环境的相互作用。相互作用是生命产生与演化的基础,因此,相互作用也必然贯穿于生命活动的每一个环节。要深入研究非编码RNA的生物学作用,首先要通过实验确定RNA-RNA,RNA-DNA,RNA-蛋白质的相互作用。
随着非编码RNA研究的发展,估计几年之内就可确定人类基因组中成千上万个非编码RNA及其基因,也就是发现它们的一级序列。然而要了解它们的功能、要找到这些RNA功能的分子基础,只有核苷酸顺序的知识是不够的,必须知道它们的三维结构。与此同时,要设计药物也需要了解与药物相互作用的RNA的三维结构。这是摆在科学家面前的紧迫任务。我所在X射线晶体学技术、多维核磁共振(NMR)波谱学技术、二维电子衍射和三维图象重构技术等确定生物分子空间结构测定领域有雄厚的基础,本实验室拟利用这一基础,实现非编码RNA及其复合物的结构测定。
此外,考虑到实验研究的困难与局限,本实验室也进行理论模拟与结构预测研究。理论研究不仅可提供生物大分子空间结构的信息,还能提供电子结构的信息,如能级、表面电荷分布、分子轨道相互作用等;以及动力学行为的信息,如生物化学反应中的能量变化、电荷迁移、构象变化等。这些信息是难以直接用实验手段加以获取和研究的。这些模拟的结果对于在分子、亚分子和电子结构层次上了解生命现象的基本过程具有重要意义。
3、非编码RNA生物作用机制的研究
和任何分子生物学实验一样,确定新非编码RNA的作用分子机制也是本实验室工作的重点。由于,生物体系功能繁多,根据本实验室的基础我们拟选取典型类别的非编码RNA(如:miRNA、piRNA或我们发现的small RNA家族等)、某些重要pathway(如:DNA损伤修复pathway、细胞周期pathway、神经发育等)以及典型的生物网络(如:蛋白-蛋白相互作用网络,即PPI网络等)作为研究对象。开始阶段将选取两个体系:非编码RNA调控DNA损伤修复系统机制和非编码RNA调控神经发育机制。
仅现有的实验结果就显示,很多疾病(包括:肿瘤)与非编码RNA有关。miRNA的一些研究结果已用于临床。本实验室非编码RNA的研究是集中于与国际上不同的尺度范围,有可能为临床的诊断、治疗提供新的可能。同时,这一领域的研究结果也可为动、植物良种繁育,发展分子标记以及为基于RNA的药物设计提供信息。