当前位置:  首页 >> 科研进展 >> 2020年科研进展

2020年科研进展

陈润生、何顺民、赵屹合作发布最新的非编码RNA整合资源NONCODEV6

发布时间:2020年11月17日

  长非编码RNA(long non-coding RNAs)是一类长度大于200nt的非编码RNA。大量研究表明长非编码RNA具有重要的调控功能,在植物和动物的各种生物学过程中起重要的作用。此外,lncRNA还与人类各种疾病的发生发展密切相关。因此对于lncRNA的注释、探索lncRNA的功能具有非常重要的意义。近些年来,很多研究集中于lncRNA功能的探索,但是综合全面的lncRNA的注释仍需要不断更新维护。

  NONCODE数据库于2005年创建,受到Science杂志专文推荐,由中科院计算所和生物物理所团队维护15年,累积访问过亿次,2013年受邀以专家数据库加入国际RNA联盟RNAcentral,数据库首次提出了非编码基因的分类体系,建立多项非编码领域标准,推动长非编码RNA研究发展。

  近期,由金沙集团1862cc陈润生院士课题组,中科院生物物理所健康大数据研究中心何顺民课题组和金沙集团1862cc计算技术研究所赵屹课题组合作,在国际学术期刊 《核酸研究》(Nucleic Acids Research)在线发表了题目为"NONCODEV6: an updated database dedicated to long non-coding RNA annotation in both animals and plants"的文章(图1)。该工作NONCODEV6(http://www.noncode.org/)(图2)是关于动植物多个物种的长非编码RNA综合注释数据库的升级,旨在提供关于动植物各个物种中lncRNA的全面综合的注释和分析。

图1 NONCODEV6在线发表

 

图2 NONCODEV6数据库

  在此前积累的NONCODE版本基础上,研究团队通过关键词搜索近期发表文章并手工提取lncRNA及其在组织中的表达数据等信息。随后,对其相应的植物物种、动物物种、组织表达数据进行了收集、整理,之后进入NONCODE数据库更新的流程,进行数据的过滤、处理、注释。NONCODEV6中总共记录了644,510个lncRNA。此次新加入的植物物种数目达23种,包括常见植物拟南芥,水稻,小麦,玉米等。 植物物种的lncRNA注释包括基本位置信息、序列信息、长度、外显子个数、组织的表达量、功能注释等。同时,研究团队对人和小鼠的数据进行了更新,并加入lncRNA和肿瘤等疾病的关系注释,整合了多个lncRNA和肿瘤的数据源,提供了一个关于肿瘤等疾病和NONCODE数据库中lncRNA的综合注释。

  此外,NONCODEV6数据库提供了一个用户友好的界面,可用于浏览各个物种的长非编码RNA的具体情况包括长度、序列、位置、功能注释、保守性注释等。除此之外,还提供了blast功能、功能注释查询、保守性查询。总体来说,NONCODEV6 (http://www.noncode.org/) 是一个业内较为认可的综合性lncRNA注释的知识库,为研究基于lncRNA的在动物和植物的相关注释提供了重要支撑。

  金沙集团1862cc陈润生院士、何顺民研究员和金沙集团1862cc计算技术研究所赵屹研究员为本文共同通讯作者。金沙集团1862cc计算技术研究所赵连鹤博士研究生和金沙集团1862cc健康大数据研究中心王佳佳博士研究生、李燕燕博士研究生为本文并列第一作者。该文章获得国家重点研发项目、国家自然科学基金、金沙集团1862cc战略重点研究项目等项目资助。

  文章链接:https://doi.org/10.1093/nar/gkaa1046

 

(供稿:健康大数据中心)

 

  附件下载: