生物信息学-生物学数据库及其检索

生物数据库简介

什么是数据库

  • 是一类用于存储和管理数据的计算机文档

  • 是统一管理的相关数据的集合

数据库的类型

目前为止,生物学数据库使用了4种不同的数据库结构类型,分别是:

  1. 平面文件
  2. 关系型数据库
  3. 面向对象数据库
  4. 基于Internet平台的XML

生物学数据库

在生物信息学者们的努力下,人类基因组序列数据连同其他多种模式生物的序列数据及各种相应的基因结构与功能信息皆可供众多生物学家们免费接入和使用。

根据存放数据类型区分

  • 序列数据库
  • (三维)结构数据库
  • 文献数据库
  • 基因组图谱数据库
  • 表达谱数据库

根据存储的具体内容区分

一级数据库

库中主要内容来源于实验室操作所得到的原始数据,也包含一些基本的说明(序列所属的物种、类型、序列发表的文献出处等)

  • 核酸序列数据库GenBank、EMBL、DDBJ
  • 蛋白质数据库PDB

二级数据库

  • 在一级数据库的基础上进行计算加工处理并增加了许多的人为注释而构成的

也可能会出现一部分误导信息,尤其是由程序自动计算得到的结果

如何查找与研究相关的生物学资源

  1. 利用公共引擎搜索
  2. 了解重要的生物信息学门户站点
  3. 利用Nucleic Acid Research杂志每年的数据库专辑、网络服务器专辑。

重要的生物信息学站点

  • NCBI 美国国家生物技术信息中心
  • EBI 欧洲生物信息研究所
  • EMBnet 欧洲分子生物学信息网络

常用数据库

核酸数据库

核酸序列数据库
  1. Genbank
  2. EMBL核酸序列数据库
  3. DDBJ数据库
基因组数据库
  1. GDB数据库

蛋白质数据库

蛋白质序列数据库
  1. SWISS-PORT
  2. PIR
  3. TrEMBL
  4. UniPort
蛋白质序列二次数据库
  1. PROSITE
  2. PRINTS
  3. BLOCKS
蛋白质结构数据库
蛋白质结构二级数据库

生物学数据库的数据存储结构

常见格式包括 平面文件格式XML格式关系型数据库