生物信息学-真核生物基因组的注释

戈亓2023-08-012023-08-26

基础知识补充：

真核细胞：eukaryotic cell 指含有真核（被核膜包围的核）的细胞。其染色体数在一个以上，能进行有丝分裂。还能进行原生质流动和变形运动。处蓝藻和细菌外，所有的动物细胞和植物细胞都是真核细胞。

真核生物：由真核细胞构成的生物

基因组：指生物体所有遗传物质的总和。这些遗传物质包括DNA或RNA（病毒RNA）。

基因组注释内容

各类功能元件
1. 编码蛋白质的基因
2. RNA基因
3. 重复序列
4. 假基因等
各元件对应的生物学功能
1. 确定蛋白质编码基因及其外显子-内含子结构（基因结构），并推断其生物学功能
2. 进行RNA基因的预测，并推断其功能和相互作用标靶分子
3. 确定基因组中重复序列的含量和分类
4. 进行假基因的识别和分类

一、蛋白质编码基因的注释

1.1 蛋白质编码基因的注释策略

主要分为3种策略，各有有点，目前成功的做法是将3种策略的预测结果进行整合，得到比较理想的结果

基于证据的基因注释
1. 定义：根据已有实验证据（如cDNA）表达序列标签（EST）和蛋白质序列进行蛋白质编码基因的注释
2. 分类（根据cDNA或者蛋白质序列是否由一个基因自身转录或翻译而来）
  1. 顺式对比
    1. 常用程序：AAT、SIM4、Splign、BLAT、GMAP和Exonerate （不仅可以比对，还可以识别出内含子的）
  2. 反式对比
3. 弱点：
  1. 许多数据库中的数据质量良莠不齐，会导致错误的数据继续传递
  2. 如果数据库中不含有足够相似程度的序列，那么可能什么结果也得不到
从头开始的基因预测
1. 定义：只根据基因组的DNA序列对蛋白质编码基因进行预测
重新基因预测
1. 定义：通过与其他物种的基因组进行比较，从而预测出一个新基因组中的蛋白质编码基因

1.2 蛋白质编码基因的整合信息

由于注释所依赖的证据数量有限、从头预测和重新预测的结果可靠性很低，因此将这些信息整合在一起可以得到更好的注释结果

整合方式分为两种：人工整合、自动整合

1.2.1 人工整合

由专家组手工完成，成本较高
NCBI reference sequence（RefSeq）数据库提供经过人工检验的多物种的高质量转录物，包括植物、病毒、脊椎和无脊椎动物。
Welcome Trust Sanger的HAVANA。几乎包含了所有的蛋白质编码基因。

1.2.2 自动整合

1.3 蛋白质编码基因的功能注释

主要方法：
1. 序列相似性比较
2. 进化分析、亚细胞定位、结构基因组的研究与蛋白质组的研究等方法也有帮助，可以有效减少实验材料和和时间的消耗
序列相似性
1. 基于 同源=功能相似的假设，将功能未知的基因与数据库中已知的功能基因进行序列相似性比对，通过设立同源性指标，寻找具有同源关系的已知基因没从而预测基因的功能。
2. 常用数据库：
  1. NCBI的 NT 、NR、UniPort、InterPro、KEGG、KOG
3. 存在大量错误，是因为相似比较的时候没有有效解决不同基因间进化关系所带来的问题，如趋同和趋异、重复、基因缺失、水平基因转移
4. 解决方案：
  1. 选择合适或更加严格的同源性阈值
  2. 增加同源区长度的比例

二、RNA基因的注释

2.1 RNA基因

指不编码蛋白质的基因，又称为非编码基因 (ncRNA)
编码产物为一条功能RNA分子
是真核生物转录组的主要组成部分

分类

名称	英文简写	作用
转运RNA	tRNA	蛋白质合成
核糖体RNA	rRNA	蛋白质合成
核内小RNA	snRNA	组成剪接体，催化前提mRNA的剪接过程
小核仁RNA	snoRNA	以碱基配对的方式指导rRNA的甲基化和假尿嘧啶化修饰
微RNA	miRNA	通过对特异的目标基因的转录产物进行调控，在发育过程中起到重要的作用
长非编码RNA	lncRNA
环状RNA	circRNA

2.2 RNA基因预测的难点

缺少显著的编码结构，比如:起始和终止密码子、剪接位点等
有功能的RNA基因的保守型主要体现在其二级结构上，使得RNA基因的预测不但依赖简单的核苷酸信息还需要考虑RNA的二级结构，增加了计算复杂性
RNA基因的序列信息并不足以对其功能进行推断

2.3完备的RNA基因注释需包括

鉴定基因组中的RNA基因的编码区
推断其功能转录本，预测其功能，并寻找相互作用伙伴

2.4 RNA基因预测方法

1. 基于相似性的预测方法

依赖已知序列，通过比较基因组学的方法，构建RNA家族进化保守的序列和结构特征，进而用于新基因组中家族新成员的预测

序列比对软件：BLAST、FASTA等来预测，效果好，速度快。

考虑二级结构的软件： INFERNAL、RSEARCH的敏感度和特异性更高，但是对计算资源的消耗性也越大。

2.从头开始的预测方法

实现起来较为困难，一些特殊的基因组中成功过，如富含AT的超嗜热菌基因组

2.4 数据库 - Rfam数据库

最全面的RNA家族序列和比对信息的数据库

三、重复序列的注释

重复序列（repetitive sequence,或称repeat）在真核基因中广泛存在，不同基因组中含量差别很大。

水稻 25% 人类 45% 玉米 80%

3.1 重复序列的分类

串联重复序列（tandem repeat）
1. 指重复单元相邻出现的重复序列
2. 多处选育染色体的着丝粒区和端粒区
3. 分类（按照重复单元的长度）
  1. 微卫星重复序列（microsatellite）
  2. 小卫星重复序列（minisatellite）
  3. 卫星重复序列（satellite）
4. 识别软件：Tandem Repeats Finder,效果较好，可识别重复程度高达2kb的重复序列，识别后可直接分类
散布重复序列（dispersed repeat）
1. 是通过转座过程在基因组内不同位置见移动的DNA片段
2. 转座机制：
  1. 剪切和粘贴
  2. 复制和粘贴
3. 识别软件：RepeatMasker

四、假基因的注释

4.1什么是假基因

与真基因序列相似但是缺乏功能的DNA序列

按照形成机制可分为：

非加工假基因(non-processed pseudogene) /复制型假基因(duplicated pseudogene)
1. 通过基因组DNA赋值或者不平衡交换产生
2. 多位于其同源功能基因的附近
加工假基因(processed pseudogene)/反转座假基因
1. 来源于反转座事件，由mRNA反转录成cDNA,然后整合到基因组中。
2. 缺少内含子，两末端由短的定向重复序列，3‘端有多聚腺嘌呤（PolyA）尾巴
3. 也常被认为是一种特殊的反转录转座子。

4.2假基因鉴定步骤

获得去重复序列的基因组序列和蛋白质序列
利用BLAST在基因组序列中搜索与蛋白质相似的序列，去除与已知基因高度重叠的序列
去除冗余和重叠的BLAST匹配片段。
合并相邻的序列；
确定假基因的母基因
对剩余的序列利用FASTA与基因组序列重新进行比对
与以前通过实验获得的已知假基因合并
根据两种假基因的特征对假基因进行分类

4.3 假基因筛选标准

与编码已知的蛋白质序列高度相似
与相似功能基因相比，覆盖其超过70%的编码区域

功能缺失特征、PolyA尾巴等也可以辅助假基因的识别和分类。