一、转座元件 介绍
TE education: RepBase (girinst.org)
转座元件(Transposable element,TE)
转座元件(Transposable element,简称TE),又称转座子或移动元件,是一类DNA片段的集合,可以通过转座作用在基因组中从一个位置移动或复制到另一个位置。TE的长度范围从小于100个碱基对到超过20,000个碱基对不等。转座之后,很多类型TE两侧都含有短的(约1-20个碱基对)直接重复序列,这些直接重复序列是转座过程中从靶序列中衍生出来的靶位点重复序列(target site duplications,TSDs)。然而,一些TE类型,例如Helitron、几个Harbinger家族和CR1逆转座子,不产生TSDs。TSD的长度通常是一组TE及其相关物种的特征,但在不同家族和超家族中可能有所变化。在多数真核生物基因组中,TE是重复序列的主要成份。其他重复序列包括串联重复序列(卫星序列或微卫星)、零星的基因组重复以及一些多拷贝宿主基因(如rRNA、tRNA、组蛋白基因等)。事实上,TE可以被视为基因组内的寄生元件。同样地,细胞间病毒也可以被视为TE,因为它们可以整合到宿主基因组中,例如LTR-逆转录病毒。TE对宿主基因组具有多样化的进化影响。
TE的机制和分类
TE的转座主要依赖于多样化的TE编码酶机制。目前已经确定的一些酶或结构域包括逆转录酶、内切酶、DD[E/D]-转座酶(Tpase)、酪氨酸重组酶和Rep/Helicase1。根据转座过程是否涉及逆转录,TE被分为逆转录转座子(Class I)和DNA转座子(Class II)。在DNA转座子中,核心酶可以是DD[E/D]-转座酶(Tpase)、Rep/Helicase(用于Helitron)或酪氨酸重组酶(用于Crypton)。根据关键酶的序列相似性及其转座子DNA序列特征,TE被分为若干超家族(参见TE分类)。每个超家族又包含多个不同的家族。
TE家族
在进化历史中,一个特定的TE及其活跃的拷贝通常在一个相对短的时间内保持其活性。由此生成的拷贝形成了一个家族。在一些古老的家族中,TE成员经历了长期退化(大量突变积累),几乎失去原始的活性序列特征。因此,TE家族一般通过基因组上多个拷贝序列构建出一个一致序列来代表这个家族。在基因组中,大多数的TE呈现片段化存在,这是由于突变积累,导致转座机制中所识别的功能元件的缺失而失去了转座能力。例如,大多数非LTR(Non-LTR)逆转录转座子的5′-端被截短,是由于逆转录提前终止,而单独的LTR可能是LTR逆转录转座子两个相同LTR的重组产物。只有很小一部分TE是完整的,即包含两个末端并编码完整一套用于转座的酶。这些TE被称为自主的。因此,非自主的TE不编码参与转座的转座酶,而是通过别的同源自主转座子携带的转座酶在转座中传递。值得注意的是,除了这些必要的酶外,TE在漫长的进化历史中偶尔还可能捕获一些宿主基因或基因片段,驯化成新的基因。
作者:Weidong Bao, Ph. D. 中文润饰:Mobilome Lab
二、TE分类
长期以来,真核生物的转座子被分为两个类别:I 类转座子( Class I )和II 类转座子( Class II)。 I 类转座子是逆转录转座子,通过RNA中间体进行转座。II 类转座子是DNA转座子,不使用RNA作为转座的中间体。换句话说,I 类转座子包括所有编码逆转录酶的自主转座子及其衍生序列,而II类转座子包括所有其他不编码逆转录酶的自主转座子及其衍生序列。另一个重要的信息是,原核生物(细菌和古菌)的基因组不包含任何I类转座子。
I 类转座子(逆转座子)
I 类分为两个大类,通过是否含有长末端重复序列(LTRs)进行区分:LTR 逆转座子和非 LTR 反转座子(Non-LTR) 。最近的研究发现了一些其他的真核逆转座子类型,它们在转座机制和/或逆转录酶的系统发生学与上述两类有所不同。包括 DIRS 逆转座子(也称为酪氨酸重组酶编码逆转座子,YR逆转座子)和 Penelope-like 逆转座子(Penelope-like 元件,PLE)。然而,为了避免过度细分类,在 Repbase 分类中,DIRS 逆转座子被归入 LTR 逆转座子,而 Penelope-like 逆转座子被归入非 LTR 逆转座子。
LTR(长末端重复序列)逆转座子在两端都包含LTR,其中间是蛋白的编码区。蛋白中含有几个催化域:蛋白酶、反转录酶、RNase H 和整合酶,以及结构蛋白 Gag 和 Env。LTR逆转座子通过将自己的mRNA作为模板进行自身mRNA的逆转录催化生成cDNA,cDNA是以细胞外的方式生成的,并且通过整合酶整合到基因组中。LTR逆转座子的整合酶与一些DNA转座子的转座酶(特别是Ginger1和Ginger2超家族)相似,这表明LTR逆转座子可能具有复合起源。LTR逆转座子被细分为5个超家族:Copia、Gypsy、BEL、DIRS和内源性逆转录病毒(ERV)。ERV是在生殖细胞中复制自己并放弃细胞外生活方式的逆转录病毒。ERV又被进一步分为5个组别:ERV1、ERV2、ERV3、ERV4和内源性lentivirus(ELV),但根据有感染性(外源性)逆转录病毒的分类,它们被划分为更多的组别。ERV1对应于两个逆转录病毒属,Gammaretrovirus和Epsilonretrovirus,ERV2对应于Alpharetrovirus和Betaretrovirus。ERV3和ERV4没有相应的感染性逆转录病毒分类。国际病毒分类委员会(ICTV)将一些LTR逆转座子归类为病毒:Copia属于Pseudoviridae家族,而Gypsy和BEL属于Metaviridae家族。
根据逆转录酶的系统发生关系,除了逆转录病毒之外,LTR逆转座子还与两个病毒家族相关:乙肝病毒和十字花科病毒,它们偶尔也被整合到基因组中。植物的十字花科病毒通常会整合到基因组中,而Repbase为它们设置了一个类别(整合病毒-十字花科病毒)。
非LTR逆转座子(Non-LTR)没有LTR,通常在其3′-端具有poly A或简单重复序列。非LTR逆转座子编码三种类型的内切酶之一:限制内切酶样(RLE)、去嘧啶内切酶样(APE)或GIY-YIG内切酶。Dualen是一个例外,它同时编码RLE和APE。内切酶在DNA的一个链上产生切口,反转录酶利用暴露的3’端作为引物,使用非LTR逆转座子的mRNA作为模板,开始反转录。这种机制被称为目标引导的逆转录(TPRT)。TPRT也被用作II类自剪切内含子的整合机制,这些内含子也具有反转录酶。II类内含子在真核细胞核基因组中不存在,因此Repbase中没有II类内含子的条目。
非LTR逆转座子被分为多个组(CRE、R2、Dualen/RandI、Ambal、L1、RTE、I和CR1),并进一步分类为许多分化枝。”分化枝”这个分类术语最初是由Malik和Eickbush在1999年提出的,目前已经提出了30多个分化枝,使得非LTR逆转座子的分类变得复杂。GIRI提供了一个简单的分类工具RTclass1,该工具是基于邻接树和参考非LTR逆转座子构建的。截至2016年12月,Repbase的分类中包含了32个分化枝(CRE、NeSL、R4、R2、Hero、RandI/Dualen、L1、Proto1、Tx1、Proto2、RTE、RTEX、RTETP、I、Nimb、Ingi、Vingi、Tad1、Loa、R1、Outcast、Jockey、CR1、L2、L2A、L2B、Kiri、Rex1、Crack、Daphne、Ambal、Penelope)。
非自主非LTR逆转座子显示出复合结构,它们被称为短散在元件或SINE,对应于长散在元件或LINE,即非自主非LTR逆转座子的同义词。根据SINE的5’端的起源,Repbase将SINE分为5个组别。SINE1代表7SL RNA,SINE2代表tRNA,SINE3代表5S rRNA,SINEU代表U1或U2 snRNA,SINE4代表未知起源。对SINE的另一种分类方式是基于它们中间区域的相似性。CORE-SINE、V-SINE、Deu-SINE(或Nin-SINE)、Ceph-SINE和Meta-SINE都是提出的分类方式,尽管Repbase没有使用这种分类,因为它与基于5’端起源的分类相矛盾。部分条目在关键词部分有这些分类术语。
II 类转座子(DNA转座子)
截至2016年12月,Repbase中包含了23个II类超家族。其中,Helitron、Polinton和Crypton与其他DNA转座子具有明显的特点不同。18个超家族(Mariner/Tc1、hAT、MuDR、EnSpm/CACTA、piggyBac、P、Merlin、Harbinger、Transib、Polinton、Kolobok、ISL2EU、Sola、Zator、Ginger1、Ginger2/TDD、IS3EU和Dada)编码D-D-D/E型整合酶/转座酶用于催化整合反应。这些转座酶与LTR逆转座子的整合酶在催化结构域核心部分相似,特别是Ginger1、Ginger2/TDD和Polinton超家族,很可能与LTR逆转座子有共同起源。目前对Academ、Novosib和Zisupton的核心催化结构域仍然了解较少,其编码蛋白可能与经典的D-D-D/E型整合酶无关。值得注意的是,除了催化残基外,其序列保守性很低,含有共同的D-D-D/E核心序列并不能意味共同起源;它们有可能是独立进化的。整合酶分类是基于RNase H结构域的三级结构。
值得注意的是,目前对这些超家族的解析和理解还不够充分, 其分布范围和亚结构特征、 家族分类并没有完全固定,随着研究深入,可能会发现新的家族,进行重新分类。例如,之前,Harbinger和ISL2EU与已知的原核DNA转座子IS5家族相似。最近,还发现了另外三个相似的家族:Spy、Nuwa和Pangu。目前这三个名称尚未录入Repbase,但将来有可能将它们与其他两个家族合并为一个,命名为Harbinger。
EnSpm/CACTA和Transib在第二个保守位点D和E之间共享一些保守残基。以前在Repbase分类中将Mirage和Chapaev分为两个超家族,现在基于它们的相似性,已将其归为EnSpm/CACTA超家族。
MuDR、P、hAT、Kolobok和Dada在第二个保守位点D和E之间共享着基序C/DxxH。 现在已将Rehavkus归为MuDR 超家族 。据报道,MuDR与原核IS256家族相似。
Tc1/Mariner和Zator与原核IS630家族相关。Merlin与原核IS1016家族相关。Ginger1、Ginger2/TDD、Polinton以及LTR逆转录转座子的整合酶与原核IS3/IS481家族的整合酶相关。Sola被细分为三个类型,即Sola1、Sola2和Sola3。
Crypton编码一种酪氨酸重组酶,这种酶也存在于一些原核DNA转座子和DIRS逆转录转座子中。Crypton可以细分为几个亚类(CryptonA,CryptonF,CryptonI,CryptonS和CryptonV),它们可能在真核生物中共享或不共享共同的祖先;它们可能是独立地从原核DNA转座子中进化而来的。
Helitron编码一种螺旋酶和HUH核酸酶的蛋白质,最近通过实验分析揭示了Helitron的转座机制。Helitron可以细分为两个亚类,Helitron1和Helitron2,尽管Repbase尚未实施这种分类。
Polinton,也称为Maverick,推测其以与其他DNA转座子类似的方式进行转座,但它可能生成外染色体DNA,并通过编码的DNA聚合酶自行复制。最近,Polinton被认为是一种能整合到基因组中的内源性病毒,其病毒形态被称为Polintovirus。
Repbase还包含其他类型的重复序列,如卫星重复序列(SAT)和微卫星(MSAT),多拷贝基因(rRNA、tRNA、snRNA),整合病毒(DNA病毒和Caulimoviridae)以及未知重复序列(Repeats)。请注意,Repbase中的多拷贝基因条目仅代表,不始终对应特定的功能拷贝或明显的伪基因化拷贝。
作者: Kenji K. Kojima, Ph. D. 中文润饰:Mobilome Lab
三、TE鉴定和定位
鉴于大多数真核基因组中TE的高度多样性以及物种间序列保守性的较低,从基因组中挖掘TE序列(定位或检测)通常是一项挑战。在某种程度上,可以通过Censor或RepeatMasker在参考TE库(Repbase数据库)中进行BLAST来完成这项任务。对于新的基因组序列,有必要从头开始进行TE挖掘和鉴定。为实现这一目标,已开发了大量计算挖掘工具。基于底层方法,这些工具可以分为三类。第一类基于TE的同源性或重复性,例如RepeatScout和Recon。第二类基于特定类型TE的结构特征。第三类基于比较基因组方法。不同的挖掘工具在性能上各有局限性。一些程序尝试结合多种方法,例如REPET和RepeatModeler。到目前为止,这些自动化工具的一个普遍问题是,输出序列中有相当数量的序列精度和注释存在一些缺陷。通常仍然需要手动校准才能获得完整的、高质量的TE家族一致序列。Repbase采用的工作流程如下所示。

作者: Weidong Bao, Ph. D. 中文润饰:Mobilome Lab
四、对基因组的影响
疾病
转座子的转座发生在基因区或靠近基因可能会通过破坏蛋白质编码序列或改变基因表达或调控方式,可能对个体产生有害影响。由转座子转座引起的遗传疾病和癌症已经很多报道。虽然转座子的存在可能对个体基因组产生负面影响,但其在生物基因组进化中可能具有积极意义。
基因组大小
除了整个基因组重复之外,转座子也对基因组大小的差异起决定作用。一些关于进化相近的物种研究表明,其基因组大小差异可能是转座子的差异扩增引起的。
驯化和适应
转座子可以作为宿主基因的来源。人类部分基因起源于转座子。最著名的例子是重组激活基因1(Rag1),该基因的蛋白质催化免疫球蛋白基因的V-D-J重组,是抗体多样性的主要贡献者。Rag1基因起源于属于Transib超家族的DNA转座子。另一组DNA转座子Cryptons对至少6个人类基因的起源有贡献作用,其中4个是拟同源基因。逆转录转座子和DNA转座子均对人类基因起源有重要贡献。Syncytin1基因来自内源性逆转录病毒的一个包膜蛋白基因,对胎盘的形成起到了作用。peg10基因起源于LTR逆转录病毒的Gypsy超家族,而该基因周围的甲基化状态只在父系遗传的染色体上被抑制,控制胎儿发育。这些事件被称为“分子驯化”,其中整个或部分转座子与其宿主生物体的系统整合在一起。“适应”特指转座子的一部分被整合到宿主功能基因组系统,而不仅仅作为蛋白质编码基因的一部分。 转座子可以作为启动子、增强子、隔离子、内含子剪接位点、聚腺苷酸化信号或其他细胞功能发挥作用。一个例子是起源于一个古老SINE元件(LF-SINE)的增强子,它控制四足动物肢体中ISL1基因的表达。还有许多其他例子表明, 转座子是超保守元件(UCEs)的主要贡献者,并在很长进化过程中高度保守。研究表明古老的超保守元件(UCEs)富集转座子序列。
载体亚群体(CASP)假设
Jerzy Jurka领导的GIRI团队提出了一种称为“载体亚群体(Carrier subpopulation,CASP)”的假设。它可以解释每个物种中活跃的转座子家族的类型差异。在物种形成过程中,一个大型种群被分成许多小的亚群体。在每个亚群体中,不同的转座子家族进行繁殖,并由于遗传漂变而随机固定。在一个小亚群体中,稍微不利的突变,如转座子的转移,可能会被固定。这表明新的转座子拷贝可以在随机情况下被固定。在固定后,转座子拷贝可以被清除,或驯化/适应,形成基因组功能元件。
作者:Kenji K. Kojima, Ph. D. 中文润饰:Mobilome Lab