转座子科普:维基百科

Transposable element – Wikipedia

转座元件

转座元件(TE),也称为转座子或跳跃基因,是DNA中的一种核酸序列,可以在基因组内改变其位置,有时会介导产生突变或逆转突变,从而改变细胞的遗传特征和基因组大小。转座往往导致相同遗传物质的复制。在人类基因组中,L1和Alu转座子是两个典型例子。巴巴拉·麦克林托克在1983年因发现转座子而获得了诺贝尔奖。 转座子在个性化医学中的重要性日益凸显;在多维大数据组学分析中,转座子也越来越受到关注。

在真核生物中,转座子占据了基因组的很大一部分,是真核细胞中DNA质量的主要决定因素。尽管转座子是自私的遗传元件,但许多转座子在基因组功能和进化中都发挥重要作用。转座子对于科学研究人员来说也非常有用,可以利用转座子对活有机体进行体内DNA遗传修饰。

转座子至少可以分为两大类:I类转座子(也称逆转录转座子),通常需要通过逆转录方式介导转座,而II类转座子(也称DNA转座子),能编码转座酶,介导转座(包括转座子在原有位置的切除和和新位置的插入),有些转座子也编码其他蛋白质。

巴巴拉·麦克林托克的发现

巴巴拉·麦克林托克在纽约的冷泉港实验室进行断裂染色体的玉米植株实验时,发现了玉米中的第一个转座子。

在1944年至1945年的冬天,麦克林托克播种了自花授粉的玉米种子,意味着花的柱头上的丝(花柱)接受了自己的花药的花粉。这些种子来自一个长期进行自花授粉的植株系列,导致它们第九条染色体末端出现断裂的情况。当玉米植株开始生长时,麦克林托克注意到叶片上出现了不寻常的颜色图案。例如,一片叶子上有两个大小几乎相同的白化斑块,位于叶子的一侧。麦克林托克推测,在细胞分裂过程中,某些细胞丧失了遗传物质,而其他细胞则获得了它们丧失的物质。然而,当她将当前一代植物的染色体与亲代一代进行比较时,她发现染色体的某些部分发生了位置互换。这证明了当时流行的遗传理论(即基因在染色体上的位置是固定的)是错误的。麦克林托克发现基因不仅可以移动,还可以在特定的环境条件下或细胞发育的不同阶段中打开或关闭。

麦克林托克还证明了基因突变可以逆转。她在1951年向大家展示了她的研究结果,并于1953年11月在《遗传学》杂志上发表了一篇题为《玉米中特定位点的不稳定诱导》的文章,详细介绍了她的发现。

在1951年的冷泉港研讨会上,她首次公开发布她的研究结果时,会场陷入了死一般的寂静。她的工作在很大程度上被忽视和忽略,直到20世纪60年代末和70年代,当人们发现在细菌中也存在转座子时,才重新认识到她研究成果的价值。1983年,因为转座子的发现,她获得了诺贝尔生理学/医学奖,这离她首次报道转座子研究已过去30多年。

转座子分类

转座子是基因组上中几种可移动遗传元件(现也称为转座组)之一,转座组可分为四类:自剪接寄生分子、质粒、噬菌体和转座子。根据它们的转座机制,转座子被分为两类,可以定义为复制粘贴(第I类转座子)和剪切粘贴(第II类转座子)。

逆转录转座子

逆转录转座子(I类转座子)通过两个阶段进行复制:首先,它们从DNA转录为RNA,然后产生的RNA被逆转录为cDNA。这个复制的DNA然后被插入到基因组的新位置。逆转录步骤由逆转录酶催化,该酶通常由转座子本身编码。逆转录转座子的特征类似于逆转录病毒,如HIV。

逆转录转座子通常分为三个主要类别:具有长末端重复序列(LTR)的逆转录转座子,它们编码逆转录酶,类似于逆转录病毒;长散在重复序列(LINEs,LINE-1或L1s)的逆转座子,它们编码逆转录酶但缺乏LTR,且被RNA聚合酶II转录;短散在重复序列(SINEs)不编码逆转录酶,由RNA聚合酶III转录;逆转录病毒也可以被视为转座子。例如,在宿主细胞内将逆转录病毒RNA转化为DNA后,新产生的逆转录病毒DNA被整合到宿主细胞的基因组中。这些整合的DNA被称为原病毒。原病毒是真核逆转录转座子的一种特殊形式,可以产生离开宿主细胞并感染其他细胞的RNA中间体。逆转录病毒的转座循环与原核转座子具有相似之处,暗示了两者之间可能具有远缘的进化关系。

DNA转座子

剪切-粘贴型II类转座子的转座不涉及RNA中间体。目前已知多种类型催化转座的转座酶。一些转座子非特异性地、相对随机地整合到靶DNA,而有些转座子具有整合特异性,能够整合到靶DNA的特定序列。转座酶在靶位点上进行错位断裂并产生粘性末端,然后切除DNA转座子并将其连接到目标位点上。DNA聚合酶负责修复由转座酶剪切产生的粘性末端缺口,DNA连接酶闭合糖磷酸骨架。这样就导致了在整合靶位点产生TSD序列,因此可以通过TSD(靶DNA中的错位断裂,然后由DNA聚合酶修复产生的)及其相连的TIR(或者反向重复序列,转座酶催化的识别序列)来鉴定DNA转座子的插入位点。

如果“剪切-粘贴”转座元件在细胞周期的S期发生转座时,可能会发生复制。在这种情况下,供体位点已经被复制,而目标位点尚未被复制。这样,在目标位点发生的复制可以导致基因的复制,对基因组进化中起重要作用

并非所有的DNA转座子都通过剪切-粘贴机制进行转座。在某些情况下,观察到复制性转座,其中转座子将自身复制到新的目标位点。 II类转座子占人类基因组的不到2%, 人类基因组上其余转座子均属于类I转座子。

自主和非自主转座子

在I类和II类转座子中,转座可以分为“自主”和“非自主”两类。自主转座子可以自行移动,而非自主转座子需要另一种转座子的存在才能移动。这通常是因为非自主转座子缺乏转座酶或逆转录酶。

活化元件(Ac)是自主转座子的一个例子,而解离元件(Ds)是非自主转座子的一个例子。没有Ac的存在,Ds无法进行转座。

III类转座子

一些研究人员还将转座子划分为第III类[18],这被描述为“一个杂乱的包,包含那些不明确属于其他两个类别的转座子”[19]。这类转座子的例子包括果蝇的折返(Foldback)元件,紫色棘球海胆的TU元件,以及迷你倒置重复转座子。

TE分布

大约64%的玉米基因组由转座元件组成,人类基因组中也有44%,小鼠基因组中几乎有一半。

新的研究发现转座子在转录起始位点(TSSs)和增强子序列中均有分布。 最近的一项研究发现,一个启动子25%的区域包含转座子。众所周知,较古老的转座子一般不会出现在TSS位置,因为一旦与TSS有一定距离,转座元件的频率就会开始发生变化。其中一个可能的理论是转座子可能会干扰基因转录,致转录暂停或影响基因第一内含子剪接。此外,正如之前提到的,与TSS位置相邻的转座子的存在与其进化年龄相关(转座子在此期间可以发生的不同突变数量)。

例子

第一个转座子(TEs)是在玉米(Zea mays)中被芭芭拉·麦克林托克在1948年发现的,她因此后来获得了诺贝尔奖。她注意到这些元素引起的染色体插入、缺失和易位。基因组的这些变化可能导致玉米颗粒颜色的改变。约64%的玉米基因组由TEs组成。麦克林托克描述的Ac/Ds系统属于Class II TEs。 B. Baker的研究证实了 Ac能够在烟草中转座。在池塘的有些微生物中, TEs起着至关重要的作用, 如 Oxytricha,一旦移除TE,该生物将无法发育。

果蝇(Drosophila melanogaster)中的一类TEs被称为P元件。它们似乎只在二十世纪中叶才出现在这个物种中;但在过去50年里,它们传播至该物种的每个群体。杰拉尔德·M·鲁宾和艾伦·C·斯普拉德林 通过注射胚胎,开创性地使用人工P元件将基因插入到果蝇胚胎中。

在细菌中, 除了转座基因 ,TEs通常携带有其他功能基因,大多是用于抗生素抗性基因。在细菌中,转座子可以从染色体DNA跳到质粒DNA,然后再跳回来,从而实现基因的转移和永久侵入,例如编码抗生素抗性的基因(通过这种方式可以产生多抗生素耐药的细菌菌株)。属于这种类型的细菌转座子属于Tn家族。当细菌转座子无额外功能基因时,它们被称为插入序列。

在人类中,最常见的转座子是Alu序列。它的长度约为300个碱基,并且可以在人类基因组中出现300,000到一百万次。仅Alu就估计占人类基因组的15-17%。

类Mariner元件是在多个物种中发现的另一类转座子的显著类别,包括人类。Mariner转座子最早由雅各布森和哈特尔在果蝇体内发现。这种属于Class II的转座子以其在很多物种中广泛的横向传播而闻名。人类基因组中估计有14,000个Mariner的扶风,包含260万个碱基对。最早在动物之外发现的Mariner转座子存在于阴道滴虫中。类似Mu噬菌体的转座是可复制转座的最著名的例子。在酿酒酵母(Saccharomyces cerevisiae)基因组中,有五类不同的逆转座子家族:Ty1,Ty2,Ty3,Ty4和Ty5。helitron 转座子是一种在真核生物中发现的转座子,被认为通过滚环机制复制。

在人类胚胎中,两种类型的转座子结合形成非编码RNA,催化干细胞的发育。在胚胎生长的早期阶段,胚胎内部细胞团随着这些干细胞的增加而扩展。这种细胞类型的增加非常重要,因为后来干细胞会改变形态,并产生身体中的所有细胞。 在斑驳蛾中,一个称为cortex的基因中的一个转座子导致斑驳蛾的翅膀完全变黑。这种颜色的改变帮助斑驳蛾在工业革命期间的灰尘和烟灰覆盖环境中具有更好的适应性。埃及库蚊携带着大量且多样化的转座子。马修斯等人(2018)的研究表明这是所有蚊子基因组的普遍现象。

负面影响

转座子与真核生物共存了数千年,并通过共存而融入了许多生物体的基因组中。俗称为“跳跃基因”的转座子可以在基因组内部和基因组之间移动,从而实现这种整合。

虽然转座子在宿主真核基因组中有许多积极的作用,但也有一些转座产生的突变导致的疾病和恶性遗传改变。

诱变机制

转座子是一种基因诱变剂,转座子序列对细胞中很多转录因子关联的新顺式DNA调控元件的形成有贡献;转座子可以经历很多进化性突变和改变。这些突变经常会导致遗传疾病和异位表达产生的潜在致死效应。

TEs可以以不同的方式损伤宿主细胞的基因组:将自身插入到功能基因中的转座子或逆转录转座子可以使该基因失效。DNA转座子离开基因后,可能无法正确修复所产生的缺口。多个相同序列的拷贝,如Alu序列,可以在有丝分裂和减数分裂期间妨碍染色体的精确配对,导致不均等交叉互换,这是染色体重复的主要原因之一。TEs使用多种不同的机制在宿主基因组中引起遗传不稳定性和疾病。表达致病蛋白和破坏性蛋白质,从而抑制正常细胞功能。许多转座子包含启动其自身转座酶转录的启动子。这些启动子可以引起与其连锁基因的异常表达,引发疾病或突变表型。

TE与疾病

血友病A和B

已经证明插入在人类凝血因子VIII上的LINE1(L1)TE会导致血友病,导致严重联合免疫缺陷。

L1插入到APC基因中会导致结肠癌,证实TE在疾病发展中起到重要作用。

卟啉病 Alu元素插入到PBGD基因中会干扰编码区并导致急性间歇性卟啉病。

癌症易感性

LINE1(L1)TE和其他逆转录转座子与癌症相关,因为它们会导致基因组不稳定性[43]。

杜氏肌营养不良

由于SVA转座子插入到福氏蛋白(FKTN)基因中导致基因失活。

阿尔茨海默病和其他tau蛋白病

转座子元素调控失灵可以导致神经元死亡,从而引发神经退行性疾病。

转座频率、诱导机制和机体防御

一项研究估计了一种特定逆转录转座子(Saccharomyces cerevisiae的Ty1)的转座频率。根据几个假设,每个单个Ty1元素成功转座事件的速率大约是每几个月到每几年一次。一些转座子包含类似热应激蛋白的启动子,如果细胞受到压力的影响,它们的转座率会增加,从而增加这些条件下的突变率,这可能对细胞是有益的。

细胞采用多种方式来防御转座子的增殖。其中包括piRNA和siRNA,它们在转座子转录后沉默其活性。如果生物有机体基因组主要由转座子组成,可能很多人会认为由于转座子错位而引起的疾病非常普遍,但在大多数情况下,这些转座子会通过表观遗传机制(如DNA甲基化、染色质重塑和piRNA)被沉默,因此几乎没有表型影响,也不会像某些野生型植物的转座子那样发生移动。已经发现某些突变植物存在甲基化相关酶(甲基转移酶)的缺陷,从而导致转座子的转录,进而影响表型。

有一个假设认为,尽管LINE1相关序列占据人类基因组的17%,但只有大约100个拷贝是活跃的。在人类细胞中,LINE1序列的沉默是由RNA干扰(RNAi)机制控制。令人惊讶的是,RNAi序列是来自LINE1的5’非翻译区(UTR),一种反复出现的长末端序列。据推测,编码LINE1的正义启动子的5′ LINE1 UTR也编码了miRNA的反义启动子,后者成为产生siRNA的底物。在这个区域抑制RNAi沉默机制会导致LINE1转录的增加。

转座子进化

转座子几乎分布于所有的生命形式中,科学界仍在探索它们的进化以及它们对基因组进化的影响。目前尚不清楚转座子是起源于最后一个通用祖先,还是有多次独立起源,或者是只有一次起源,然后通过基因水平转移,传播到其它王国。尽管一些转座子对宿主有益,但大多数被视为自私的DNA寄生物。在这一点上,它们与病毒类似。各种病毒和TEs在基因组结构和生化功能方面有些共同特征,这也导致它们可能拥有一个共同祖先的猜测。

转座子存在于几乎所有的生命形式中,科学界仍在探索它们的进化以及它们对基因组进化的影响。目前尚不清楚TEs是起源于最后一个通用祖先,还是多次独立地产生,或者是起源一次然后通过水平基因转移传播到其他界。尽管一些转座子对宿主有益,但大多数被视为自私的DNA寄生物。在这一点上,它们与病毒类似。各种病毒和转座子在基因组结构和生化能力方面也共享一些特征,这导致了它们共有一个共同的祖先的猜测。

然而,在基因组中存在大量的转座子可能仍然具有进化上的优势。基因组中的散在重复序列是在长期进化中积累的转座事件形成的。因为散在重复序列会阻止基因转换,它们可以保护新基因序列不被类似的基因序列覆盖,从而促进新基因的发展。转座子可能还被脊椎动物的免疫系统共进化来产生抗体多样性。V(D)J重组系统的运作机制与一些TEs类似。转座子还可以产生重复序列,进而形成双链RNA,为RNA编辑的ADAR提供作用底物。

转座子可以包含许多类型的基因,包括赋予抗生素抗性和转座到共轭质粒的能力的基因。一些转座子还包含整合子,这是能够捕获和表达来自其他来源的基因的遗传元素。整合子包含整合酶,可以整合基因盒。已经在基因盒中鉴定出超过40个抗生素抗性基因,以及毒力基因。

转座子并非总是精确地切除其元素,有时会去除相邻的碱基对;这种现象被称为外显子重排。重排两个无关的外显子可以创建一个新的基因产物,或者更有可能是一个内含子。

一些在植物中发现的非自主的DNA转座子可以从基因中捕获编码DNA并在基因组中进行重排。这个过程可以在基因组中复制基因(被称为转移复制现象),并且可以通过外显子重排来产生新的基因。

基因组上转座子的进化驱动因素

有一种假设认为,转座子可能为细胞提供了一种便利的DNA来源,可以被细胞利用来调节基因表达。研究表明,转座子与转录因子一起形成多种共进化形式,靶向调控转座子关联基因组元素和染色质,而这些序列是由转座子序列进化而来的。大多数情况下,这些特定形式不遵循转座子和宿主基因表达调控的简单模型。

应用

转座子作为遗传工具

转座子可在实验室和研究环境中被应用于研究生物体基因组甚至基因序列修饰。利用转座子可以分为两类:用于基因工程(genetic engineering)和作为基因工具(genetic tool)。

基因工程

插入性突变利用转座子的特性来插入一个序列。在大多数情况下,这种方法可以用来去除一个DNA序列或引发移码突变。在某些情况下,将TE插入基因中可以以可逆的方式干扰该基因的功能,通过转座酶介导的DNA转座可以恢复基因功能。 这可以用来制备相邻细胞具有不同基因型的植物。 这个特性允许研究人员区分那些必须存在于细胞内才能发挥功能的基因(细胞自主性),以及在非表达该基因的细胞中产生可观察效果的基因。

基因工具

除了基因工程提到的特性之外,转座子作为基因工具还可用于分析基因表达和在重要标签突变体研究(signature-tagging mutagenesis)中解析蛋白质功能。 这种分析工具使研究人员能够确定基因序列的表型表达。此外,这种分析技术还可以突变关注的兴趣基因位点,从而可以比较原始基因和突变基因的表型。

具体应用

转座子也是大多数可实验操作的生物突变的广泛使用工具。睡美人转座子系统已被广泛用作插入标签以识别癌症基因的工具。Tc1/mariner类TE睡美人转座子系统在哺乳动物细胞中具有活性,并正在被研究用于人类基因治疗。通过有无分析,TE被用于构建系统发育树。转座子可作为细菌中的生物突变剂。 已开发得较好的常见生物使用转座子的有:果蝇、拟南芥和大肠杆菌。

De novo(从头)识别重复序列

从头识别重复序列是对序列数据的初步扫描,旨在找到基因组的重复区域,并对这些重复进行分类。有许多计算机程序用于执行从头重复识别,都遵循相同的基本原则。由于短串联重复一般为1-6个碱基对长,并且通常是连续的,因此它们的识别相对简单。然而,散布的重复序列识别则更具挑战性,因为它们更长且经常发生突变。然而,识别这些重复是很重要的,因为它们经常被发现是转座子。

从头识别转座子包括三个步骤:1)找到基因组中的所有重复序列,2)建立每个序列家族的一致序列,3)对这些重复进行分类。第一步有三种算法。一种算法为k-mer方法,其中k-mer是长度为k的序列。在这个方法中,基因组被扫描以查找超过预期数量的k-mer;也就是说,k-mer的出现频率高于基于概率的期望。长度k由所搜索的转座子类型确定。k-mer方法也允许不匹配,该不匹配数量由分析人员确定。一些k-mer方法的程序使用k-mer作为基础,并延伸每个重复的k-mer的两端,直到它们之间没有更多的相似性,表示重复的结束。另一种算法使用一种称为序列自比对的方法。序列自比对程序使用诸如AB-BLAST的数据库进行初始序列比对。由于这些程序能够找到部分重叠的元件,因此它们对于找到高度差异的转座子或只有少部分区域被复制到基因组的其他部分的转座子非常有用。另一种算法采用周期性方法。这些算法对序列数据进行傅里叶变换,识别出周期性重复的区域,并能够利用频谱结果中的波峰找到候选重复元件。这种方法对串联重复效果最好,但也可用于散布重复。然而,它是一个较慢的过程,不太适合用于基因组规模的分析。

从头识别重复序列的第二步涉及建立每个序列家族的一致序列。一致序列是基于组成一个转座子家族的重复序列创建的。一致序列中的每一个碱基是根据用于创建一致序列的序列中最常出现的碱基确定的。例如,在一个包含50个重复的家族中,其中42个在同一位置具有一个T碱基,那么一致序列在该位置也为T碱基,因为该碱基在该特定位置上代表整个家族,并且很可能是该家族祖先在该位置上的碱基。一旦为每个家族建立了一致序列,就可以继续进行进一步的分析,如转座子分类和基因组定位注释,以便量化基因组中整体的转座子含量。

适应性转座子

通过调节附近基因的表达水平,转座子被认为是刺激基因适应的良好候选者。结合它们的”移动性”,转座子可以重新移动到目标基因旁边,并根据环境情况控制基因的表达水平。

在2008年开展的一项研究《High Rate of Recent Transposable Element–Induced Adaptation in Drosophila melanogaster》,以最近从非洲迁徙到世界其他地区的果蝇(Drosophila melanogaster)为基础,研究了转座子导致的适应性变化。尽管大部分转座子位于内含子上,该实验显示非洲种群和世界其他地区种群的基因表达之间存在显著差异。导致选择性清除的四个转座子在温带气候下的果蝇中更为常见,研究人员得出结论,气候的选择压力促使了基因的适应性变化。 通过这个实验证实:适应性转座子在自然界中很普遍,这类转座子通过调整基因表达使生物能够适应新的选择压力。

然而,并非所有适应性转座子的遗传效应都是对种群有益的。在2009年进行的一项研究表明,一个转座子在Jheh 2和Jheh 3之间插入,导致这两个基因的表达水平下降。这种基因的下调造成了果蝇发育时间延长和卵到成虫生存率降低。尽管这种适应性转座子在所有非非洲种群中以高频率观察到,但它没有在任何种群中固定下来。这并不难理解,因为种群倾向于支持更高的卵到成虫生存率,因此会试图清除这个特定转座子适应所导致的特征。

与此同时,已经有些研究表明由转座子引起的有利适应性变化。在家蚕中的开展研究表明,在EO基因的顺式调控区域中的转座子插入能够增强蜕皮激素20E的表达。在饥饿条件下,没有转座子插入的种群通常无法有效地调节激素20E,而具有转座子插入的种群具有更稳定的发育,这导致了种群更高的发育一致性。

这三个实验都证实了转座子插入可以以不同方式调节邻近基因的表达水平,从而产生有利或不利的影响。适应性转座子研究领域目前仍在发展中,将来可以期待更多的发现。

转座子参与基因控制网络

最近的研究证实转座子可以促进转录因子的形成。然而,这种贡献过程如何影响基因组调控网络仍不清楚。转座子在DNA的诸多区域中广泛存在,占人类DNA总量的45%。此外,转座子还贡献了16%的转录因子结合位点。非转座子来源DNA中也发现了很多基序,且数量大于转座子起源DNA。所有这些因子与转座子一起协同直接参与多种方式的基因网络调控。