Cell Research | 汤富酬课题组开发基于单分子测序平台的单细胞染色质可及性测序技术
2022年10月11日,北京大学生物医学前沿创新中心(BIOPIC)汤富酬课题组在Cell Research发表了题为scNanoATAC-seq: a long-read single-cell ATAC sequencing method to detect chromatin accessibility and genetic variants simultaneously within an individual cell的论文,首次报道了名为scNanoATAC-seq的基于三代测序平台(单分子测序平台)的单细胞染色质可及性测序技术。该技术整合了长读段单分子测序平台和单细胞染色质可及性测序技术(scATAC-seq:Single cell Assay for Transposase Accessible Chromatin with high-throughput sequencing)的优势,实现了在一个单细胞中同时检测染色质开放状态以及基因组结构变异。
scNanoATAC-seq拓展了人们对染色质可及性测序分析的认知。基于二代测序平台(NGS)的scATAC-seq技术仅富集了染色质局部开放区域上的基因组DNA短片段(通常80-300 bp),这些短片段被当作开放染色质(open chromatin)的信号。然而,在使用过量的Tn5转座酶切割并标记染色质局部开放区域的过程中也会产生一些长片段基因组DNA,这些长片段DNA是否包含染色质状态信息尚不清楚。
该研究开发了基于单分子测序平台的单细胞ATAC-seq测序技术(如图1所示),并且探索了其在生物学问题上的应用。首先该研究利用五种人类细胞系以及在体的人类外周血单核细胞,证实了scNanoATAC-seq技术可以像基于二代测序平台的scATAC-seq一样根据染色质开放状态对不同细胞类型进行准确分群并且揭示关键的染色质开放状态调控信息(如图2所示)。
图1. scNanoATAC-seq实验流程图(左)和分析原理图(右)
图2. scNanoATAC-seq对不同细胞类型进行分群的效果
接下来,该研究利用scNanoATAC-seq技术长读段的优势对等位基因特异性的染色质开放区域进行了准确鉴定。人体中绝大多数细胞类型都是二倍体细胞。对于二倍体细胞,基于二代测序平台的ATAC-seq技术要区分一个染色质开放区域的两个等位基因,需要在该开放区域(通常长度在80-300bp之间)内有杂合的单核苷酸多态性(SNP)位点。而基于三代测序平台的scNanoATAC-seq技术要区分一个染色质开放区域的两个等位基因,不需要该开放区域内有杂合SNP位点,而只需要在该开放区域两侧的各4000bp内有杂合SNP位点或者是杂合结构变异即可。相比于基于二代测序平台的ATAC-seq技术,基于三代测序平台的scNanoATAC-seq技术可以在同一个细胞系中检测到十倍以上的等位基因特异性的染色质开放区域。scNanoATAC-seq技术可以准确地对染色质可及性信号进行基因型分型(如图3所示,检测母源等位基因的准确率为99.1%,检测父源等位基因的准确率为88.1%)。例如,应用scNanoATAC-seq技术,该研究在人类B淋巴细胞系GM12878的印记基因TRIM61的启动子差异甲基化区域检测到了等位基因特异性的染色质开放区域(如图4所示,母源等位基因启动子区域染色质处于开放状态,父源等位基因启动子区域染色质处于关闭状态),而此染色质开放区域内在GM12878细胞系中不存在杂合SNP位点,不能被短读段的ATAC-seq方法测到。
另外,该研究发现,利用scNanoATAC-seq技术在GM12878细胞系中检测到的等位基因特异性的染色质开放区域主要富集在X染色体上。这与先前利用DNase I高敏感位点检测方法得到的结论一致。造成等位基因特异性的染色质开放倾向于发生在X染色体的原因是在GM12878细胞系中父源X染色体被沉默的细胞远多于母源X染色体被沉默的细胞。
图3. 用scNanoATAC-seq技术鉴定等位基因特异性的染色质开放区域的原理图
图4. 用scNanoATAC-seq技术鉴定出来的印记基因TRIM61的启动子差异甲基化区域的等位基因特异性的染色质开放区域
之后,该研究利用scNanoATAC-seq技术可以在一个单细胞中检测染色质开放状态的同时,还可以检测基因组中的各种结构变异事件(插入,缺失,重复,倒位,易位等)。以人类慢性髓系白血病(CML)细胞系K562的大量细胞基因组三代测序数据为基准,该研究发现scNanoATAC-seq技术在K562细胞系(至少5个单细胞支持)中分别检测到了7688个插入事件(占基准的64.6%)和6120个缺失事件(占基准的67.7%),准确度分别为93.8% 和75.5%。除了经典的BCR-ABL1易位事件,该研究也可以检测到长达89 kb的缺失事件,该缺失事件同时截断了ZRANB1和CTBP2两个基因(如图5所示)。而已知CTBP2可以抑制白血病细胞增殖,这意味着scNanoATAC-seq技术检测到了K562细胞系中潜在的导致抑癌功能缺失的结构变异事件。此外,scNanoATAC-seq技术还可以准确检测单个细胞的基因组拷贝数变异,能准确地区分出整倍体细胞和非整倍体细胞。
图5. 用scNanoATAC-seq技术鉴定出来的ZRANB1和CTBP2两个基因上的结构变异(大片段缺失)事件(上)以及PCR验证结果(下)
最后,该研究利用scNanoATAC-seq技术的长读段优势在GM12878细胞系中检测到了3868对染色质共开放事件。以SOX4基因上找的共开放事件为例,这些相邻的共同开放的基因组功能元件由直接连接两个开放区域的长读段支持,其读段长度分布与非共开放区域的读段长度分布明显不同(如图6和图7所示)。而利用基于二代测序平台的scATAC-seq技术分析染色质共开放事件高度依赖每个单细胞的检测覆盖度(或者说检测灵敏度),如果scATAC-seq的检测覆盖度比较低,就很难检测到染色质共开放事件。更重要的是,即使在scATAC-seq的检测覆盖度很高的情况下,其中一半的染色质共开放事件的信号是来自一个单细胞中两个不同等位基因的共同开放(例如:等位基因#1的增强子跟等位基因#2的启动子“共开放”),是技术假象,而基于三代测序平台的scNanoATAC-seq技术检测到的染色质共开放事件的信号都是来自单个DNA分子的直接连锁信息,都是真实的来自一个单细胞中同一个等位基因的共同开放事件(例如:等位基因#1的增强子跟等位基因#1的启动子共开放,或者等位基因#2的增强子跟等位基因#2的启动子共开放),没有上述这类技术假象。
图6. 利用scNanoATAC-seq鉴定相邻的调控元件共开放事件的原理
图7. 发生在SOX4基因附近的调控元件共开放事件
综上,scNanoATAC-seq技术拥有广泛的生物学应用前景。该方法可以在单个细胞中同时检测染色质可及性和基因组结构变异。该方法利用长读段优势可以在单个细胞中发现其内部没有杂合SNP位点标记的等位基因特异性的染色质开放区域,这是短读段的scATAC-seq技术无法实现的。该方法还可以发现具有直接证据支持的,发生在同一个等位基因不同调控元件上的共开放事件。scNanoATAC-seq技术的出现预示着单细胞表观基因组三代测序时代的到来。
值得讨论的是,在染色质开放程度较高的基因组DNA裸露区域,Tn5转座酶的浓度越高,得到的DNA文库片段越短。由此可以推断,在使用过量Tn5转座酶的情况下,scNanoATAC-seq技术捕获到的长读段的染色质开放区域中,除了通常的染色质开放区域(open chromatin)外,还可能存在开放程度较弱的染色质区域,例如宽容染色质区域(permissive chromatin),而这些是短读段测序无法检测到的。事实上,相较于基于二代测序平台的scATAC-seq技术, 基于三代测序平台的scNanoATC-seq技术检测到了更多的核小体占位信息(如图8所示)。另外,关于比对困难的基因组区域例如重复序列区域的染色质开放状态的研究,相较于二代测序平台的scATAC-seq,基于三代测序平台的scNanoATAC-seq也存在明显优势。以上问题都值得应用基于三代测序平台的scNanoATAC-seq技术进行深入探索,这也反映了开发scNanoATAC-seq技术的必要性。
图8. scNanoATAC-seq和10x scATAC-seq测序片段在转录起始位点附近信号富集的情况
北京大学生命科学学院博士后胡玉琼,博士生蒋振寰、陈坷璇为该论文的并列第一作者。北京大学生物医学前沿创新中心汤富酬教授为该论文的通讯作者。该研究项目得到了北大-清华生命科学联合中心、国家自然科学基金委、北京市科技委和北京未来基因诊断高精尖创新中心的支持。