生物工程学报  2018, Vol. 34 Issue (6): 852-861


李双双, 张迎新, 范成明, 陈宇红, 邓传良, 胡赞民
Li Shuangshuang, Zhang Yingxin, Fan Chengming, Chen Yuhong, Deng Chuanliang, Hu Zanmin
Advances in haplotype analysis technique
生物工程学报, 2018, 34(6): 852-861
Chinese Journal of Biotechnology, 2018, 34(6): 852-861


Received: November 16, 2017
Accepted: January 19, 2018
李双双1,2, 张迎新2,3, 范成明2, 陈宇红2, 邓传良1, 胡赞民2,3     
1 河南师范大学 生命科学学院, 河南 新乡 453007;
2 中国科学院遗传与发育生物学研究所, 北京 100101;
3 中国科学院大学, 北京 100049
收稿日期:2017-11-16; 接收日期:2018-01-19
基金项目:国家转基因专项(No.2014ZX0801006B), 国家自然科学基金(No.31170209), 国家重点研发计划(No.2016YFD0102003-10)资助
摘要:单倍型是指共存于单条染色体上的一系列遗传变异位点的组合, 每条染色体都有自己独特的单倍型。单倍型分析技术作为一种常用的数据分析方法, 是寻找单染色体上杂合SNP变异位点的有效方法, 也对挖掘致病基因、寻找疾病治疗新方法有重要作用。它主要包括间接推断法和直接实验法。文中介绍了各种单倍型分析方法及应用, 尤其详细介绍了单分子稀释法和保留邻近性的转座酶测序法, 同时对单倍型分析技术的应用前景进行了展望。
关键词单倍型     单倍型分析技术     间接推断法     直接实验法     单倍型组装    
Advances in haplotype analysis technique
Shuangshuang Li1,2, Yingxin Zhang2,3, Chengming Fan2, Yuhong Chen2, Chuanliang Deng1, Zanmin Hu2,3     
1 College of Life Sciences, Henan Normal University, Xinxiang 453007, Henan, China;
2 Institute of Genetics and Developmental Biology, Chinese Academy of Sciences, Beijing 100101, China;
3 University of Chinese Academy of Sciences, Beijing 100049, China
Abstract: Haplotype is the combination of a series of genetic mutations that coexist on a single chromosome, each of which has its own unique haplotypes.As a common data analysis method, the analysis of haplotype is effective for the localization of heterozygosis SNPs on single chromosome, the excavation of disease genes and the search of maladies treatments.It mainly includes indirect computational inferential method and direct experimental method.In this review we introduced various haplotype analysis methods and applications, especially two important ones:single-molecule dilution and contiguity-preserving transposition sequencing common technology.Meanwhile, further research prospects on haplotype sequencing were proposed.
Key words: haplotype     haplotype analysis technique     indirect computational inferential method     direct experimental method     haplotype assemblies    


单倍型技术主要应用领域包括:在医学上探索致病机理,挖掘致病基因,寻找疾病治疗新方法[8-10];在群体遗传学上分析等位基因间差异[2, 11-12],追踪个体亲缘关系[13],了解生物迁徙模式和进化历史[14-16];在农业上发掘优异等位基因变异,探索杂种优势理论等[17-18]。因此,单倍型的研究具有重要的理论意义和实用价值。


1 单倍型分析技术研究进展

单倍型分析技术主要分为两大类型,间接推断法和直接实验法。间接推断法是借助计算机通过统计学方法,从参考基因组中推断出样本单倍型[6]。随着新一代测序技术的快速发展,人们可以比较容易获得大量的基因组信息,这是间接推断法的基础。直接实验法是指用单分子稀释、染色体微切割和流式分离法等特殊实验方法在一段有限的染色体区域或单染色体获得精确的单倍型信息[3]表 1为重要单倍型分析技术的比较。

表 1 重要单倍型分析技术方法比较 Table 1 The comparison of mainly haplotype analysis techniques
Population-based inferential method26] Pedigree-based inferential method[27] Single-molecule dilution method[28] Contiguity-preserving trans-position method[29] Microscopy-based chromosome isolation method[30]
Principle Constructing genetic pools of some related groups and using statistics to analyze the results Inferencing the genotyping of multiple individuals from the same family Dilution of HMW DNA fragments to sub-haploid genome equivalents, amplification (in bacteria or in vitro) and shotgun sequencing Combinatorial barcoding of sub-haploid fractions of HMW DNA through transposition with barcoded Tn5 complexes followed by barcoding PCR Isolation, random amplification and shotgun sequencing of individual chromosomes
Sample type Multiple mixed samples Same family Unphased samples Unphased samples Unphased samples
Advantages Easy to operate, save time, cheap Modest cost and high scalability The avoidance of large-insert cloning, low input requirements The avoidance of MDA-associated amplification biases Saving time, the low requirement of template content, high accuracy
Disadvantages Limited by the magnitude and extent of linkage disequilibrium, low-frequency variants, private variants Unable to phase de novo variation in the last generation Challenging in diluting each pool into same density Requiring amount of DNA Challenging in technology and not readily scalable
Notable applications An integrated map of genetic variation from 1 092 human genomes[23] Analysis of genetic inheritance in a family quartet[21] Phased genome and epigenome of HeLa cells[31] De novo genome assembly[32] Researching molecular haplotypes by chromosome microdissection[30]
1.1 间接推断法


经文献报道,单倍型推断的方法也多种多样,相继出现了Clark法[26]、最大期望(Expectation- Maximization,EM)算法[33]、相位(Phase)法[34]和快速相位(fastPhase)法[35]等推断手段[36],其中前3种技术是目前大家普遍使用的推断方法。Clark法是最先产生的单倍型推断技术,根据纯合或杂合的基因型确定已知的单倍型,然后用这些已知的单倍型去和其他杂合待测样本基因型比对,如果该杂合个体的单倍型中有一条和已知的单倍型相同,则相应的另一条单倍型为新的单倍型,循环往复以至找不到新的单倍型为止。最大期望法是把样本各种可能的单倍型都罗列出来并给出一个假定的出现概率,然后通过一步步检测最终确定出待测样本的单倍型。相位法是根据参考样本基因型信息对任意个体通过吉布斯抽样法(Gibbs)逐步获得杂合样本的单倍型。总体来讲这3种算法中相位算法准确性最好,Clark算法其次,最大期望法居中。然而,它们虽然简便,但根据算法的不同,错误率高达19%−48%[37]。也并不是所有样本的单倍型都能用推断法获得,一些特殊的样本并不适用于这种方法[38]。例如,杂合样本单染色体SNPs差异的研究和同源染色体之间等位基因的差异分析等[11, 28]

1.2 直接实验法


1.2.1 稠密位点单倍型法

大量文献报道,稠密位点单倍型法能获得染色体上97%的单倍型信息,结果也更精确,应用最普遍。它主要包括单分子稀释法(Single-molecule dilution)[46-48]、长片段插入克隆法(Long-insert cloning)[49-50]、保留邻近性转座酶测序法(Contiguity-preserving transposition sequencing,CPT-seq)[51-52]、目标位点扩增(Targeted locus amplification,TLA)[53]等。这些方法都需要先将样本基因组DNA片段化,再用0.8%琼脂糖凝胶电泳检测高分子量(High-molecular-weight,HMW)的DNA片段,最后运用不同的单倍型测序方法获得样本的单倍型信息。以下具体介绍一下单分子稀释法和保留邻近性的转座酶测序法这两种最常用的方法。单分子稀释法是把HMW DNA随机稀释到96孔板中组成许多单倍型亚池并对每个单倍型分子用多重置换扩增法(Multiple displacement amplification,MDA)扩增,再在所有扩增片段两端加上测序识别标签并进行高通量测序,最后把测序结果按照识别标签序列进行分选并根据参考基因组序列进行拼接组装,得到样本的单倍型序列。它需要借助计算机把小的DNA片段组装成较长的单倍型序列[48]。MDA法是Lizardi等于2004年创建的一种基于环状滚动扩增的链置换全基因组扩增技术[54]。该技术利用φ29DNA聚合酶的强链置换活性和核酸外切酶活性,以短链寡核苷酸为引物,可对微量DNA模板进行扩增,并获得浓度达μg级的高质量DNA产物。MDA法不仅扩增效率高于传统的兼并引物扩增法,而且得到的DNA产物片段在kb级,长度也相对均一,能够满足高通量测序的要求。

单分子稀释法由Paul和Apgar教授首次成功运用于人类白细胞抗原位点的研究,对人类疾病的研究具有十分重要的意义,开创了单分子稀释法单倍型测序的先河[28]。2013年,Kaper等用该方法对两名杜氏肌萎缩症患者进行单倍型测序,找到了95%的SNP杂合位点[38]。2014年,Kuleshov教授等用统计学辅助的长序列单倍型测序技术(Statistically aided long read haplotyping,SLRH)对人类全基因组进行单倍型测序,发现了99%的SNP杂合位点,对我们寻找人类基因组上未知的甲基化区域和其甲基化模式有潜在的应用前景,同时对一些差异基因表达机制的研究也有重要作用[55]。然而,该方法也存在一些缺点,如工作量较大,每个亚池稀释到相同的浓度难度很大,具有微弱的扩增偏向性[3]

保留邻近性的转座酶测序法是利用Tn5转座酶紧密结合在HMW DNA片段上的特性使短DNA片段和接头序列紧密结合。首先将带有接头和Tn5转座酶的DNA片段随机分配到96孔板中组成许多单倍型亚池,每个亚池大约含有5%−10%的DNA,然后通过蛋白变性去除Tn5转座酶并通过PCR扩增引入新的标签序列,再将它们混合起来重新分配到96孔板中,这样就随机生成了超过9 200个虚拟隔室,每一个亚池都代表着不同的亚单倍型并进行高通量测序,测序结果按照识别标签序列进行分选并根据参考基因组序列进行拼接组装,得到样本的单倍型序列。该方法的先进性主要体现在以下两个方面:第一,它能通过Tn5转座酶把特异的接头和标签序列同时结合在长链DNA上,使DNA片段不被打乱并保留其邻近序列;第二,它通过转录和PCR两种方法相结合能将很长的单倍型片段分成上千个虚拟隔室,从而使测序结果更精确[29]。此外,该方法能将极短的DNA片段连接起来并保留其邻近序列,所得样本DNA片段均一性较好,克服了MDA扩增法引起的偏向性。2014年,Amini等首次在Nature Genetics杂志上提出了该方法,他们运用该方法成功获得了人类个体全基因组单倍型序列,由此开发了一种快速稳定高效且操作简便的单倍型测序新技术,为单倍型测序的发展开创了更广阔的空间[29]。随后,Adey教授等在该方法的基础上又结合fragScaff程序把目的序列组装成了更长的片段,N50增加了8-57倍。它能识别并锚定一些新的片段,同时又能剔除一些拼接错误的片段,大大提高了测序的精确度[32]。然而该方法也存在一些弊端,如需要的DNA量比长片段插入克隆法要多,单倍型组装比较困难。总而言之,保留邻近性的转座酶测序法以其快速、稳定、节约成本的特点深受科学家们的青睐,在未来人类基因组测序和临床医学领域都具有广泛的发展空间。

1.2.2 稀疏位点单倍型法

稀疏位点单倍型法主要包括单染色体测序法(Single chromosome sequencing)[2, 56]、单倍型测序法(HaploSeq)[57]、乳液PCR法(Emulsion PCR-based methods)[58-59]等。其中单染色体测序是最常见的方法。它是通过单染色体微切割、流式细胞仪分选和微流体分选这3种技术获得样本单染色体,然后用MDA法进行全基因组扩增再测序,拼接和组装就可得到样本的单倍型信息。它的应用也十分广泛。2010年,Li等用单染色体微切割技术分离人单染色体并进行长片段单倍型测序获得了20 000多个杂合位点的单倍型,其准确性高达98.85%,对检测单染色体SNP变异位点有重要作用[30];同年,Fan等报道了一种新的单染色体分离技术,对人单细胞进行微流体分选获得单染色体,然后进行单染色体单倍型测序获得其单倍型信息,对检测单染色体上SNP差异位点和基因重排有重要作用[2];2011年,Yang等发表了另一种高效的单染色体分离技术,对人用单染色体流式分离技术获得其单染色体,然后用MDA法进行全基因组扩增再测序,拼接和组装得到了几乎完整的单倍型信息,对人类疾病的研究提供理论依据[56]。总而言之,稀疏位点单倍型法能获得单染色体上几乎全部区域的单倍型信息,是一种较为常用的单倍型获取方法。

1.3 单倍型组装

无论是直接法还是间接法,都涉及到单倍型组装。然而目前常规的单倍型测序技术所得的序列长度较短,不能满足连锁的SNP变异位点样本的单倍型研究,单倍型组装一直是一个难点[60]图 1为个体单倍型组装基本流程[61]。通常个体基因组测序所得的信息是来自于两亲本的,如果对同一SNP位点不同序列分析发现其等位基因信息不同,则它们是来自不同亲本的染色体;反之,它们是来自相同亲本的染色体。就这样依次把所有的SNP位点数据进行分类,拼接组装相互关联起来就构建成了个体单倍型。随后,Bansal等提出了马尔可夫链蒙特卡尔(Markov chain Monte Carlo,MCMC)单倍型组装技术。该方法就是把样本的单条或多条序列信息转变为加权图,然后用计算机计算最小和最大切点进行组装,精确性提高20%−25%[61]。同年,Bansal等又推出了一种新的单倍型组装技术:超图分割法(Hypergraph approximation-Cut,HapCUT)。与马尔可夫链蒙特卡尔方法相比,HapCUT单倍型组装技术算法高效、更精确[62]。尽管该方法可以获得精确组装,但受序列长度的限制,对于一些较长的序列可能无法完全拼接和组装,就不能获得完整的单倍型信息。随后又出现一种基于Hi-C交互信息组装单倍型法,能解决传统方法不能越过着丝粒组装的问题,从而获得更好更完整的单倍型信息[63]。2017年,Edge等在HapCUT基础上又提出了HapCUT2单倍型组装技术。HapCUT2能对各种不同类型的数据进行组装,与HapCUT相比显著降低了组装的错误率,提高了序列组装的精确性,是目前单倍型组装效率最高的新技术[64]

图 1 单倍型组装流程图[61] Figure 1 Flow chart of haplotype assemble[61]
2 展望及应用前景


如今,单倍型分析技术有广泛的应用前景。第一,单倍型技术在人类群体遗传学的研究方面有重要应用。我们通过低精确度的单倍型计算方法就可以获得一些群体特异的单倍型信息,促进人类遗传进化的研究[19]。Schiffels教授对来自不同地区9个人群的基因组进行单倍型测序,最终发现南非人群祖先早在5万年前就与非洲约鲁巴人群发生分离。同时,他们也获得了2 000年前美洲、非洲、东亚和欧洲人类之间的进化关系[65]。Martin等用单倍型技术对来自不同国家人群的潜在致病等位基因进行研究并发现这些致病基因的携带者大部分都是芬兰人,而且它们的基因流动性很大。该研究对单倍型法研究群体进化历史和疾病的研究具有很好参考价值[20]

第二,单倍型分析技术在植物学领域也有应用,尤其是在水稻[17, 66]、玉米[67]和小麦[68]等主要农作物的遗传育种方面有非常重要的作用。杨教授等将高产与普通水稻品种单倍型比较分析发现两者差异较大,高产品种单倍型富含亮氨酸的重复受体激酶基因簇,通过对其结构和功能分析表明该基因簇对优良品种的选育有重要作用。同时,高教授等对不同玉米诱导系品种杂交产生不同基因型的单倍体玉米植株,获得高效诱导玉米单倍体的方法,该方法是目前获得玉米单倍体最为常用的方法[69]。Pozniak教授通过对控制硬粒小麦和普通小麦主干强度的基因进行单倍型分析并精确定位,对小麦育种有重要作用[68]。此外,单倍型分析技术在大豆[18]、苦瓜[70]等植物中也有类似的应用。



