结构变异(SVs)是遗传变异的重要类型,然而其在人类性状中的作用在很大程度上仍未明确,主要原因是在大规模人群中全基因组水平的基因分型存在技术挑战。
2026年5月20日,西湖大学杨剑独立通讯在Nature Genetics在线发表题为Genome-wide associations of structural variants with human traits through imputation from long-read assemblies的研究论文。
该研究从241个个体的PacBio HiFi长读长测序数据中,获得了482个单倍型解析的基因组组装,并从中鉴定出171,233个高质量的全基因组结构变异。作者开发了一个参考面板及网络应用程序(ImputeSV),用于从单核苷酸多态性(SNP)数据中插补这些结构变异,并在个体和群体层面验证了其高准确性。
利用该工具,作者对456,643名英国生物样本库(UKB)中欧裔参与者的54,578个常见结构变异(最小等位基因频率(MAF)≥1%)进行了插补。通过对UKB数据及模拟分析,作者估计结构变异至少占复杂性状常见遗传变异的4.7%。针对2,624个UKB性状的结构变异全基因组关联分析,共识别出17,335个结构变异-性状关联,其中958个关联不太可能由小规模遗传变异驱动。
本研究展示了利用长读长基因组组装从SNP插补结构变异的有效性,揭示了结构变异在复杂性状变异中的作用,并提供了UKB中结构变异关联的目录。
结构变异(SVs)通常定义为至少50个碱基对(bp)的基因组改变,是人类遗传变异的主要来源之一。这些变异遍布人类基因组,表现为插入、缺失、倒位及其他复杂事件等多种形式。
大量SVs存在于重复性基因组区域,这些区域通常由特定基序的串联重复序列组成,例如可变数目串联重复序列(VNTRs)。尽管大量研究表明SVs对人类性状和疾病具有重要影响,但针对SVs的全基因组关联研究(GWASs)仍远落后于针对小遗传变异(SGVs)的同类研究,这主要归因于在大规模队列中于全基因组水平检测和基因分型SVs所面临的挑战。
利用单核苷酸多态性(SNP)芯片数据进行SVs的检测和基因分型虽可行,但通常仅限于少数较大的SVs。通过短读长全基因组测序(srWGS)数据(例如来自英国生物样本库(UKB)和“全民健康研究项目”(All of Us)的数据)识别SVs,已显著优于使用SNP芯片的方法。
然而,利用srWGS数据在复杂基因组区域(如重复元件)中精确定位SVs仍是一项艰巨挑战,这导致每位个体可靠识别的SVs数量被限制在9,000至13,000个之间。当前SVs检测的金标准是高精度长读长WGS技术(例如PacBio HiFi技术),该技术使得每位个体可鉴定约25,000个SVs。
尽管这些技术效果显著,但其成本对在大规模队列中的应用构成了巨大障碍。一种替代策略是,在相对较小的队列中基于高度精确的从头组装构建基于图论的泛基因组,并将来自大规模队列的短读长数据比对至该泛基因组以进行SVs基因分型。
然而,该策略要求大规模队列具备srWGS数据,这使得大量宝贵的SNP芯片数据集未被充分利用,凸显了对全面SV参考面板以实现基于SNP数据准确推算的迫切需求。
图1.从482个长读程序集中检测到的SVs和VNTR的描述性总结(摘自Nature Genetics)
基因型推算已在推断未分型的SGVs方面被证明是成功的,尤其是那些在人群中常见的变异。然而,SVs的推算任务仍然充满挑战。虽然此前已有研究利用srWGS数据或早期中等覆盖度的牛津纳米孔技术(Oxford Nanopore Technologies)构建了SVs推算面板,但这些方法往往低估了复杂SVs,或因高错误率而面临困难。
基于组装的SVs检测目前被认为是SVs鉴定中最强大、最可靠的方法之一。在本研究中,作者旨在利用近期通过高精度长读长WGS数据构建的从头基因组组装,识别一套全面的高质量SVs,并开发一种工具(ImputeSV),以在拥有SNP芯片数据或srWGS数据的个体中推算这些SVs。
作者从来自241名不同祖源个体的HiFi长读长数据中获得的482个单倍型分辨长读长组装中,鉴定出171,233个高质量SVs。以9,228个充分验证的SVs为基准进行比对时,作者的SVs推算展现出高召回率、高精确度及高基因型一致性,尤其当输入SNP覆盖度较高时表现更佳,即使大多数SNP为推算所得。
利用该方法,作者在456,643名欧洲祖源的UKB个体中推算了54,578个常见SVs(次要等位基因频率(MAFs)≥1%),量化了这些SVs对多种复杂性状方差的解释度,并针对UKB中2,624个性状开展了全基因组SV关联。
参考消息:https://www.nature.com/articles/s41588-026-02612-z