您的位置:首页 > 虾百科虾百科
基于靶捕获技术,建立黑虎虾基因分型方法和斑节对虾养殖方案(黑虎虾养殖的还是野生的)
2025-02-01人已围观
基于靶捕获技术,建立黑虎虾基因分型方法和斑节对虾养殖方案
"《基于靶捕获技术,建立黑虎虾基因分型方法和斑节对虾养殖方案》
在当今的水产养殖领域,精准的基因分型方法对于推动产业发展、实现高效的育种计划起着至关重要的作用。 而黑虎虾作为一种在全球范围内具有巨大经济价值的水产养殖品种,其相关的基因分型研究更是备受关注。
全基因组基因分型技术的背景与优势
全基因组基因分型资源的发展,为陆生畜牧业和农作物产业带来了诸多独特优势。 它赋予了人们准确评估个体间基因组关系的能力,能够深入揭示商业性状的遗传结构,并且可以依据特定的遗传图谱去精准识别优良个体,进而做出合理选择。
在黑虎虾的研究中,我们提出了一种利用全基因组 SNP 检测黑虎虾的方法,它借助了减少代表性的全基因组基因分型方法来实现。 具体而言,我们基于一个单一的简化表示库,从澳大利亚野生种群和商业水产养殖种群获取的 650 个个体中,成功鉴定出了 31,262 个多态性 SNPs。 不过,为了保证检测数据的高质量,我们需要对这些 SNP 进行严格筛选。
我们对那些存在低读取深度、低 MAF(最小等位基因频率)、低呼叫率、偏离哈迪 - 温伯格平衡(HWE)以及非孟德尔遗传等情况的 SNP 进行筛选。 经过这一系列严谨的筛选流程后,最终保留了 7542 个高质量 SNP。
值得一提的是,该检测方法有着重要的应用价值。 它被精心设计用于大规模育种计划中的常规应用,并且兼具成本效益,在基因型呼叫方面展现出了更高的可信度。 与传统的基因型测序方法相比,它不仅能够增加呼叫率、提升读取深度,还能将成本降低 3 倍之多。 更为关键的是,这种分析方法让斑节对虾(P.monodon)产业能够同时完成多项重要任务,比如分配共同饲养的动物的亲缘关系,进行基因组关系分析,妥善管理神秘家系间的配偶配对,以及对基因组和性状结构展开更进一步的研究。 而且,这种方法还可以有效地、成本效益高地应用于单胞菌育种程序向基因组选择的过渡,其重要性不言而喻。
RAD - Seq 方法及相关技术原理与优势
基因型测序已然迅速被视作一种高度通用且具有成本效益的方法,它能够快速生成新兴水产养殖物种的全基因组标记数据,对于那些缺乏现有基于 SNP 的基因组资源的物种来说,同样能发挥重要作用。 目前,通过 GBS(简化基因组测序)方法在产生大量物种的可靠、可重复以及低成本的基因型数据方面,已经取得了巨大的进步。 因此,RAD - Seq(限制性位点相关 DNA 测序)协议也越来越多地被应用于许多水产养殖和渔业研究领域。
在现有的 RAD - Seq 方法范畴内,每个协议在整个从样品到测序的过程中,都包含着各自独特的细微差异,这一点已经被 Puritz 详细审查过。 不过,重要的是,所有常用的这些方法其基本思路是相同的,都是只对每一个个体的基因组的一个减少的代表性进行测序。
具体来讲,通过开展基因组复杂性降低步骤,也就是利用限制性内切酶消化和 / 或片段大小选择等操作,下一代测序工作就能更高效地聚焦在每个人基因组的特定区域进行一致测序。 为了进一步保证对相同的基因组区域实现更稳定一致的测序,许多 RAD - Seq 方法会与 “目标序列捕获” 协议相结合。 在最终准备高通量下一代测序之前,借助基于珠的杂交或捕获诱饵等手段,专门从那些已经经历过传统复杂性降低步骤的 DNA 样本中精准选择 RAD 标记。
采用这种两阶段库准备方法,能够在两方面进一步提升基因型数据与传统 RAD 方法的一致性。 其一,它有可能获取到更高的序列读取覆盖的一组精细的基因座,这无疑增强了对基因型呼叫的信心;其二,通过在固定的测序分配范围内复用更多的样本,能够大幅度降低每个人的基因分型成本。 通过充分利用 “RAD - Seq 目标捕获” 混合协议的这些额外优势,基因分型策略就可以根据水产养殖中基因型数据的预期用途进行定制化设计,从而更好地满足实际需求。
此外,当 “RAD - seq 目标捕获” 基因分型与大量表型数据集相结合时,还能够实现众多高级应用。 像基因组关系矩阵、基因组估计育种值的计算、选择特征的发现、基因组选择的实施、全基因组关联研究、数量性状位点定位以及遗传标记估算等,在大多数陆生家畜物种的研究和管理中都是比较常见的应用,而在黑虎虾的养殖研究中同样有着重要意义。
黑虎虾基因分型方法的具体操作与数据分析
在此,我们详细介绍在黑虎对虾工业水产养殖环境中应用的混合 “RAD - Seq 目标捕获” GBS 分析方法的开发过程和合理性依据。
我们先是处理来自 650 个个体的 DArTseq GBS 文库的原始测序数据,经过这一过程后,得到了包含 31,262 个 SNP 标记的 24,683 个 RAD 标签的数据集。 每个 RAD 标签平均含有 1.37 个 SNP,标准差为 ±0.6,在单个 RAD 标签中最多能观察到 6 个 SNP。 在这 31K SNP 原始数据集上,平均基因型频率为 0.86 ± 0.14 SD,平均 MAF 为 0.11 ± 0.15 SD。
随后,我们按照严格的筛选标准对 SNP 进行进一步筛选。 对那些最小小等位基因频率≥0.02 的筛选,去除了 16,391 个 SNP;另有 4646 个 SNP 由于最小呼叫速率等于或低于 0.5 而被剔除;由于在提供数据之前已经对可重复性进行了预过滤,所以没有 SNP 因可重复性分数小于 0.9 而被丢弃。 同样,在 95% 的序列相似性条件下,通过克隆序列的冗余聚类操作,去除了来自高度相似克隆的 572 个 SNPs。
在保留下来的标记中,我们又进行了孟德尔遗传模式和哈迪 - 温伯格平衡(HWE)的符合性检验。 由于孟德尔遗传(MI)误差,共去除 364 个 SNP,因 HWE 偏差又去除 247 个 SNP;最后,在其余的 SNP 中,把 3101 个被识别为 MI 错误的基因型呼叫进行了沉默处理。 经过这一系列层层筛选后,在 31K 数据集中总共删除了 23,720 个 SNP,最终留下了 7542 个高质量的 SNP 供后续进一步排序和最终选择。
经过筛选后,相关数据指标也发生了变化。 平均 MAF 从 0.11 ± 0.15 提升到了 0.22 ± 0.15;平均每基因型呼叫率从 0.86 ± 0.14 下降至 0.84 ± 0.14;平均读取深度从 17.0 ± 18.2 SD 增加到了 30.7 ± 27.9 SD。 此外,筛选后 SNP 的平均孟德尔遗传错误率从 3.2% 降低到了 1.4%。
为了确定精确的基因组关系计算以及选择合适密度的 DArTcap 面板所需标记的数量,我们对一些标记子集进行了建模分析。 通过纳入从 100 到 1000 个标记的随机标记,获得了越来越一致的基因组关系矩阵(GRM)估计。 当标记数量从 1000 个增加到 4000 个时,标记集之间的相关性进一步增加,相关性超过了未来检测应用在 4000 个标记时所需的最小截止值 0.98。 鉴于 GRM 的相关性情况表明一个最佳的检测大小为 4000 个单核苷酸多态性,我们便给 QC 得分被分配到一组 7542 高品质的 DArTseq 标记,进而允许优先合成 4236 个单核苷酸多态性 DArTcap 探针。
对于这个选定的标记子集,其平均调用率为 80.2% ± 14.7%,MAF 为 0.35 ± 0.28,每个非缺失基因型调用的平均读取深度为 20.4 ± 15.6。 而且,用 4236 个标记计算的基因组关系值与全 7542 标记面板显示出了高度相关性。 这些数值的呈现是源于东澳大利亚海岸种群和来自北领地种群的个体之间不同的潜在种群结构所导致的结果。
当我们综合考虑所有可用的个体基因型时,发现在 7542 个 SNP 数据集中共有 4 个标记对存在连锁情况,而在所选的 4236 个 SNP 中,只有两个这样的标记对持续存在。 当针对 7542 SNP 数据集评估北领地个人的基因型时,有三个标记对的 r2 值大于 0.8。 同样,对于东澳大利亚海岸的个人,有 13 个 R2 值大于 0.80,但只有一个在北领地人口中也能观察到。 仅使用北领地的个人从 4236 SNP 数据集来看,有一个标记对被确定为处于连锁不平衡(LD)状态。 同样,当考虑东澳大利亚海岸的个人的基因型时,有 12 个 R2 值大于 0.80,其中有一对与在北领地人口中观察到的情况是共享的。
在原始 DArTcap 数据集里,对于选定的 4236 面板,有 4194 个被观察到,仅有 52 个诱饵探针未能捕获所需的 rad - 标签序列。 对于这 4194 个 DArTcap 数据集,平均个人呼叫率为 93.0% ± 3.5% 标准差,平均 MAF 为 0.23 ± 0.15 标准差。
在所有的分析过程中,我们还发现含有较高缺失数据的后代在虚假父母排除方面占了大多数情况。 此外,无论分析中使用的标记是什么,都存在一个单独的个体,其至少有两个真正的父母中的一个不能得到一致的分配。 对于这个个体,通过分析会出现未分配的父母与父母双方都不一致,或者只有母亲没有被分配,又或者只有父亲没有被分配等情况。 不过,在任何作业分析中都没有观察到不真实的父母作业,所有假定的父母都能在测试数据集中没有真正的父母的情况下被正确排除。
黑虎虾养殖现状及基因分型检测的意义与应用前景
黑虎虾养殖在全球范围内有着不可忽视的经济价值,尤其在澳大利亚,预计其养殖规模将迅速扩大,这得益于国内和国际市场对黑虎虾不断增长的需求。 然而,长期以来,整个黑虎虾养殖行业一直缺乏一种可行的、低成本的基因分型检测方法,来助力先进的选择育种计划,特别是基因组选择方面的应用。
在斑节对虾育种计划中,获取这样的检测方法显得尤为重要,它对于推动向基因组选择的过渡有着积极的促进作用。 在本次研究中,我们确定了 4000 个标记足以用来设计 DArTcap 阵列,以此确保能够获得与来自所有可用的过滤 DArTseq 标记相比,具有高一致性的 GRM 计算结果。
对于未来项目中使用这种检测方法而言,我们期望能达到 98% 的相关性。 不过,根据最终使用的具体应用场景以及所需的基因分型成本,标记密度可以适当减少到 2000 到 2500 之间的标记,在这种情况下,仍然能够实现约 95% 的相关性。 但要是进一步降低标记密度,就会导致 GRM 相关性快速衰减,所以并不建议在先进的基于基因组的育种中采用过低的标记密度。
虽然单株斑节对虾(P.Monodon)和凡纳滨对虾(Vannamei)的基因组大小相似,核型相同,但在本研究中,我们使用的是来自已建立的育种程序的样本,而非来自两个不同区域的野生个体,这或许是受到两项研究结果的影响。 实际上,大规模的全同胞 / 半同胞家族数据集结构需要更少的标记就能完全标记基因组的每个分离部分,所以在较低的标记密度下,GRM 估计值的变化相对较低。 在今后的研究中,对经过多代驯化后的单头对虾种群所需的标记密度进行重新评估,是很有价值的探索方向。 对于那些具有较小和 / 或较不复杂基因组,或者有效种群规模较低的物种来说,可能能够使用更小的阵列,在设计分析时应采取类似的策略。
此外,与有效种群大小低的家畜物种有所不同的是,在澳大利亚养殖的大多数商业斑节对虾还没有从野生种群中明显分离出来,不同个体之间会表现出很大程度的不同基因组排列情况。 截至目前,还没有利用 GBS 对混合样本进行亲子鉴定的直接研究,不过这是一个值得进一步深入探索的方向,因为它有助于进一步减少基因分型费用。
总而言之,为了实现黑虎虾的高级选择育种,急需一种能够对数千个体进行常规基因型分析的方法。 而本次研究成功描述了一个关键基因分型资源的开发和验证过程,通过利用靶捕获基因型测序技术,首次使得这种基因分型方法可以在常规商业育种中经济有效地得以应用。 该检测包含 4194 个 SNPs,具备强大的功能,它不仅提供了重建共同饲养的家庭的谱系的能力,同时也能够准确地计算个人之间隐秘的基因组关系。 此外,这一检测方法还将有力地促进全基因组关联研究、连锁图谱绘制等工作,并解锁黑虎虾进行基因组选择的能力。
为了确认 DArTcap 检测是否保留了足够的信息来区分不同人群中的个体,我们使用 R 软件包 adegenet 完成了主成分判别分析。 我们针对 4194 DArTcap SNP 数据集的三个子集分别完成了这一分析。 首先是涵盖所有可用的个人,其次只保留野生来源的亲鱼和野生样品,并排除所有 G2 个人,以此确保密切相关的个人不会对分析结果产生影响,最后只选取一组独立的 G2 样本,来评估家庭线之间的区分能力,同时对源种群内的样品放置的一致性也进行了严谨的评估。
通过以上全面且深入的研究与分析,我们为黑虎虾的基因分型以及斑节对虾的养殖方案提供了坚实的理论基础和实践参考,有望助力整个黑虎虾养殖产业朝着更加科学、高效的方向蓬勃发展。 "