求离散数据的突变点_突变的效应分布(DFE)

大家好，我是讯享网，很高兴认识大家。

适应效应分布distribution of fitness effects, DFE是描述群体中有利突变、中性突变和有害突变的占比。

不同物种的DFE分布形状不同，受到物种群体大小和基因组大小的影响。

编码区DNA和非编码区DNA的DFE的分布性状也不同。

有利突变是极少的。

强有利突变的DFE呈指数分布。

有害突变的DFE比较复杂，通常是多峰分布。

突变类型一般分为三种：有害突变，中性突变和有利突变。但是实际上，突变的效应并非是离散分布的，而是连续的，极度有害 -> 弱有害 ->中性 -> 弱有利 -> 强有利，这种突变效应的连续分布频谱就是突变的效应分布DFE。

与父母相比，我们每个人大概产生100个新突变，那么这些突变是有害的？还是有利的？从进化生物学的角度来说，DFE能够帮助我们理解分子钟、遗传变异的维系等一系列问题。

从定量遗传学来看，一个性状对应的遗传结构取决于自然选择和DFE。如果该性状主要受到大效应的中频位点控制，我们能够很容易地定位对应的基因位点；反之，如果性状受到低频位点或者小效应的中频位点的控制，那么定位这些位点就非常困难了。

`DFE`的实验依据

研究DFE最直接的方法就是诱导生物的自发突变，然后在实验室条件下测定这些突变的效应大小。但是这么做的前提是这些突变效应要足够大，否则很难测量到。

讯享网

【实验室条件下，病毒的DFE分布，适应性＜1意味着是有害突变，＞1表示有利突变。上图可以看出，大部分突变是有害突变，还有很多致死性突变(适应性=0)】

另一种研究方法是通过突变累积实验mutatin accumulation，实验群体在实验室环境下培养多代，群体保持较小的数量，以便将自然选择的效应最小化，在遗传漂变的作用下，有害突变也可以在群体中累积。之后比较突变累积群体的适应性和祖系群体的适应性差异。通常突变累积群体的适应性会逐渐下降。但是突变累积实验得到参数的置信区间很大。突变率和突变的效应大小共同决定了DFE。

此外，上述两种方法(诱发突变和累积突变)得到突变DFE可能不相同。而且仅仅根据适应性来判断突变效应往往只是观测到了突变效应较大的位点，很多突变效应较小的位点可能无法观测到。所以，通过比对DNA序列来推测突变的效应更合适。当然，使用DNA序列推测DFE也有局限性，比如需要选择合适的中性位点做参比，位点之间的关联性问题等。

【DFE的gemma分布，该分布有两个参数：形状参数和均数参数。上图是当均数为1时，不同值对应的分布性状。时，分布呈“L”型，是为指数分布，时趋向于正态分布。】

中性突变

首先要搞清楚的是“中性”的定义，几乎所有的突变都会带来适应性改变(哪怕是非常非常小的改变)，严格上来说没用中性突变。但是，在特定的群体中，受到遗传漂变的作用，当远远小于1时，我们可以认为这些突变是中性突变。所以对“中性”的定义并非根据其功能，而是根据其在群体中的表现。

因此，一个群体的有效群体数量越大，其中性突变的比例越低，反之，越高。此外，群体越大，自然选择识别度越高，有利突变更容易在群体中固定，随着适应性逐渐向最适生态位靠近，其DFE也会相应的改变。

通过蛋白编码序列的分析，有一些非同义突变表现为中性。通过比较不同物种之间的非同义位点和同义位点，可以推测一个物种非同义突变位点中表现为中性位点的数量。比如在人类中，有效群体数量在10000-30000之间，其之比略小于0.3，也就意味着有接近30%的非同义突变表现为中性。在果蝇和细菌中，分别有16%和2.5%的非同义位点表现为中性。考虑到这些生物的有效群体数量比较大，出现较少比例的中性位点也是合理的。

一直以来，人们认为在DNA的非编码区中，变异都是中性的。但是很多研究发现，非编码区的序列比预期的要保守。比如在果蝇中，有超过50%的位点可能首先自然选择的影响。

有利突变

相比于中性突变，有利突变的数量要少很多。在病毒中有4%的突变是有利突变，大肠杆菌中是0%，噬菌体中有0-15%。虽然有利突变比较少，但是它们对进化的贡献还是很大的，比如在果蝇中，有15%的核酸替换(进化)是有有利突变导致的。

不同大小的群体，其有利突变的DFE也不相同。比如，在人类和黑猩猩的蛋白编码序列，适应性非同义替换位点的比例几乎为0，而在果蝇物种中，这一比例可达50%。在非编码序列，果蝇中的适应性非同义替换比例同样比人类/黑猩猩多。

那么有利突变的DFE到底是如何分布的？有一种理论是极值理论，认为有利突变的DFE是指数分布。但是该理论的假设是在进化过程中，DFE维持不变。如下图(a):

【有利突变DFE分布的两种模型】

但是，有对RNA分子的变异研究发现有利突变DFE在进化过程中是不断变化的，如上图(b),随着趋近最适生态位，群体中总是保持一定的弱有利位点，所以DFE的分布应该是“L” 型的。

有害突变

相比于上述有利突变DFE的指数型或者“L” 性分布，有害突变的DFE要复杂很多，通常不是单峰分布。有害突变中包含一部分致死性突变。在病毒实验中，有40%诱导突变是致死性突变，在酵母中，也有30%-40%的突变是致死的。

对于有害突变的DFE，有一个峰靠近于中性突变，即说明大量的轻微有害突变；另一个峰则源于致死性突变(如本文的第一张图)。

有害突变DFE的复杂性源于其不同位点的有害程度不同。比如，非同义位点的DFE可能和非编码区的DFE不同，点突变的DFE可能与转移元件插入造成的DFE不同。这些不同来源的DFE综合起来，表现出其整体复杂性很高。

对于轻微有害突变而言，由于其适应性效应很小，其DFE分布通常通过比对DNA序列推测。在非蛋白编码区，研究同样发现大量的轻微有害突变。

结论

不同物种的DFE不同。群体大小不同，中性位点的比例不同。有利突变的DFE分布比较简单；但是有害突变DFE分布比较复杂，不同基因功能区的DFE分布也不相同。

DFE虽然复杂，如果我们有足够的测序数据，DFE是可以测量的。

【THE END】

资料来源：Eyre-Walker, A., & Keightley, P. D. (2007). The distribution of fitness effects of new mutations. Nature Reviews Genetics, 8(8), 610-618.

求离散数据的突变点_突变的效应分布(DFE)

DFE的实验依据

中性突变

有利突变

有害突变

结论

相关推荐

`DFE`的实验依据