next up previous contents
Next: Biodiversità Up: No Title Previous: Evoluzione e genetica di

Subsections

Studio dei caratteri quantitativi



Molti dei tratti e delle caratteristiche degli individui che sono rilevanti dal punto di vista ecologico sono tratti continui e non discreti. Sono dei tratti tipicamente quantitativi e molti possono essere misurati con il sistema metrico decimale. Sono caratterizzati dall'avere:

che possono ovviamente interagire tra loro.

La distribuzione statistica di riferimento per questi tratti è la distribuzione normale. Per il teorema centrale del limite ogni variabile casuale che sia il frutto della somma di numerosi fattori tende a distribuirsi in modo normale al crescere del numero di addendi.

\epsfig{file=norm.eps,height=7.5cm}
Il fatto che la distribuzione dei tratti quantitativi sia ``smussata'' e non discreta (come quella di un buon marcatore genetico) dipende da due fattori:

Diamo alcune definizioni che sono utili per i capitoli successivi:

Valore genotipico

è un valore, come dice il nome stesso, relativo al genotipo e può essere rappresentato nella figura seguente:
\epsfig{file=quant_trait.eps,width=\linewidth}
Abbiamo usato la convenzione che l'allele A1 aumenta il valore del tratto misurato, mentre d dipende dal grado di dominanza, e può assumere valore 0 nel caso di assenza di dominanza, +a nel caso di dominanza completa o addirittura essere maggiore di a nel caso di sovra-dominanza.

Questa figura fa riferimento ad una situazione ideale in cui il valore genotipico di un tratto dipende da un unico gene (single gene model).

Media della popolazione

dipenderà ovviamente da quanti alleli A1 e A2 ci sono nella popolazione e quindi dipende dalle frequenze alleliche. Nel caso di un locus diallelico (A1, A2) con frequenze rispettive di p e q in una popolazione panmittica, possiamo ricavare la media della popolazione dai valori genotipici.

Genotipo Frequenza Valore Freq. $\times$ Val.
A1A1 p2 +a p2a
A1A2 2pq d 2pqd
A2A2 q2 -a -q2a
    Somma = a(p-q)+2dpq

Nel caso il tratto sia influenzato da più loci diallelici che agiscono additivamente si può generalizzare definendo la media della popolazione come la somma del contributo di tutti gli l loci:

\begin{displaymath}\sum{a_l (p_l - q_l)} + 2 \sum{d_l p_l q_l}\end{displaymath}

.

Se i loci non agiscono additivamente si incorre nel fenomeno chiamato epistasi, peraltro piuttosto frequente in natura.

Effetto medio (o Average effect)

È una misura riferita all'allele ed è utile soprattutto come misura ``intermedia'' per calcolare altri parametri e deriva dal fatto biologico che un genitore non trasmette interamente il suo genotipo ai figli ma trasmette solo un allele per locus. L'effetto medio dipende dai valori genotipici e dalle frequenze alleliche.

Noi diamo una definizione valida per una popolazione panmittica: l'effetto medio di un particolare allele è la deviazione media dalla media della popolazione degli individui che ricevono l'allele da un genitore, mentre l'allele ricevuto dall'altro genitore è scelto casualmente nella popolazione. Cioè se prendiamo un certo numero di gameti A1 e li uniamo a caso con i gameti della popolazione, la media dei genotipi così prodotti devia dalla media della popolazione per un valore che è l'effetto medio dell'allele A1, poi facciamo lo stesso con l'allele A2.

Ga- Valore e frequenza Valore medio Media della Effetto
mete del genotipo dei genotipi popolazione medio
  A1A1 A1A2 A2A2      
  a d -a      
A1 p q   pa +qd a(p-q)+2dpq q[a+d(q-p)]
A2   p q -qa +pd a(p-q)+2dpq -p[a+d(q-p)]

Sottraendo la terzultima colonna dalla penultima ottengo la deviazione dalla media dei genotipi che portano A1 (ultima colonna) che corrisponde all'effetto medio, definito quindi come:

\begin{displaymath}\alpha_1 = q[a+d(q-p)]\end{displaymath}

per l'allele A1, mentre per l'allele A2 si avrà:

\begin{displaymath}\alpha_2 = -p[a+d(q-p)]\end{displaymath}

Dalle formule precedenti si vede come l'effetto medio dipenda dalle frequenze alleliche. Nel caso particolare di soli due alleli è più conveniente quantificare l'effetto medio come

l'effetto medio della sostituzione allelica

ovvero come cambierebbe la media della popolazione se sostituissimo, per esempio, l'allele preso a caso A2 con l'allele A1, cioè A2A2diventerebbe A1A2 e A1A2 diventerebbe A1A1. La media cambierebbe di un valore pari a:

\begin{displaymath}\alpha=p(a-d) + q(d+a)\end{displaymath}

che riarrangiato dà

\begin{displaymath}\alpha= a+d(q-p)\end{displaymath}

. Da cui si può desumere che

\begin{displaymath}\alpha = \alpha_1 - \alpha_2\end{displaymath}

e che

\begin{displaymath}\alpha_1 = q \alpha\end{displaymath}


\begin{displaymath}\alpha_2 = -p \alpha\end{displaymath}

Breeding Value

Questa quantità, a differenza delle precedenti, è misurabile e rappresenta la prestazione di un individuo misurata attraverso le prestazioni dei suoi figli. È un valore molto importante, soprattutto per il miglioramento genetico e ci dà un'idea della ``qualità genetica'' di un individuo.

Se un individuo è incrociato a caso con altri individui nella popolazione, allora il suo breeding value è due volte la deviazione media della sua progenie dalla media della popolazione. La deviazione è raddoppiata perchè il genitore in questione è responsabile solo per metà dei geni della progenie, quindi il ``suo valore'' va raddoppiato. In termini numerici il breeding value è uguale alla somma degli effetti medi degli alleli che porta. La somma ovviamente andrebbe estesa a tutte le coppie di alleli a tutti i loci. Per cui per un singolo locus avremo che:

Genotipo Breeding value
A1A1 $2\alpha_1 = 2q\alpha $
A1A2 $\alpha_1 + \alpha_2 = (q-p)\alpha $
A2A2 $2\alpha_2 = -2p\alpha $

Quindi il breeding value è un valore relativo ad un individuo ma anche relativo alla popolazione con la quale si incrocia casualmente.

Come può essere dimostrato, ma anche intuitivamente dedotto dalla definizione, il breeding value medio di una popolazione è uguale a 0.

Componenti di Varianza ed Ereditabilità

Le componenti di varianza ci danno un'idea delle cause della variazione dei tratti quantitativi di interesse ecologico. Trascurando per ora l'interazione genotipo $\times$ ambiente e la correlazione fra genotipo e ambiente, studiata nei capitoli precedenti, distinguiamo in


VP = VG + VE

e VG può essere a sua volta scomposta in varianza dovuta alla componente additiva, di dominanza o epistatica e quindi avremo:


VP = VA + VD + VI + VE

L'ereditabilità

di un tratto quantitativo è un parametro molto importante e dà una misura quantitativa della componente genetica e quindi ereditabile di un tratto quantitativo. E` una caratteristica relativa alla popolazione.

Uno dei modi con cui si può stimare l'ereditabilità è attraverso la regressione fra le prestazioni (medie) dei genitori e quelle dei figli se entrambi sono tenuti in un ambiente omogeneo.

Si distinguono due tipi di ereditabilità:

Ereditabilità in senso stretto
: è definita come la proporzione di variabilià genetica additiva sul totale della variabilità fenotipica

\begin{displaymath}h^2 = \frac{V_A}{V_P}\end{displaymath}

e misura di quanto il fenotipo sia determinato dai geni trasmessi dai genitori. È chiamata anche semplicemente ereditabilità

Ereditabilità in senso largo
: ci da un idea di quanto il fenotipo sia determinato dal genotipo:

\begin{displaymath}H = \frac{V_G}{V_P}\end{displaymath}

Quest'ultima è di scarso interesse pratico e può essere misurata solo per quelle specie che si riproducono vegetativamente.

L'ereditabilià può essere definita anche come la varianza dei breeding values, cioè come la somma delle deviazione dei singoli breeding value dalla media dei breeding values della popolazione al quadrato, ma quest'ultima è zero e quindi l'ereditabilià equivale al quadrato dei breeding values moltiplicati per la loro frequenza anch'essa al quadrato.


\begin{displaymath}V_A = p^24q^2 \alpha^2 + 2pq(q-p)^2\alpha^2 + q^24 p^2\alpha^2\end{displaymath}

che semplificando dà:

\begin{displaymath}V_A = 2pq\alpha^2\end{displaymath}


VA = 2pq[a+d(q-p)]2

Se si utilizza una popolazione segregante in cui si incrociano, per esempio, due linee pure, allora le frequenze alleliche sono note (p=q=0.5) e l'espressione per varianza additiva si semplifica molto:


\begin{displaymath}V_A = \frac{1}{2} a^2\end{displaymath}

Stima dell'ereditabilità

Le componenti di varianza e l'ereditabilità sono spesso stimate dalla varianza fra famiglie tenute in ambiente omogeneo, tenendo conto del grado di parentela tra gli individui all'interno delle famiglie.

Se le famiglie sono famiglie di fratellastri (half-sibs), cioè la progenie ha in comune solo la madre (o solo il padre) allora condivideranno solo un quarto dei geni. Ciascun figlio condividerà metà dei geni con la madre, ma i fratelli tra loro condivideranno un quarto dei geni.

Se le famiglie sono famiglie di fratelli con in comune sia padre che madre (full-sibs), i geni in comune, fra i fratelli, saranno in media la metà, cioè due volte un quarto dei geni in comune, per ciascun genitore.

Immaginando un esperimento bilanciato in cui diversi padri siano incrociati con diverse madri, ma ciascuna madre sia incrociata con un solo padre (cioè le madri sono nested nei padri), avremo un disegno di analisi della varianza che permette di ottenere diverse stime dell'ereditabilità:

Sorgente g.d.l. Quadrati Componenti
di variaz.   medi di varianzza
Fra padri s -1 MSP $=\sigma^2_W + k\sigma^2_M + dk\sigma^2_P$
       
Fra madri s(d - 1) MSM $=\sigma^2_W + k\sigma^2_M $
entro padri      
       
Entro famiglia sd(k -1) MSW $=\sigma^2_W $
dove s è il numero dei padri, d è il numero delle madri per padre, k è il numero dei figli per famiglia, $\sigma^2_W $, $\sigma^2_M $, $\sigma^2_P $ e $\sigma^2_T $sono rispettivamente le componenti di varianza entro famiglia, fra madri entro padri, quella fra padri e totale.

L'ereditabilià stimata sulle famiglie half-sibs in base alla componente fra madri sarà data da

\begin{displaymath}h^2 = \frac{4\sigma^2_M}{\sigma^2_T}\end{displaymath}

quella stimata sulle famiglie half-sibs in base alla componente tra padri sarà:

\begin{displaymath}h^2 = \frac{4\sigma^2_P}{\sigma^2_T}\end{displaymath}

il fattore 4 deriva dalla frazione di alleli in comune fra i fratellastri. Mentre in quella stimata sulle famiglie full-sibs è:

\begin{displaymath}h^2 = \frac{2(\sigma^2_P + \sigma^2_M)}{\sigma^2_T}\end{displaymath}

e il fattore 2 ovviamente ha la stessa derivazione dalla frazione di geni in comune ai fratelli.

Se le tre stime di ereditabilità sono simili posso pensare di avere ottenuto una buona stima del valore dell'ereditabilità. Se sono diverse allora il mio esperimento non è riuscito a pulire alcuni effetti ambientali importanti, come per esempio l'effetto dell'ambiente materno comune ad una famiglia.

L'ereditabilià è un parametro importante perchè permette di prevedere la risposta alla selezione. Se indichiamo con S il coefficiente differenziale di selezione, cioè la differenza fra la media del tratto nella popolazione parentale e la media della parte di popolazione parentale selezionata (media della zona rossa nella figura), lo spostamento (R) della media della popolazione parentale a quella della progenie sarà dato da:

R = h2S

.
\epsfig{file=hersel.eps,width=\linewidth}

Cioè il tratto considerato migliorerà (crescerà o calerà) in modo proporzionale all'intensità di selezione e all'ereditabilità del tratto stesso. Incrementando troppo la selezione la dimensione della popolazione diminuisce e si può incorrere in problemi di inbreeding.

Mappaggio di QTL

Negli ultimi anni la possibilità di avere a disposizione un numero molto elevato di marcatori molecolari ha rivoluzionato il modo di studiare i caratteri quantitativi o QTL (Quantitative Trait Loci). Il mappaggio dei QTL può essere inteso come il punto di incontro tra la genetica dei tratti quantitativi e poligenici con la genetica dei tratti discreti e molecolari.

È una metodologia che ha un futuro estremamente promettente sia in

settori scientifici applicativi
come la medicina, le scienze agrarie e forestali e le biotecnologie; sia in
scienze di base
come la genetica classica, genetica molecolare, umana e non da ultimo l'ecologia evoluzionistica.

È una metodologia estremamente generale applicabile in linea di base a un qualunque tratto quantitativo.

Obiettivo

del mappaggio di uno o più QTL è quello di associare un tratto genetico quantitativo ad uno o più marcatori genetici e, se è nota la posizione del marcatore sulla mappa genetica, si può quindi ``mappare'' (individuare, localizzare) il tratto quantitativo sul genoma.

Per esempio si può trovare il marcatore associato alla resistenza ad una certa malattia, uno o più marcatori associati ad una crescita maggiore, alla resistenza alla siccità, allla capacità di fiorire precocemente o tardivamente, eccetera.

Il vantaggio

forse più importante, che per ora è solo un vantaggio teorico, è quello della possibilità di attuare la MAS (Marker Assisted Selection o selezione assistita dal marcatore). Si può operare la selezione di certi genotipi che presenteranno un fenotipo desiderabile basandosi semplicemente su un'analisi molecolare precoce con pochi marcatori molecolari, senza dover aspettare che il tratto fenotipico si manifesti. Il vantaggio per il miglioramento genetico delle specie forestali sarebbe notevole.

Anche la capacità di riuscire a spiegare parte della variabilità di tratti eco-fisiologici importanti per l'adattamento in popolazioni naturali, basandosi semplicemente sulla presenza (o assenza) di uno o pochi marcatori genetici, sarebbe un passo avanti scientifico notevole.

Pre-requisiti

Per avere una buona garanzia di successo in un'analisi QTL sono necessarie alcune cose:
1.
un numero molto elevato di marcatori molecolari polimorfici
2.
uno o più tratti fenotipici misurabili e caratterizzati da una elevata ereditabilità
3.
una popolazione segregante

Quest'ultima si ottiene spesso da famiglie (backcross o F2) in cui si sono incrociati individui con caratteristiche opposte ed estreme rispetto al tratto quantitativo che vogliamo misurare (es: incrocio di individui sensibili con individui estremamente resistenti ad una certa malattia, incrocio fra individui precoci con indivdui tardivi, ecc.). Avremo quindi una prole dove i geni che controllano il tratto quantitativo interessato ``segregano'' nei figli.

Il materiale ideale su cui svolgere l'analisi sarebbe una popolazione che presenti un elevato grado di polimorfismo in generale, ma specialmente un'alta variabilità nei geni che controllano il tratto quantitativo.

Base metodologica

Il metodo si basa su una co-segregazione (trasmessi assieme) fra i geni che controllano il tratto quantitativo (QTL) e uno o più marcatori genetici.

Sugli stessi identici individui della popolazione segregante viene eseguita

È preferibile, anche se non strettamente indispensabile per alcuni tipi di analisi QTL, costruire una mappa genetica dei marcatori molecolari. I marcatori molecolari vengono cioè ordinati in gruppi di associazione (che dovrebbero corrispondere ai cromosomi) in base al linkage e la distanza di mappa fra un marcatore e un altro è proporzionale alla frequenza di ricombinazione. Questa fase può essere complessa e non verrà spiegata in questa sede, ma i principi guida possono essere trovati su un qualsiasi libro di genetica.

Più fitta e ``densa'' di marcatori è la mappa, maggiore è la probabilità di trovare un'associazione fra tratto e marcatore e di mapparlo con precisione. Di solito il numero di marcatori mappati è superiore a 100 (spesso qualche centinaio) e la dimensione della popolazione segregante è di qualche centinaio di individui (meglio attorno a 1000).

N.B.

Prima dell'inzio dell'analisi il ricercatore non ha nessuna idea di quale marcatore possa essere associato al tratto fenotipico, di come sia la mappa genetica e di quale funzione realmente svolga l'eventuale QTL trovato. Semplicemente si eseguono dei test con un numero elevato di marcatori e si spera di trovare un'associazione significativa. La reale attività del QTL rimane ignota, si sa solo che ha una funzione statisticamente rilevante per il tratto fenotipico analizzato.

Un approccio diverso è quello dei candidate genes in cui sono testati specificatamente alcuni marcatori appositamente disegnati su specifici geni, che il ricercatore crede possano essere coinvolti nell'espressione del tratto fenotipico.

L'analisi dei QTL ha una base quantitativa piuttosto sviluppata, noi faremo un breve ricognizione del caso più semplice (il modello backcross), in modo da capirne il principio guida. L'estensione ad altri modelli non è difficile.

L'obiettivo è quello di trovare un marcatore (A) associato (linked) ad un QTL (Q).

\epsfig{file=qtl_single.eps,width=10cm}
È chiaro che la possibilità di trovare questa associazione dipende da due fattori:

Ma perché è importante la distanza marcatore-QTL? Perché si può avere ricombinazione. Nel semplice caso del back-cross avremo che:

\epsfig{file=qtl_back.eps,height=9cm}

La frazione di ricombinazione

viene stimata dalla frazione di individui ricombinanti rispetto al totale degli individui analizzati. Quando due loci sono completamente un-linked la frazione di ricombinazione è pari a 0.5. Quindi in un incrocio tipo backcross avremo che le frequenze genotipiche attese saranno:
Genotipo Genotipo QTL
marcatore qq Qq
aa 0.5 (1-r) 0.5 r
Aa 0.5 r 0.5 (1-r)

L'effetto che il QTL ha sul tratto fenotipico sarebbe idealmente misurabile se noi conoscessimo il genotipo del QTL (qq Qq), ma noi non lo conosciamo e non conosciamo nemmeno la sua posizione rispetto al marcatore.

\epsfig{file=qtl_anova.eps,width=\linewidth}

L'effetto del QTL sarebbe significativo se un qualsiasi test (t-test o ANOVA) dimostrasse una differenza significativa fra $\mu_1$ e $\mu_2$. L'unico genotipo che possiamo conoscere è quello del marcatore (Aa aa), che, a causa della ricombinazione, può produrre una situazione del genere:

\epsfig{file=qtl_anova2.eps,width=\linewidth}

Le uniche medie che riusciamo a stimare sono le medie di aa ($\mu_{aa}$) e di Aa ($\mu_{Aa}$), che saranno tanto più diverse e significative:

Quindi se un test statistico dimostra una differenza significativa fra le medie dei tratti fenotipici misurati fra gruppi di genotipi raggruppati in base al marcatore, allora abbiamo trovato un'associazione significativa: abbiamo mappato un QTL.

In questo tipo di analisi comunque l'effetto distanza e l'effetto del QTL sul tratto rimangono non separabili.

Formalmente avremo che:


\begin{displaymath}\mu_{aa} = p(qq\vert aa)\mu_1 + p(Qq\vert aa)\mu_2 \end{displaymath}


\begin{displaymath}\mu_{aa} = (1-r)\mu_1 + r\mu_2 \end{displaymath}

e


\begin{displaymath}\mu_{Aa} = p(qq\vert Aa)\mu_1 + p(Qq\vert Aa)\mu_2 \end{displaymath}


\begin{displaymath}\mu_{Aa} = r\mu_1 + (1-r)\mu_2 \end{displaymath}

quindi

\begin{displaymath}\mu_{Aa} - \mu_{aa} = [r\mu_1 + (1-r)\mu_2] - [(1-r)\mu_1 + r\mu_2]\end{displaymath}


\begin{displaymath}= ( 2r -1) (\mu_1 - \mu_2) \end{displaymath}

dalla figura seguente dovrebbe essere chiaro che:

\begin{displaymath}\mu_{qq} - \mu_{Qq} = \mu_{1} - \mu_{2} = -a -d = -(d+a)\end{displaymath}

\epsfig{file=qtl_value.eps,width=10cm}

quindi avremo che

\begin{displaymath}\mu_{Aa} - \mu_{aa} = (2r - 1) [-(d + a)] = (1 -2r) (a + d)\end{displaymath}

dove a e d sono il valore genotipico e il grado di dominanza descritti nella lezione precedente. Sotto ipotesi nulla avremo che:


\begin{displaymath}H_o:[\mu_{Aa} - \mu_{aa}] = 0\end{displaymath}

che produce due possibili soluzioni con significato biologico molto diverso:

(a + d) = 0


r = 0.5

Un approccio alternativo è quello di eseguire un fitting non lineare che stimi $\mu_1$, $\mu_2$, $\sigma^2$ e r e testarlo contro un fitting che deriva da un'ipotesi nulla con r=0.5 e una media identica per i due QTL. La significatività viene testata facendo il rapporto fra le likelihood di questi due modelli, che si distribuisce come un $\chi^2$.

Per il primo modello viene massimizzata la seguente funzione di likelihood:


\begin{displaymath}L= \frac{1}{(\sqrt{2\pi}\sigma)^N}
\prod_{i=1}^{N}{}\sum_{j=1}^{2}{p(Q_j\vert M_i) \exp{(-\frac{(y_i -
\mu_j)^2}{2\sigma^2})}}\end{displaymath}

dove $\sigma^2$ è la varianza dei tratti (assunta uguale fra i due genotipi qq e Qq), N sono gli individui analizzati, y è la misura del tratto, e p(Qj|Mi) sono le probabilità condizionali di avere un genotipo qq o Qq dato il genotipo del marker aa o Aa e si possono trovare nella tabella precedente.

In realtà per stimare i parametri si passa ai logaritmi dove la precedente funzione diventa un po' più semplice.

Accenni all' Interval Mapping

Il vantaggio dell'interval mapping è quello di riuscire a scomporre l'effetto della distanza dall'effetto genetico.

Per quest'analisi i marcatori devono essere ordinati in una mappa di linkage. Il test viene effettuato prendendo coppie di marcatori adiacenti e il QTL viene supposto essere fra i due marcatori:

\epsfig{file=qtl_interval.eps,width=10cm}

Se il QTL è esterno ai due marcatori si ricade nell'esempio precedente.

Avremo la seguente tabella delle frequenze attese (tralasciando i doppi crossingover):

Genotipo Genotipo QTL
marcatore QQ Qq
AABB 0.5(1-r) 0
AABb 0.5r2 0.5r1
AaBB 0.5r1 0.5r2
AaBb 0 0.5(1-r)

Il test viene fatto anche qui con un fitting non lineare stimando $\mu_1$, $\mu_2$, $\sigma^2$, e $\rho$ (definito come r1/r).

La funzione di likeihood da massimizzare è praticamente la stessa dell' analisi single-marker. Quelle che cambiano sono le probabilità condizionali ( p(Qj|Mi)) che si ricavano dalla tabella precedente.


next up previous contents
Next: Biodiversità Up: No Title Previous: Evoluzione e genetica di
Stefano Leonardi
2000-08-28