Molti dei tratti e delle caratteristiche degli individui che sono
rilevanti dal punto di vista ecologico sono tratti continui e
non discreti. Sono dei tratti tipicamente
quantitativi e molti possono essere misurati con il sistema
metrico decimale. Sono caratterizzati dall'avere:
La distribuzione statistica di riferimento per questi tratti è la distribuzione normale. Per il teorema centrale del limite ogni variabile casuale che sia il frutto della somma di numerosi fattori tende a distribuirsi in modo normale al crescere del numero di addendi.
Diamo alcune definizioni che sono utili per i capitoli successivi:
Questa figura fa riferimento ad una situazione ideale in cui il valore genotipico di un tratto dipende da un unico gene (single gene model).
Genotipo | Frequenza | Valore | Freq. Val. |
---|---|---|---|
A1A1 | p2 | +a | p2a |
A1A2 | 2pq | d | 2pqd |
A2A2 | q2 | -a | -q2a |
Somma = | a(p-q)+2dpq |
Nel caso il tratto sia influenzato da più loci diallelici che
agiscono additivamente si può generalizzare definendo la media della
popolazione come la somma del contributo di tutti gli l loci:
Se i loci non agiscono additivamente si incorre nel fenomeno chiamato epistasi, peraltro piuttosto frequente in natura.
Noi diamo una definizione valida per una popolazione panmittica: l'effetto medio di un particolare allele è la deviazione media dalla media della popolazione degli individui che ricevono l'allele da un genitore, mentre l'allele ricevuto dall'altro genitore è scelto casualmente nella popolazione. Cioè se prendiamo un certo numero di gameti A1 e li uniamo a caso con i gameti della popolazione, la media dei genotipi così prodotti devia dalla media della popolazione per un valore che è l'effetto medio dell'allele A1, poi facciamo lo stesso con l'allele A2.
Ga- | Valore e frequenza | Valore medio | Media della | Effetto | ||
---|---|---|---|---|---|---|
mete | del genotipo | dei genotipi | popolazione | medio | ||
A1A1 | A1A2 | A2A2 | ||||
a | d | -a | ||||
A1 | p | q | pa +qd | a(p-q)+2dpq | q[a+d(q-p)] | |
A2 | p | q | -qa +pd | a(p-q)+2dpq | -p[a+d(q-p)] |
Sottraendo la terzultima colonna dalla penultima ottengo la deviazione
dalla media dei genotipi che portano A1 (ultima colonna) che
corrisponde all'effetto medio, definito quindi come:
Se un individuo è incrociato a caso con altri individui nella popolazione, allora il suo breeding value è due volte la deviazione media della sua progenie dalla media della popolazione. La deviazione è raddoppiata perchè il genitore in questione è responsabile solo per metà dei geni della progenie, quindi il ``suo valore'' va raddoppiato. In termini numerici il breeding value è uguale alla somma degli effetti medi degli alleli che porta. La somma ovviamente andrebbe estesa a tutte le coppie di alleli a tutti i loci. Per cui per un singolo locus avremo che:
Genotipo | Breeding value |
---|---|
A1A1 | |
A1A2 | |
A2A2 |
Quindi il breeding value è un valore relativo ad un individuo ma anche relativo alla popolazione con la quale si incrocia casualmente.
Come può essere dimostrato, ma anche intuitivamente dedotto dalla definizione, il breeding value medio di una popolazione è uguale a 0.
Le componenti di varianza ci danno un'idea delle cause della variazione dei tratti quantitativi di interesse ecologico. Trascurando per ora l'interazione genotipo ambiente e la correlazione fra genotipo e ambiente, studiata nei capitoli precedenti, distinguiamo in
e VG può essere a sua volta scomposta in varianza dovuta alla componente additiva, di dominanza o epistatica e quindi avremo:
Uno dei modi con cui si può stimare l'ereditabilità è attraverso la regressione fra le prestazioni (medie) dei genitori e quelle dei figli se entrambi sono tenuti in un ambiente omogeneo.
Si distinguono due tipi di ereditabilità:
L'ereditabilià può essere definita anche come la varianza dei breeding values, cioè come la somma delle deviazione dei singoli breeding value dalla media dei breeding values della popolazione al quadrato, ma quest'ultima è zero e quindi l'ereditabilià equivale al quadrato dei breeding values moltiplicati per la loro frequenza anch'essa al quadrato.
Se si utilizza una popolazione segregante in cui si incrociano, per esempio, due linee pure, allora le frequenze alleliche sono note (p=q=0.5) e l'espressione per varianza additiva si semplifica molto:
Le componenti di varianza e l'ereditabilità sono spesso stimate dalla varianza fra famiglie tenute in ambiente omogeneo, tenendo conto del grado di parentela tra gli individui all'interno delle famiglie.
Se le famiglie sono famiglie di fratellastri (half-sibs), cioè la progenie ha in comune solo la madre (o solo il padre) allora condivideranno solo un quarto dei geni. Ciascun figlio condividerà metà dei geni con la madre, ma i fratelli tra loro condivideranno un quarto dei geni.
Se le famiglie sono famiglie di fratelli con in comune sia padre che madre (full-sibs), i geni in comune, fra i fratelli, saranno in media la metà, cioè due volte un quarto dei geni in comune, per ciascun genitore.
Immaginando un esperimento bilanciato in cui diversi padri siano incrociati con diverse madri, ma ciascuna madre sia incrociata con un solo padre (cioè le madri sono nested nei padri), avremo un disegno di analisi della varianza che permette di ottenere diverse stime dell'ereditabilità:
Sorgente | g.d.l. | Quadrati | Componenti |
---|---|---|---|
di variaz. | medi | di varianzza | |
Fra padri | s -1 | MSP | |
Fra madri | s(d - 1) | MSM | |
entro padri | |||
Entro famiglia | sd(k -1) | MSW |
L'ereditabilià stimata sulle famiglie half-sibs in base alla
componente fra madri sarà data da
Se le tre stime di ereditabilità sono simili posso pensare di avere ottenuto una buona stima del valore dell'ereditabilità. Se sono diverse allora il mio esperimento non è riuscito a pulire alcuni effetti ambientali importanti, come per esempio l'effetto dell'ambiente materno comune ad una famiglia.
L'ereditabilià è un parametro importante perchè permette di
prevedere la risposta alla selezione. Se indichiamo con S il
coefficiente differenziale di selezione, cioè la differenza fra la
media del tratto nella popolazione parentale e la media
della parte di popolazione parentale selezionata (media della zona
rossa nella figura), lo spostamento (R) della media della popolazione
parentale a quella della progenie sarà dato da:
Cioè il tratto considerato migliorerà (crescerà o calerà) in modo proporzionale all'intensità di selezione e all'ereditabilità del tratto stesso. Incrementando troppo la selezione la dimensione della popolazione diminuisce e si può incorrere in problemi di inbreeding.
Negli ultimi anni la possibilità di avere a disposizione un numero molto elevato di marcatori molecolari ha rivoluzionato il modo di studiare i caratteri quantitativi o QTL (Quantitative Trait Loci). Il mappaggio dei QTL può essere inteso come il punto di incontro tra la genetica dei tratti quantitativi e poligenici con la genetica dei tratti discreti e molecolari.
È una metodologia che ha un futuro estremamente promettente sia in
È una metodologia estremamente generale applicabile in linea di base a un qualunque tratto quantitativo.
Per esempio si può trovare il marcatore associato alla resistenza ad una certa malattia, uno o più marcatori associati ad una crescita maggiore, alla resistenza alla siccità, allla capacità di fiorire precocemente o tardivamente, eccetera.
Anche la capacità di riuscire a spiegare parte della variabilità di tratti eco-fisiologici importanti per l'adattamento in popolazioni naturali, basandosi semplicemente sulla presenza (o assenza) di uno o pochi marcatori genetici, sarebbe un passo avanti scientifico notevole.
Quest'ultima si ottiene spesso da famiglie (backcross o F2) in cui si sono incrociati individui con caratteristiche opposte ed estreme rispetto al tratto quantitativo che vogliamo misurare (es: incrocio di individui sensibili con individui estremamente resistenti ad una certa malattia, incrocio fra individui precoci con indivdui tardivi, ecc.). Avremo quindi una prole dove i geni che controllano il tratto quantitativo interessato ``segregano'' nei figli.
Il materiale ideale su cui svolgere l'analisi sarebbe una popolazione che presenti un elevato grado di polimorfismo in generale, ma specialmente un'alta variabilità nei geni che controllano il tratto quantitativo.
Sugli stessi identici individui della popolazione segregante viene eseguita
È preferibile, anche se non strettamente indispensabile per alcuni tipi di analisi QTL, costruire una mappa genetica dei marcatori molecolari. I marcatori molecolari vengono cioè ordinati in gruppi di associazione (che dovrebbero corrispondere ai cromosomi) in base al linkage e la distanza di mappa fra un marcatore e un altro è proporzionale alla frequenza di ricombinazione. Questa fase può essere complessa e non verrà spiegata in questa sede, ma i principi guida possono essere trovati su un qualsiasi libro di genetica.
Più fitta e ``densa'' di marcatori è la mappa, maggiore è la probabilità di trovare un'associazione fra tratto e marcatore e di mapparlo con precisione. Di solito il numero di marcatori mappati è superiore a 100 (spesso qualche centinaio) e la dimensione della popolazione segregante è di qualche centinaio di individui (meglio attorno a 1000).
Un approccio diverso è quello dei candidate genes in cui sono testati specificatamente alcuni marcatori appositamente disegnati su specifici geni, che il ricercatore crede possano essere coinvolti nell'espressione del tratto fenotipico.
L'analisi dei QTL ha una base quantitativa piuttosto sviluppata, noi faremo un breve ricognizione del caso più semplice (il modello backcross), in modo da capirne il principio guida. L'estensione ad altri modelli non è difficile.
L'obiettivo è quello di trovare un marcatore (A) associato (linked) ad un QTL (Q).
Ma perché è importante la distanza marcatore-QTL? Perché si può avere ricombinazione. Nel semplice caso del back-cross avremo che:
Genotipo | Genotipo QTL | |
---|---|---|
marcatore | ||
aa | 0.5 (1-r) | 0.5 r |
Aa | 0.5 r | 0.5 (1-r) |
L'effetto che il QTL ha sul tratto fenotipico sarebbe idealmente misurabile se noi conoscessimo il genotipo del QTL (qq Qq), ma noi non lo conosciamo e non conosciamo nemmeno la sua posizione rispetto al marcatore.
L'effetto del QTL sarebbe significativo se un qualsiasi test (t-test o ANOVA) dimostrasse una differenza significativa fra e . L'unico genotipo che possiamo conoscere è quello del marcatore (Aa aa), che, a causa della ricombinazione, può produrre una situazione del genere:
Le uniche medie che riusciamo a stimare sono le medie di aa () e di Aa (), che saranno tanto più diverse e significative:
Quindi se un test statistico dimostra una differenza significativa fra le medie dei tratti fenotipici misurati fra gruppi di genotipi raggruppati in base al marcatore, allora abbiamo trovato un'associazione significativa: abbiamo mappato un QTL.
In questo tipo di analisi comunque l'effetto distanza e l'effetto del QTL sul tratto rimangono non separabili.
Formalmente avremo che:
e
quindi
dalla figura seguente dovrebbe essere chiaro che:
quindi avremo che
Un approccio alternativo è quello di eseguire un fitting non lineare che stimi , , e r e testarlo contro un fitting che deriva da un'ipotesi nulla con r=0.5 e una media identica per i due QTL. La significatività viene testata facendo il rapporto fra le likelihood di questi due modelli, che si distribuisce come un .
Per il primo modello viene massimizzata la seguente funzione di likelihood:
dove è la varianza dei tratti (assunta uguale fra i due genotipi qq e Qq), N sono gli individui analizzati, y è la misura del tratto, e p(Qj|Mi) sono le probabilità condizionali di avere un genotipo qq o Qq dato il genotipo del marker aa o Aa e si possono trovare nella tabella precedente.
In realtà per stimare i parametri si passa ai logaritmi dove la precedente funzione diventa un po' più semplice.
Il vantaggio dell'interval mapping è quello di riuscire a scomporre l'effetto della distanza dall'effetto genetico.
Per quest'analisi i marcatori devono essere ordinati in una mappa di linkage. Il test viene effettuato prendendo coppie di marcatori adiacenti e il QTL viene supposto essere fra i due marcatori:
Se il QTL è esterno ai due marcatori si ricade nell'esempio precedente.
Avremo la seguente tabella delle frequenze attese (tralasciando i doppi crossingover):
Genotipo | Genotipo QTL | |
---|---|---|
marcatore | ||
AABB | 0.5(1-r) | 0 |
AABb | 0.5r2 | 0.5r1 |
AaBB | 0.5r1 | 0.5r2 |
AaBb | 0 | 0.5(1-r) |
Il test viene fatto anche qui con un fitting non lineare stimando , , , e (definito come r1/r).
La funzione di likeihood da massimizzare è praticamente la stessa dell' analisi single-marker. Quelle che cambiano sono le probabilità condizionali ( p(Qj|Mi)) che si ricavano dalla tabella precedente.