L’evoluzione molecolare è lo studio della velocità e dei tipi di cambiamenti che hanno luogo nel materiale genetico o nei suoi prodotti. Lo studio dell’evoluzione molecolare si basa su studi comparativi e quindi presuppone la conoscenza della struttura delle macromolecole biologiche, acidi nucleici e proteine, almeno a livello della struttura primaria.
L’evoluzione molecolare è lo studio della velocità e dei tipi di cambiamenti che hanno luogo nel materiale genetico o nei suoi prodotti. Lo studio dell’evoluzione molecolare si basa su studi comparativi e quindi presuppone la conoscenza della struttura delle macromolecole biologiche, acidi nucleici e proteine, almeno a livello della struttura primaria.
La distanza genica tra due sequenze omologhe, nucleotidiche o aminoacidiche, può essere espressa in termini del numero di sostituzioni che hanno luogo nel corso dell’evoluzione, nel tempo che le separa dal loro comune progenitore. Al fine di normalizzare tale quantità rispetto alla diversa lunghezza delle sequenze in esame la distanza genetica viene espressa dal numero di sostituzioni per sito. A causa della possibilità di sostituzioni multiple sullo stesso sito, di sostituzioni convergenti o di retromutazioni, il numero di sostituzioni che viene osservato tra una coppia di sequenze è inferiore rispetto al numero di sostituzioni che effettivamente ha avuto luogo.
Per tentare di ricostruire il processo evolutivo e calcolare il numero effettivo di sostituzioni è necessario ricorrere a metodi di natura stocastica, che applicano cioè leggi probabilistiche dipendenti dal tempo.
Negli studi filogenetici, le relazioni evolutive tra gli organismi sono rappresentate dagli alberi filogenetci. Un albero filogenetico è un grafico costituito da nodi e rami, in cui ogni ramo mette in relazione tra loro solo due nodi. I nodi rappresentano le unità tassonomiche e i rami definiscono e relazioni tra queste in termini di discendenza e progenitore. La struttura dell’albero è detta topologia.
La lunghezza dei rami rappresenta solitamente il numero di mutazioni che ha avuto luogo, le unità tassonomiche rappresentate dai nodi possono essere specie, popolazioni, individui o geni.
L’analisi filogenetica può essere sia di tipo qualitativo che quantitativo; nel primo caso le relazioni evolutive vengono descritte solo in termini di topologia filogenetica, ovvero descrizione delle relazioni tra le unità tassonomiche, mentre nel secondo caso vengono calcolate le lunghezze di tutti i rami dell’albero filogenetico e quindi, conseguentemente, possono essere calcolate le distanze geniche tra le unità tassonomiche in esame.
Esistono due diversi tipi di alberi, alberi cladistici e alberi fenetici. Il termine cladistico si riferisce al percorso seguito dall’evoluzione e quindi i cladogrammi si pongono come obiettivo quello di chiarire le relazioni tra un gruppo di organismi in termini di progenitore e discendenti, che vengono determinate dalla topologia di un albero filogenetico con radice (metodo della massima parsimonia).
Al contrario la fenetica è lo studio delle relazioni tra un gruppo di organismi basate sul grado di similarità delle basi molecolari, della morfologia o della anatomia. Un albero filogenetico che esprime relazioni fenetiche è definito fenogramma (UPGMA).
Numerosi metodi sono stati proposti per la determinazione degli alberi filogenetici; essi possono essere classificati in due soli tipi principali:
a) metodo di massima parsimonia (metodo direttamente basato sulle sequenze)
b) metodi basati su matrici di distanza
a) Metodo di Massima Parsimonia: Questo metodo è stato introdotto per l’analisi delle sequenze aminoacidiche da Eck e Dayhoff (1966) ma può essere usato per l’analisi delle sequenze nucleotidiche. Il principio della massima parsimonia consiste nella identificazione
dell’albero filogenetico che richiede il minor numero possibile di sostituzioni che spieghino le differenze tra le unità tassonomiche in esame. Il metodo della massima parsimonia è un metodo essenzialmente qualitativo in quanto consente la determinazione della topologia dell’albero che descrive le relazioni filogenetiche tra le sequenze omologhe in esame.
b) Metodi basati su matrice di Distanza e NJ: la distanza evolutiva (solitamente il numero di sostituzioni nucleotidiche e aminoacidiche calcolate con metodi appropriati a partire dai valori osservati in modo da considerare le sostituzioni multiple o convergenti) viene determinate tra tutte le possibili coppie di unità tassonomiche. La matrice delle distanze risultante viene successivamente utilizzata per la determinazione dell’albero filogenetico.
Fondamentale per tutti i metodi è la valutazione statistica degli alberi filogenetici ottenuti.
L’accuratezza è strettamente dipendente dall’allineamento multiplo di sequenze considerate e da alcune tecniche di campionamento che permettono di testare la topologia dell’albero filogenetico, infatti, al fine di valutare la significatività delle misure effettuate per mezzo dei vari metodi per lo studio dell’evoluzione molecolare viene solitamente utilizzata la metodologia di simulazione denominata Bootstrap: nel caso dell’analisi di sequenze, consiste nell’estrarre colonne da un campione di sequenze allineate, con reinserimento dei dati estratti, fino ad ottenere un set di dati della stessa dimensione di quello originale. Generalmente vengono considerati significativi solo valori di bootstrap superiori al 50%.