Come studiare le malattie, in particolare quelle ereditarie? La tendenza
di gran parte dei ricercatori è quella girare intorno a ciò si conosce, che,
nel caso del DNA, corrisponde a quel 2% del genoma codificante per proteine.
Queste porzioni sono sicuramente importanti e infatti molte malattie
sono causate proprio da mutazioni avvenute in una o alcune di queste sequenze. Ma sono gli unici indizi? Probabilmente no, anzi: sono semplicemente
quelli maggiormente visibili, visto che la mutazione determina la codifica di
un aminoacido diverso (e quindi una proteina diversa).
Ecco quindi la necessità di analizzare più nel dettaglio le regioni non
codificanti del genoma, porzioni che non producono proteine, ma che regolano i
geni e le cui cui mutazioni possono essere correlate a malattie.
Da tempo gli scienziati si sono chiesti come fare e ora qualche
spiraglio c’è. Si tratta di un algoritmo informatico che sfrutta una tecnica
computazionale di “apprendimento profondo” in grado di analizzare l’intero
genoma e prevedere la probabilità che una variante nel DNA codificante e non
codificante contribuisca a una malattia.
Il sistema cerca di superare gli
approcci precedenti (come GWAS, QTL ed ENCODE) che potevano solo fare
correlazioni, senza relazioni causali. Questo nuovo sistema invece, secondo gli autori, prevede se una
mutazione produrrà o meno un cambiamento nello splicing dell’RNA, ovvero quel
processo di modifica dell’RNA messaggero prima della codifica delle proteine. Configurazioni
diverse producono proteine diverse e si calcola che una cattiva regolazione
dello splicing contribuisca allo sviluppo di buona parte delle malattie
genetiche umane.
Un team di scienziati guidati da Brendan
Frey, un ingegnere informatico, ha costruito un algoritmo con milioni di
dati, che si basano sulle sequenze di DNA, le variazioni genetiche e i modelli
di splicing dell’RNA. Il sistema computazionale, che viene descritto sulle
pagine di Science, simula il processo
di splicing, valutando l'effetto di una variazione e identificando le mutazioni
che hanno maggiori probabilità di essere collegate a una certa malattia.
I ricercatori hanno poi testato il nuovo sistema sull'atrofia muscolare spinale
e sul cancro colorettale non poliposico.
Il vero obiettivo però, come sostiene
lo stesso Frey, è lo studio dei disturbi autistici. Si conoscono circa 100 geni
associati all'autismo e probabilmente questo è in parte dovuto al fatto che vi
siano diversi disturbi autistici, ognuno causato da una diversa mutazione nel
DNA.
Confrontando le mutazioni nel genoma di autistici e di persone sane
(gruppo controllo) non si era notata alcuna differenza. Usando però il nuovo
algoritmo è stato possibile studiare anche il DNA non codificante e rilevare
degli schemi. Come dei punteggi, per cui gli autisti hanno più probabilità di
avere mutazioni in zone che hanno punteggio più alto. In questo modo è stato
possibile identificare anche 17 geni.
Si tratta ovviamente di uno strumento ancora da ottimizzare e che non ha come obiettivo quello di sostituire gli altri metodi di analisi genetica, semmai esserne un utile complemento. Uno strumento comunque che potrebbe diventare a breve essenziale per studiare grandi gruppi di dati, in particolare quelli che riguardano le aree non codificanti del genoma, da sempre zone “d’ombra” per i ricercatori. Fattore chiave è sicuramente il sequenziamento del genoma, ma come afferma Robert Ring, chief science officier di Autism Speaks, "dargli un senso è proprio la questione cruciale”.
Il prossimo passo è trovare i cambiamenti genetici su tutto il genoma che siano clinicamente significativi per le varie malattie, in modo da avvicinarsi sempre di più a nuove possibili terapie e diagnosi.