Genómica - Genomics

La genómica es un campo interdisciplinario de la biología que se centra en la estructura, función, evolución, mapeo y edición de genomas . Un genoma es el conjunto completo de ADN de un organismo , incluidos todos sus genes. A diferencia de la genética , que se refiere al estudio de genes individuales y sus roles en la herencia, la genómica tiene como objetivo la caracterización y cuantificación colectiva de todos los genes de un organismo, sus interrelaciones y su influencia en el organismo. Los genes pueden dirigir la producción de proteínas con la ayuda de enzimas y moléculas mensajeras. A su vez, las proteínas forman estructuras corporales, como órganos y tejidos, y controlan las reacciones químicas y transportan señales entre las células. La genómica también implica la secuenciación y el análisis de genomas mediante el uso de secuenciación de ADN de alto rendimiento y bioinformática para ensamblar y analizar la función y estructura de genomas completos. Los avances en genómica han desencadenado una revolución en la investigación basada en descubrimientos y la biología de sistemas para facilitar la comprensión incluso de los sistemas biológicos más complejos, como el cerebro.

El campo también incluye estudios de fenómenos intragenómicos (dentro del genoma) como epistasis (efecto de un gen sobre otro), pleiotropía (un gen que afecta a más de un rasgo), heterosis (vigor híbrido) y otras interacciones entre loci y alelos dentro el genoma.

Historia

Etimología

Del griego ΓΕΝ gen , "gen" (gamma, épsilon, nu, épsilon) que significa "convertirse, crear, crear, nacer" y variantes posteriores: genealogía, génesis, genética, genic, genómero, genotipo, género, etc. La palabra genoma (del alemán Genom , atribuido a Hans Winkler ) ya se usaba en inglés desde 1926, el término genómica fue acuñado por Tom Roderick, un genetista del Laboratorio Jackson ( Bar Harbor, Maine ), mientras tomaba cerveza en una reunión. celebrada en Maryland sobre el mapeo del genoma humano en 1986.

Esfuerzos de secuenciación temprana

Tras la confirmación de Rosalind Franklin de la estructura helicoidal del ADN, la publicación de James D. Watson y Francis Crick de la estructura del ADN en 1953 y la publicación de Fred Sanger de la secuencia de aminoácidos de la insulina en 1955, la secuenciación de ácidos nucleicos se convirtió en un objetivo importante de los primeros biólogos moleculares . En 1964, Robert W. Holley y sus colegas publicaron la primera secuencia de ácido nucleico jamás determinada, la secuencia de ribonucleótidos del ARN de transferencia de alanina . Ampliando este trabajo, Marshall Nirenberg y Philip Leder revelaron la naturaleza triplete del código genético y pudieron determinar las secuencias de 54 de 64 codones en sus experimentos. En 1972, Walter Fiers y su equipo del Laboratorio de Biología Molecular de la Universidad de Gante ( Gante , Bélgica ) fueron los primeros en determinar la secuencia de un gen: el gen de la proteína de la cubierta del bacteriófago MS2 . El grupo de Fiers amplió su trabajo con la proteína de la cubierta MS2, determinando la secuencia completa de nucleótidos del bacteriófago MS2-ARN (cuyo genoma codifica sólo cuatro genes en 3569 pares de bases [pb]) y el virus Simian 40 en 1976 y 1978, respectivamente.

Tecnología de secuenciación de ADN desarrollada

Frederick Sanger
Walter Gilbert
Frederick Sanger y Walter Gilbert compartieron la mitad del Premio Nobel de Química de 1980 por desarrollar de forma independiente métodos para la secuenciación del ADN.

Además de su trabajo fundamental sobre la secuencia de aminoácidos de la insulina, Frederick Sanger y sus colegas desempeñaron un papel clave en el desarrollo de técnicas de secuenciación de ADN que permitieron el establecimiento de proyectos integrales de secuenciación del genoma. En 1975, él y Alan Coulson publicaron un procedimiento de secuenciación utilizando ADN polimerasa con nucleótidos radiomarcados que llamó la técnica Plus y Minus . Esto implicó dos métodos estrechamente relacionados que generaron oligonucleótidos cortos con extremos 3 'definidos. Estos podrían fraccionarse mediante electroforesis en un gel de poliacrilamida (llamado electroforesis en gel de poliacrilamida) y visualizarse mediante autorradiografía. El procedimiento podía secuenciar hasta 80 nucleótidos de una vez y supuso una gran mejora, pero seguía siendo muy laborioso. Sin embargo, en 1977 su grupo pudo secuenciar la mayoría de los 5.386 nucleótidos del bacteriófago monocatenario φX174 , completando el primer genoma basado en ADN completamente secuenciado. El perfeccionamiento del método Plus y Minus dio como resultado la terminación de la cadena, o método Sanger (ver más abajo ), que formó la base de las técnicas de secuenciación de ADN, mapeo del genoma, almacenamiento de datos y análisis bioinformático más ampliamente utilizadas en el siguiente trimestre. -siglo de investigación. En el mismo año, Walter Gilbert y Allan Maxam de la Universidad de Harvard desarrollaron de forma independiente el método Maxam-Gilbert (también conocido como el método químico ) de secuenciación del ADN, que implica la escisión preferencial del ADN en bases conocidas, un método menos eficiente. Por su trabajo pionero en la secuenciación de ácidos nucleicos, Gilbert y Sanger compartieron la mitad del Premio Nobel de Química de 1980 con Paul Berg ( ADN recombinante ).

Genomas completos

El advenimiento de estas tecnologías dio como resultado una rápida intensificación del alcance y la velocidad de finalización de los proyectos de secuenciación del genoma . La primera secuencia completa del genoma de un orgánulo eucariota , la mitocondria humana (16.568 pb, aproximadamente 16.6 kb [kilobase]), se informó en 1981, y los primeros genomas de cloroplasto siguieron en 1986. En 1992, el primer cromosoma eucariota , el cromosoma III de Se secuenció la levadura de cerveza Saccharomyces cerevisiae (315 kb). El primer organismo de vida libre en ser secuenciado fue el de Haemophilus influenzae (1.8 Mb [megabase]) en 1995. Al año siguiente, un consorcio de investigadores de laboratorios de América del Norte , Europa y Japón anunció la finalización de la primera secuencia completa del genoma. de un eucariota, S. cerevisiae (12,1 Mb), y desde entonces se han seguido secuenciando genomas a un ritmo de crecimiento exponencial. En octubre de 2011, las secuencias completas están disponibles para: 2.719 virus , 1.115 arqueas y bacterias y 36 eucariotas , de los cuales aproximadamente la mitad son hongos .

Gráfico de "palo de hockey" que muestra el crecimiento exponencial de las bases de datos de secuencias públicas.
El número de proyectos de genoma ha aumentado a medida que las mejoras tecnológicas continúan reduciendo el costo de secuenciación. (A) Crecimiento exponencial de las bases de datos de secuencias del genoma desde 1995. (B) El costo en dólares estadounidenses (USD) para secuenciar un millón de bases. (C) El costo en USD para secuenciar un genoma de 3000 Mb (tamaño humano) en una escala de transformación logarítmica.

La mayoría de los microorganismos cuyos genomas se han secuenciado por completo son patógenos problemáticos , como Haemophilus influenzae , que ha provocado un sesgo pronunciado en su distribución filogenética en comparación con la amplitud de la diversidad microbiana. De las otras especies secuenciadas, la mayoría fueron elegidas porque eran organismos modelo bien estudiados o prometían convertirse en buenos modelos. La levadura ( Saccharomyces cerevisiae ) ha sido durante mucho tiempo un organismo modelo importante para la célula eucariota , mientras que la mosca de la fruta Drosophila melanogaster ha sido una herramienta muy importante (especialmente en la genética premolecular temprana ). El gusano Caenorhabditis elegans es un modelo simple de uso frecuente para organismos multicelulares . El pez cebra Brachydanio rerio se utiliza para muchos estudios de desarrollo a nivel molecular, y la planta Arabidopsis thaliana es un organismo modelo para las plantas con flores. El pez globo japonés ( Takifugu rubripes ) y el pez globo verde manchado ( Tetraodon nigroviridis ) son interesantes debido a sus genomas pequeños y compactos, que contienen muy poco ADN no codificante en comparación con la mayoría de las especies. El perro mamífero ( Canis familiaris ), la rata marrón ( Rattus norvegicus ), el ratón ( Mus musculus ) y el chimpancé ( Pan troglodytes ) son animales modelo importantes en la investigación médica.

El Proyecto Genoma Humano completó un borrador del genoma humano a principios de 2001, lo que generó mucha fanfarria. Este proyecto, completado en 2003, secuenció todo el genoma de una persona específica, y en 2007 esta secuencia se declaró "terminada" (menos de un error en 20.000 bases y todos los cromosomas ensamblados). En los años transcurridos desde entonces, se han secuenciado los genomas de muchos otros individuos, en parte bajo los auspicios del Proyecto 1000 Genomas , que anunció la secuenciación de 1.092 genomas en octubre de 2012. La finalización de este proyecto fue posible gracias al desarrollo de más tecnologías de secuenciación eficientes y requirió el compromiso de importantes recursos bioinformáticos de una gran colaboración internacional. El análisis continuo de los datos genómicos humanos tiene profundas repercusiones políticas y sociales para las sociedades humanas.

La revolución "ómica"

Esquema general que muestra las relaciones del genoma , transcriptoma , proteoma y metaboloma ( lipidoma ).

El neologismo ómico en idioma inglés se refiere informalmente a un campo de estudio en biología que termina en -ómica , como la genómica, la proteómica o la metabolómica . El sufijo relacionado -oma se utiliza para abordar los objetos de estudio de dichos campos, como el genoma , el proteoma o el metaboloma respectivamente. El sufijo -ome, tal como se utiliza en biología molecular, se refiere a una totalidad de algún tipo; de manera similar, la ómica ha llegado a referirse generalmente al estudio de conjuntos de datos biológicos grandes y completos. Si bien el aumento en el uso del término ha llevado a algunos científicos ( Jonathan Eisen , entre otros) a afirmar que se ha sobrevendido, refleja el cambio de orientación hacia el análisis cuantitativo de la variedad completa o casi completa de todos los componentes de un sistema. En el estudio de las simbiosis , por ejemplo, los investigadores que antes se limitaban al estudio de un único producto genético ahora pueden comparar simultáneamente el complemento total de varios tipos de moléculas biológicas.

Análisis del genoma

Una vez que se ha seleccionado un organismo, los proyectos de genoma involucran tres componentes: la secuenciación del ADN, el ensamblaje de esa secuencia para crear una representación del cromosoma original y la anotación y análisis de esa representación.

Descripción general de un proyecto de genoma. Primero, se debe seleccionar el genoma, lo que involucra varios factores, incluidos el costo y la relevancia. En segundo lugar, la secuencia se genera y ensambla en un centro de secuenciación determinado (como BGI o DOE JGI ). En tercer lugar, la secuencia del genoma se anota en varios niveles: ADN, proteínas, rutas de genes o comparativamente.

Secuenciación

Históricamente, la secuenciación se realizaba en centros de secuenciación , instalaciones centralizadas (desde grandes instituciones independientes como el Joint Genome Institute, que secuencia decenas de terabases al año, hasta instalaciones centrales locales de biología molecular) que contienen laboratorios de investigación con la costosa instrumentación y el apoyo técnico necesarios. Sin embargo, a medida que la tecnología de secuenciación continúa mejorando, una nueva generación de secuenciadores de sobremesa de respuesta rápida y eficaz ha llegado al alcance del laboratorio académico promedio. En general, los enfoques de secuenciación del genoma se dividen en dos grandes categorías, la escopeta y de alto rendimiento (o de próxima generación ) secuenciación.

Secuencia de escopeta

Un analizador genético ABI PRISM 3100. Estos secuenciadores capilares automatizaron los primeros esfuerzos de secuenciación del genoma a gran escala.

La secuenciación de escopeta es un método de secuenciación diseñado para el análisis de secuencias de ADN de más de 1000 pares de bases, hasta e incluyendo cromosomas completos. Se nombra por analogía con el patrón de disparo cuasialeatorio de rápida expansión de una escopeta . Dado que la secuenciación de electroforesis en gel solo se puede usar para secuencias bastante cortas (100 a 1000 pares de bases), las secuencias de ADN más largas deben dividirse en pequeños segmentos aleatorios que luego se secuencian para obtener lecturas . Se obtienen múltiples lecturas superpuestas para el ADN diana realizando varias rondas de esta fragmentación y secuenciación. Luego, los programas de computadora usan los extremos superpuestos de diferentes lecturas para ensamblarlos en una secuencia continua. La secuenciación por escopeta es un proceso de muestreo aleatorio que requiere un muestreo excesivo para garantizar que un nucleótido determinado esté representado en la secuencia reconstruida; el número medio de lecturas en las que se sobremuestrea un genoma se denomina cobertura .

Durante gran parte de su historia, la tecnología subyacente a la secuenciación de escopeta fue el método clásico de terminación de cadena o ' método Sanger ', que se basa en la incorporación selectiva de didesoxinucleótidos de terminación de cadena por la ADN polimerasa durante la replicación del ADN in vitro . Recientemente, la secuenciación de escopeta ha sido reemplazada por métodos de secuenciación de alto rendimiento , especialmente para análisis genómicos automatizados a gran escala . Sin embargo, el método de Sanger sigue siendo de amplio uso, principalmente para proyectos de menor escala y para obtener lecturas de secuencias de ADN contiguas especialmente largas (> 500 nucleótidos). Los métodos de terminación de cadena requieren una plantilla de ADN monocatenario, un cebador de ADN , una ADN polimerasa , desoxinucleosidetrifosfatos normales (dNTP) y nucleótidos modificados (didesoxiNTP) que terminan el alargamiento de la cadena de ADN. Estos nucleótidos que terminan la cadena carecen de un grupo 3'- OH requerido para la formación de un enlace fosfodiéster entre dos nucleótidos, lo que hace que la ADN polimerasa cese la extensión del ADN cuando se incorpora un ddNTP. Los ddNTP pueden marcarse de forma radiactiva o fluorescente para su detección en secuenciadores de ADN . Por lo general, estas máquinas pueden secuenciar hasta 96 muestras de ADN en un solo lote (ejecución) en hasta 48 ejecuciones al día.

Secuenciación de alto rendimiento

La alta demanda de secuenciación de bajo costo ha impulsado el desarrollo de tecnologías de secuenciación de alto rendimiento que paralelizan el proceso de secuenciación, produciendo miles o millones de secuencias a la vez. La secuenciación de alto rendimiento está destinada a reducir el costo de la secuenciación del ADN más allá de lo que es posible con los métodos estándar de terminación por colorante. En la secuenciación de rendimiento ultra alto, se pueden ejecutar en paralelo hasta 500.000 operaciones de secuenciación por síntesis.

Sistema Illumina Genome Analyzer II. Las tecnologías de Illumina han establecido el estándar para la secuenciación masiva en paralelo de alto rendimiento.

El método de secuenciación de colorantes de Illumina se basa en terminadores de colorantes reversibles y fue desarrollado en 1996 en el Instituto de Investigación Biomédica de Ginebra, por Pascal Mayer  [ fr ] y Laurent Farinelli. En este método, las moléculas de ADN y los cebadores se unen primero en un portaobjetos y se amplifican con polimerasa para que se formen colonias clonales locales, inicialmente denominadas "colonias de ADN". Para determinar la secuencia, se añaden cuatro tipos de bases terminadoras reversibles (bases RT) y se eliminan por lavado los nucleótidos no incorporados. A diferencia de la pirosecuenciación, las cadenas de ADN se extienden un nucleótido a la vez y la adquisición de imágenes se puede realizar en un momento retrasado, lo que permite capturar conjuntos muy grandes de colonias de ADN mediante imágenes secuenciales tomadas con una sola cámara. El desacoplamiento de la reacción enzimática y la captura de imágenes permite un rendimiento óptimo y una capacidad de secuenciación teóricamente ilimitada; con una configuración óptima, el rendimiento final del instrumento depende únicamente de la tasa de conversión A / D de la cámara. La cámara toma imágenes de los nucleótidos marcados con fluorescencia , luego el tinte junto con el bloqueador terminal 3 'se elimina químicamente del ADN, lo que permite el siguiente ciclo.

Un enfoque alternativo, la secuenciación de semiconductores de iones , se basa en la química de replicación del ADN estándar. Esta tecnología mide la liberación de un ión de hidrógeno cada vez que se incorpora una base. Un micropocillo que contiene ADN molde se inunda con un solo nucleótido , si el nucleótido es complementario a la hebra molde, se incorporará y se liberará un ion hidrógeno. Esta versión activa un sensor de iones ISFET . Si un homopolímero está presente en la secuencia de la plantilla, se incorporarán múltiples nucleótidos en un solo ciclo de inundación, y la señal eléctrica detectada será proporcionalmente más alta.

Montaje

Las lecturas superpuestas forman contigs; contigs y huecos de longitud conocida forman andamios.
Lecturas finales emparejadas de datos de secuenciación de próxima generación mapeados a un genoma de referencia.
Las lecturas de secuencias múltiples y fragmentadas deben ensamblarse sobre la base de sus áreas superpuestas.

El ensamblaje de secuencias se refiere a alinear y fusionar fragmentos de una secuencia de ADN mucho más larga para reconstruir la secuencia original. Esto es necesario ya que la tecnología de secuenciación de ADN actual no puede leer genomas completos como una secuencia continua, sino que lee pequeños fragmentos de entre 20 y 1000 bases, dependiendo de la tecnología utilizada. Las tecnologías de secuenciación de tercera generación como PacBio o Oxford Nanopore generan rutinariamente lecturas de secuenciación> 10 kb de longitud; sin embargo, tienen una alta tasa de error de aproximadamente el 15 por ciento. Típicamente, los fragmentos cortos, llamados lee, resultado de la secuenciación shotgun genómico de ADN o transcripciones de genes ( EST ).

Enfoques de montaje

El ensamblaje se puede categorizar ampliamente en dos enfoques: ensamblaje de novo , para genomas que no son similares a ninguno de los secuenciados en el pasado, y ensamblaje comparativo, que utiliza la secuencia existente de un organismo estrechamente relacionado como referencia durante el ensamblaje. En relación con el ensamblaje comparativo, el ensamblaje de novo es computacionalmente difícil ( NP-hard ), lo que lo hace menos favorable para las tecnologías NGS de lectura corta. Dentro del paradigma de ensamblaje de novo hay dos estrategias principales para el ensamblaje, estrategias de ruta euleriana y estrategias de consenso de diseño de superposición (OLC). En última instancia, las estrategias de OLC intentan crear una ruta hamiltoniana a través de un gráfico de superposición, lo que es un problema NP-difícil. Las estrategias de ruta euleriana son computacionalmente más manejables porque intentan encontrar una ruta euleriana a través de un gráfico de deBruijn.

Refinamiento

Los genomas terminados se definen por tener una única secuencia contigua sin ambigüedades que representen cada replicón .

Anotación

El ensamblaje de la secuencia de ADN solo tiene poco valor sin un análisis adicional. La anotación del genoma es el proceso de adjuntar información biológica a las secuencias y consta de tres pasos principales:

  1. Identificar porciones del genoma que no codifican proteínas.
  2. identificar elementos en el genoma , un proceso llamado predicción genética , y
  3. adjuntando información biológica a estos elementos.

Las herramientas de anotación automática intentan realizar estos pasos en sí mismo , a diferencia de la anotación manual (también conocida como curación), que implica la experiencia humana y la posible verificación experimental. Idealmente, estos enfoques coexisten y se complementan entre sí en la misma canalización de anotaciones (ver también más abajo ).

Tradicionalmente, el nivel básico de anotación es usar BLAST para encontrar similitudes y luego anotar genomas basados ​​en homólogos. Más recientemente, se agrega información adicional a la plataforma de anotaciones. La información adicional permite a los anotadores manuales deconvolucionar las discrepancias entre genes que reciben la misma anotación. Algunas bases de datos utilizan información del contexto del genoma, puntuaciones de similitud, datos experimentales e integraciones de otros recursos para proporcionar anotaciones del genoma a través de su enfoque de subsistemas. Otras bases de datos (por ejemplo Ensembl ) se basan en dos fuentes de datos curados, así como una gama de herramientas de software en su tubería de anotación del genoma automatizado. La anotación estructural consiste en la identificación de elementos genómicos, principalmente ORF y su localización o estructura genética. La anotación funcional consiste en adjuntar información biológica a elementos genómicos.

Secuenciación de canalizaciones y bases de datos

La necesidad de reproducibilidad y gestión eficiente de la gran cantidad de datos asociados con los proyectos del genoma significa que las tuberías computacionales tienen aplicaciones importantes en genómica.

Áreas de investigación

Genómica funcional

La genómica funcional es un campo de la biología molecular que intenta hacer uso de la gran cantidad de datos producidos por proyectos genómicos (como proyectos de secuenciación del genoma ) para describir funciones e interacciones de genes (y proteínas ). La genómica funcional se centra en los aspectos dinámicos como la transcripción , la traducción y las interacciones proteína-proteína , en contraposición a los aspectos estáticos de la información genómica, como la secuencia o las estructuras del ADN . La genómica funcional intenta responder preguntas sobre la función del ADN a nivel de genes, transcripciones de ARN y productos proteicos. Una característica clave de los estudios de genómica funcional es su enfoque de genoma completo para estas preguntas, que generalmente implica métodos de alto rendimiento en lugar de un enfoque más tradicional "gen por gen".

Una rama importante de la genómica todavía se ocupa de secuenciar los genomas de varios organismos, pero el conocimiento de los genomas completos ha creado la posibilidad para el campo de la genómica funcional , que se ocupa principalmente de los patrones de expresión génica durante diversas condiciones. Las herramientas más importantes aquí son los microarrays y la bioinformática .

Genómica estructural

Un ejemplo de una estructura de proteína determinada por el Midwest Center for Structural Genomics.

La genómica estructural busca describir la estructura tridimensional de cada proteína codificada por un genoma dado . Este enfoque basado en el genoma permite un método de alto rendimiento para la determinación de la estructura mediante una combinación de enfoques experimentales y de modelado . La principal diferencia entre la genómica estructural y la predicción estructural tradicional es que la genómica estructural intenta determinar la estructura de cada proteína codificada por el genoma, en lugar de centrarse en una proteína en particular. Con las secuencias de genoma completo disponibles, la predicción de la estructura se puede hacer más rápidamente a través de una combinación de enfoques experimentales y de modelado, especialmente porque la disponibilidad de un gran número de genomas secuenciados y estructuras de proteínas previamente resueltas permiten a los científicos modelar la estructura de las proteínas en las estructuras de las estructuras de proteínas previamente resueltas. homólogos. La genómica estructural implica adoptar una gran cantidad de enfoques para la determinación de la estructura, incluidos métodos experimentales que utilizan secuencias genómicas o enfoques basados ​​en modelos basados ​​en la secuencia u homología estructural con una proteína de estructura conocida o basados ​​en principios químicos y físicos para una proteína sin homología con cualquier estructura conocida. A diferencia de la biología estructural tradicional , la determinación de la estructura de una proteína a través de un esfuerzo de genómica estructural a menudo (pero no siempre) se produce antes de que se sepa cualquier cosa sobre la función de la proteína. Esto plantea nuevos desafíos en bioinformática estructural , es decir, determinar la función de las proteínas a partir de su estructura 3D .

Epigenómica

La epigenómica es el estudio del conjunto completo de modificaciones epigenéticas del material genético de una célula, conocido como epigenoma . Las modificaciones epigenéticas son modificaciones reversibles en el ADN o las histonas de una célula que afectan la expresión génica sin alterar la secuencia del ADN (Russell 2010 p. 475). Dos de las modificaciones epigenéticas más caracterizadas son la metilación del ADN y la modificación de histonas . Las modificaciones epigenéticas juegan un papel importante en la expresión y regulación génica, y están implicadas en numerosos procesos celulares como la diferenciación / desarrollo y la tumorigénesis . El estudio de la epigenética a nivel mundial sólo ha sido posible recientemente gracias a la adaptación de ensayos genómicos de alto rendimiento.

Metagenómica

La secuenciación ambiental de escopeta (ESS) es una técnica clave en metagenómica. (A) Muestreo del hábitat; (B) filtrar partículas, típicamente por tamaño; (C) Lisis y extracción de ADN; (D) clonación y construcción de bibliotecas; (E) secuenciar los clones; (F) secuenciar el montaje en contigs y andamios.

La metagenómica es el estudio de los metagenomas , material genético recuperado directamente de muestras ambientales . El campo amplio también puede denominarse genómica ambiental, ecogenómica o genómica comunitaria. Mientras tradicional microbiología y microbiana secuenciación del genoma dependen cultivadas clonales culturas , gen temprano del medio ambiente de secuenciación clonado genes específicos (a menudo el 16S rRNA genes) para producir un perfil de la diversidad en una muestra natural. Ese trabajo reveló que la gran mayoría de la diversidad biológica microbiana se había perdido con los métodos basados en el cultivo . Estudios recientes utilizan la secuenciación "escopeta" de Sanger o la pirosecuenciación masivamente paralela para obtener muestras en gran parte no sesgadas de todos los genes de todos los miembros de las comunidades muestreadas. Debido a su poder para revelar la diversidad previamente oculta de la vida microscópica, la metagenómica ofrece una lente poderosa para ver el mundo microbiano que tiene el potencial de revolucionar la comprensión de todo el mundo viviente.

Sistemas modelo

Virus y bacteriófagos.

Los bacteriófagos han jugado y siguen jugando un papel clave en la genética bacteriana y la biología molecular . Históricamente, se utilizaron para definir la estructura y la regulación de los genes. Además, el primer genoma en ser secuenciado fue un bacteriófago . Sin embargo, la investigación sobre bacteriófagos no lideró la revolución de la genómica, que está claramente dominada por la genómica bacteriana. Solo muy recientemente se ha vuelto prominente el estudio de los genomas de bacteriófagos, lo que permite a los investigadores comprender los mecanismos subyacentes a la evolución de los fagos . Las secuencias del genoma de los bacteriófagos se pueden obtener mediante la secuenciación directa de los bacteriófagos aislados, pero también se pueden derivar como parte de los genomas microbianos. Análisis de los genomas bacterianos ha demostrado que una cantidad sustancial de ADN microbiano consiste en prophage secuencias y prophage-elementos similares. Una extracción de base de datos detallada de estas secuencias ofrece información sobre el papel de los profagos en la configuración del genoma bacteriano: en general, este método verificó muchos grupos de bacteriófagos conocidos, lo que lo convierte en una herramienta útil para predecir las relaciones de los profagos de los genomas bacterianos.

Cianobacterias

En la actualidad, hay 24 cianobacterias para las que se dispone de una secuencia del genoma total. 15 de estas cianobacterias provienen del medio marino. Se trata de seis cepas de Prochlorococcus , siete cepas marinas de Synechococcus , Trichodesmium erythraeum IMS101 y Crocosphaera watsonii WH8501 . Varios estudios han demostrado cómo estas secuencias podrían utilizarse con mucho éxito para inferir importantes características ecológicas y fisiológicas de las cianobacterias marinas. Sin embargo, hay muchos más proyectos de genoma actualmente en curso, entre los que se encuentran más aislados de Prochlorococcus y Synechococcus marino , Acaryochloris y Prochloron , las cianobacterias filamentosas fijadoras de N 2 Nodularia spumigena , Lyngbya aestuarii y Lyngbya majuscula , así como bacteriófagos que infectan cianobacterias marinas. . Por lo tanto, el creciente cuerpo de información del genoma también se puede aprovechar de una manera más general para abordar problemas globales mediante la aplicación de un enfoque comparativo. Algunos ejemplos nuevos y emocionantes de progreso en este campo son la identificación de genes para los ARN reguladores, la comprensión del origen evolutivo de la fotosíntesis o la estimación de la contribución de la transferencia horizontal de genes a los genomas que se han analizado.

Aplicaciones de la genómica

La genómica ha proporcionado aplicaciones en muchos campos, incluida la medicina , la biotecnología , la antropología y otras ciencias sociales .

Medicina genómica

Las tecnologías genómicas de próxima generación permiten a los médicos y a los investigadores biomédicos aumentar drásticamente la cantidad de datos genómicos recopilados en grandes poblaciones de estudio. Cuando se combina con nuevos enfoques informáticos que integran muchos tipos de datos con datos genómicos en la investigación de enfermedades, esto permite a los investigadores comprender mejor las bases genéticas de la respuesta a los medicamentos y la enfermedad. Los primeros esfuerzos para aplicar el genoma a la medicina incluyeron los de un equipo de Stanford dirigido por Euan Ashley, quien desarrolló las primeras herramientas para la interpretación médica de un genoma humano. El programa de investigación Genomes2People en Brigham and Women's Hospital , Broad Institute y Harvard Medical School se estableció en 2012 para realizar investigaciones empíricas para traducir la genómica en salud. El Hospital Brigham and Women's abrió una Clínica de Genómica Preventiva en agosto de 2019, y el Hospital General de Massachusetts lo siguió un mes después. El programa de investigación All of Us tiene como objetivo recopilar datos de la secuencia del genoma de 1 millón de participantes para convertirse en un componente crítico de la plataforma de investigación de la medicina de precisión.

Biología sintética y bioingeniería

El crecimiento del conocimiento genómico ha permitido aplicaciones cada vez más sofisticadas de la biología sintética . En 2010, investigadores del Instituto J. Craig Venter anunciaron la creación de una especie de bacteria parcialmente sintética , Mycoplasma laboratorium , derivada del genoma de Mycoplasma genitalium .

Genómica de poblaciones y conservación

La genómica de poblaciones se ha desarrollado como un campo de investigación popular, en el que se utilizan métodos de secuenciación genómica para realizar comparaciones a gran escala de secuencias de ADN entre poblaciones, más allá de los límites de los marcadores genéticos, como losproductos de PCR de corto alcanceo los microsatélites utilizados tradicionalmente en la genética de poblaciones . La genómica de poblaciones estudia losefectos de todo el genoma para mejorar nuestra comprensión de la microevolución, de modo que podamos conocer lahistoria filogenética y la demografía de una población. Los métodos de genómica de poblaciones se utilizan para muchos campos diferentes, incluida la biología evolutiva , la ecología , la biogeografía , la biología de la conservación y la ordenación pesquera . De manera similar, la genómica del paisaje se ha desarrollado a partir de la genética del paisaje para utilizar métodos genómicos para identificar las relaciones entre los patrones de variación ambiental y genética.

Los conservacionistas pueden utilizar la información recopilada por secuenciación genómica para evaluar mejor los factores genéticos clave para la conservación de especies, como la diversidad genética de una población o si un individuo es heterocigoto para un trastorno genético hereditario recesivo. Al utilizar datos genómicos para evaluar los efectos de los procesos evolutivos y detectar patrones de variación en una población determinada, los conservacionistas pueden formular planes para ayudar a una especie determinada sin que queden desconocidas tantas variables como las que no se abordan con los enfoques genéticos estándar .

Ver también

Referencias

Otras lecturas

enlaces externos