Secuenciación del exoma - Exome sequencing

Flujo de trabajo de secuenciación del exoma: Parte 1.
Flujo de trabajo de secuenciación del exoma: parte 1.

La secuenciación del exoma , también conocida como secuenciación del exoma completo ( WES ), es una técnica genómica para secuenciar todas las regiones de genes que codifican proteínas en un genoma (conocido como exoma ). Consta de dos pasos: el primer paso es seleccionar solo el subconjunto de ADN que codifica proteínas . Estas regiones se conocen como exones : los humanos tienen alrededor de 180.000 exones, que constituyen aproximadamente el 1% del genoma humano , o aproximadamente 30 millones de pares de bases . El segundo paso es secuenciar el ADN exónico utilizando cualquier tecnología de secuenciación de ADN de alto rendimiento .

El objetivo de este enfoque es identificar variantes genéticas que alteran las secuencias de proteínas, y hacerlo a un costo mucho menor que la secuenciación del genoma completo . Dado que estas variantes pueden ser responsables de enfermedades tanto mendelianas como poligénicas comunes, como la enfermedad de Alzheimer , la secuenciación del exoma completo se ha aplicado tanto en la investigación académica como en el diagnóstico clínico.

Flujo de trabajo de secuenciación del exoma: Parte 2.
Flujo de trabajo de secuenciación del exoma: parte 2.

Motivación y comparación con otros enfoques.

La secuenciación del exoma es especialmente eficaz en el estudio de enfermedades mendelianas raras, porque es una forma eficaz de identificar las variantes genéticas en todos los genes de un individuo. Estas enfermedades son causadas con mayor frecuencia por variantes genéticas muy raras que solo están presentes en una pequeña cantidad de individuos; por el contrario, técnicas como las matrices de SNP solo pueden detectar variantes genéticas compartidas que son comunes a muchos individuos en la población más amplia. Además, debido a que es mucho más probable (pero de ninguna manera exclusiva) que las variantes que causan enfermedades graves estén en la secuencia de codificación de proteínas, centrarse en este 1% cuesta mucho menos que la secuenciación del genoma completo, pero aún detecta un alto rendimiento de variantes relevantes.

En el pasado, las pruebas genéticas clínicas se elegían en función de la presentación clínica del paciente (es decir, se centraban en un gen o en un pequeño número que se sabía que estaba asociado con un síndrome en particular), o se examinaban solo ciertos tipos de variación (p. Ej., Hibridación genómica comparativa ) pero proporcionó diagnósticos genéticos definitivos en menos de la mitad de todos los pacientes. La secuenciación de exomas se utiliza cada vez más para complementar estas otras pruebas: tanto para encontrar mutaciones en genes que ya se sabe que causan enfermedades como para identificar genes nuevos comparando exomas de pacientes con características similares.

Metodología técnica

Paso 1: estrategias de enriquecimiento de objetivos

Los métodos de enriquecimiento de la diana permiten capturar selectivamente las regiones genómicas de interés de una muestra de ADN antes de la secuenciación. Se han desarrollado varias estrategias de enriquecimiento de la diana desde la descripción original del método de selección genómica directa (DGS) en 2005.

Aunque se han descrito muchas técnicas para la captura dirigida, solo algunas de ellas se han extendido para capturar exomas completos. La primera estrategia de enriquecimiento objetivo que se aplicó a la secuenciación del exoma completo fue el método de captura híbrido basado en matrices en 2007, pero la captura en solución ha ganado popularidad en los últimos años.

Captura basada en matrices

Captura en solución
Captura en solución.

Las micromatrices contienen oligonucleótidos monocatenarios con secuencias del genoma humano para enlosar la región de interés fijada a la superficie. El ADN genómico se corta para formar fragmentos de doble hebra. Los fragmentos se someten a una reparación final para producir extremos romos y se añaden adaptadores con secuencias de cebado universales. Estos fragmentos se hibridan con oligos en la micromatriz. Los fragmentos no hibridados se eliminan por lavado y los fragmentos deseados se eluyen. A continuación, los fragmentos se amplifican mediante PCR .

Roche NimbleGen fue el primero en tomar la tecnología DGS original y adaptarla para la secuenciación de próxima generación. Desarrollaron el Sequence Capture Human Exome 2.1M Array para capturar ~ 180.000 exones codificantes. Este método ahorra tiempo y es rentable en comparación con los métodos basados ​​en PCR. La matriz de captura de Agilent y la matriz de hibridación genómica comparativa son otros métodos que se pueden utilizar para la captura híbrida de secuencias diana. Las limitaciones de esta técnica incluyen la necesidad de un hardware caro, así como una cantidad relativamente grande de ADN.

Captura en solución

Para capturar las regiones genómicas de interés mediante la captura en solución, se sintetiza un conjunto de oligonucleótidos personalizados (sondas) y se hibrida en solución con una muestra de ADN genómico fragmentado. Las sondas (marcadas con perlas) se hibridan selectivamente con las regiones genómicas de interés, después de lo cual las perlas (que ahora incluyen los fragmentos de ADN de interés) pueden extraerse y lavarse para eliminar el exceso de material. A continuación, se retiran las perlas y se pueden secuenciar los fragmentos genómicos permitiendo la secuenciación selectiva del ADN de las regiones genómicas (por ejemplo, exones) de interés.

Este método fue desarrollado para mejorar el método de enriquecimiento de la diana de captura de hibridación. En la captura de solución (a diferencia de la captura híbrida) hay un exceso de sondas para apuntar a las regiones de interés sobre la cantidad de plantilla requerida. El tamaño óptimo del objetivo es de aproximadamente 3,5 megabases y proporciona una excelente cobertura de secuencia de las regiones objetivo. El método preferido depende de varios factores que incluyen: número de pares de bases en la región de interés, demandas de lecturas en el objetivo, equipo interno, etc.

Paso 2: secuenciación

Hay muchas plataformas de secuenciación de secuenciación de próxima generación disponibles, posteriores a las metodologías de secuenciación clásicas de Sanger. Otras plataformas incluyen Roche 454 secuenciador y Life Technologies sistemas sólidos, el Life Technologies Ion Torrent y de Illumina Illumina Genome Analyzer II (difunto) y posterior Illumina MiSeq, HiSeq, y instrumentos de la serie NovaSeq, todos los cuales se pueden utilizar para paralelos masivamente exoma secuenciación. Estos sistemas NGS de 'lectura corta' son particularmente adecuados para analizar muchos tramos relativamente cortos de secuencia de ADN, como se encuentra en exones humanos.

Comparación con otras tecnologías

Existen múltiples tecnologías disponibles que identifican variantes genéticas. Cada tecnología tiene ventajas y desventajas en términos de factores técnicos y financieros. Dos de estas tecnologías son los microarrays y la secuenciación del genoma completo .

Genotipado basado en microarrays

Los microarrays usan sondas de hibridación para probar la prevalencia de secuencias de ADN conocidas, por lo que no pueden usarse para identificar cambios genéticos inesperados. Por el contrario, las tecnologías de secuenciación de alto rendimiento utilizadas en la secuenciación del exoma proporcionan directamente las secuencias de nucleótidos del ADN en los miles de loci exónicos probados. Por lo tanto, WES aborda algunas de las limitaciones actuales de las matrices de genotipado de hibridación .

Aunque la secuenciación del exoma es más costosa que las tecnologías basadas en la hibridación por muestra, su costo ha ido disminuyendo debido a la caída del costo y al aumento del rendimiento de la secuenciación del genoma completo .

Secuenciación del genoma completo

La secuenciación del exoma solo puede identificar aquellas variantes que se encuentran en la región codificante de genes que afectan la función de las proteínas. No es capaz de identificar las variantes estructurales y no codificantes asociadas con la enfermedad, que se pueden encontrar utilizando otros métodos como la secuenciación del genoma completo . Queda el 99% del genoma humano que no se cubre mediante la secuenciación del exoma. Actualmente, la secuenciación del genoma completo rara vez es práctica en el contexto clínico debido a los altos costos y el tiempo asociados con la secuenciación de genomas completos. La secuenciación del exoma permite secuenciar porciones del genoma en al menos 20 veces más muestras en comparación con la secuenciación del genoma completo, al mismo costo. Para la traducción de variantes raras identificadas a la clínica, el tamaño de la muestra y la capacidad de interpretar los resultados para proporcionar un diagnóstico clínico indica que, con el conocimiento actual en genética, la secuenciación del exoma puede ser la más valiosa.

Análisis de los datos

El análisis estadístico de la gran cantidad de datos generados a partir de enfoques de secuenciación es un desafío. Incluso secuenciando únicamente los exomas de los individuos, se genera una gran cantidad de datos e información de secuencia que requiere una cantidad significativa de análisis de datos. Los desafíos asociados con el análisis de estos datos incluyen cambios en los programas utilizados para alinear y ensamblar lecturas de secuencia. Varias tecnologías de secuenciación también tienen diferentes tasas de error y generan varias longitudes de lectura que pueden plantear desafíos al comparar los resultados de diferentes plataformas de secuenciación.

Los hallazgos falsos positivos y falsos negativos están asociados con los enfoques de resecuenciación genómica y son cuestiones críticas. Se han desarrollado algunas estrategias para mejorar la calidad de los datos del exoma, como:

  • Comparación de las variantes genéticas identificadas entre secuenciación y genotipado basado en matrices
  • Comparación de los SNP codificadores con un individuo secuenciado del genoma completo con el trastorno
  • Comparación de los SNP codificantes con la secuenciación de Sanger de individuos HapMap

Los trastornos recesivos raros no tendrían polimorfismos de un solo nucleótido (SNP) en bases de datos públicas como dbSNP . Los fenotipos recesivos más comunes pueden tener variantes causantes de enfermedad informadas en dbSNP. Por ejemplo, la variante de fibrosis quística más común tiene una frecuencia de alelos de aproximadamente el 3% en la mayoría de las poblaciones. El cribado de tales variantes podría excluir erróneamente a dichos genes de su consideración. Los genes de los trastornos recesivos suelen ser más fáciles de identificar que los trastornos dominantes porque es menos probable que los genes tengan más de una variante no sinónima rara. El sistema que analiza las variantes genéticas comunes se basa en dbSNP, que puede no tener información precisa sobre la variación de los alelos. El uso de listas de variaciones comunes de un exoma de estudio o de un individuo secuenciado en todo el genoma sería más confiable. Un desafío en este enfoque es que a medida que aumenta el número de exomas secuenciados, dbSNP también aumentará el número de variantes poco comunes. Será necesario desarrollar umbrales para definir las variantes comunes que es poco probable que estén asociadas con un fenotipo de enfermedad.

La heterogeneidad genética y el origen étnico de la población también son limitaciones importantes, ya que pueden aumentar el número de hallazgos falsos positivos y falsos negativos, lo que dificultará la identificación de genes candidatos. Por supuesto, es posible reducir el rigor de los umbrales en presencia de heterogeneidad y etnicidad, sin embargo, esto también reducirá el poder para detectar variantes. El uso de un enfoque de genotipo primero para identificar genes candidatos también podría ofrecer una solución para superar estas limitaciones.

Implicaciones éticas

Las nuevas tecnologías en genómica han cambiado la forma en que los investigadores abordan la investigación básica y traslacional. Con enfoques como la secuenciación del exoma, es posible mejorar significativamente los datos generados a partir de genomas individuales, lo que ha planteado una serie de preguntas sobre cómo tratar la gran cantidad de información. ¿Debería permitirse que las personas de estos estudios tengan acceso a su información de secuenciación? ¿Debería compartirse esta información con las compañías de seguros? Estos datos pueden conducir a hallazgos inesperados y complicar la utilidad clínica y el beneficio para el paciente. Esta área de la genómica sigue siendo un desafío y los investigadores están buscando cómo abordar estas preguntas.

Aplicaciones de la secuenciación del exoma

Al utilizar la secuenciación del exoma, los estudios de costo fijo pueden secuenciar muestras a una profundidad mucho mayor de la que se podría lograr con la secuenciación del genoma completo. Esta profundidad adicional hace que la secuenciación del exoma sea adecuada para varias aplicaciones que necesitan llamadas de variantes confiables.

Mapeo de variantes raras en trastornos complejos

Los estudios de asociación actuales se han centrado en la variación común en todo el genoma, ya que son los más fáciles de identificar con nuestros ensayos actuales. Sin embargo, se ha encontrado que las variantes causantes de enfermedades de gran efecto se encuentran dentro de los exomas en estudios de genes candidatos y, debido a la selección negativa , se encuentran en frecuencias alélicas mucho más bajas y pueden permanecer sin tipificar en los ensayos de genotipado estándar actuales. La secuenciación del genoma completo es un método potencial para analizar nuevas variantes en todo el genoma. Sin embargo, en los trastornos complejos (como el autismo), se cree que una gran cantidad de genes están asociados con el riesgo de enfermedad. Esta heterogeneidad del riesgo subyacente significa que se requieren tamaños de muestra muy grandes para el descubrimiento de genes y, por lo tanto, la secuenciación del genoma completo no es particularmente rentable. Este problema del tamaño de la muestra se alivia con el desarrollo de nuevos métodos analíticos avanzados, que mapean eficazmente los genes de la enfermedad a pesar de que las mutaciones genéticas son raras a nivel de variante. Además, las variantes en las regiones codificantes se han estudiado mucho más extensamente y sus implicaciones funcionales son mucho más fáciles de derivar, lo que hace que las aplicaciones prácticas de las variantes dentro de la región del exoma objetivo sean más accesibles de inmediato.

La secuenciación del exoma en el descubrimiento de genes de variantes raras sigue siendo un área de investigación muy activa y en curso: hasta la fecha, se han descubierto pocos genes asociados, pero existe una evidencia creciente de que se observa una carga significativa de riesgo en los conjuntos de genes.

Descubrimiento de los trastornos mendelianos

En los trastornos mendelianos de gran efecto, los hallazgos hasta ahora sugieren que una o un número muy pequeño de variantes dentro de los genes codificantes subyacen a toda la afección. Debido a la gravedad de estos trastornos, se presume que las pocas variantes causales son extremadamente raras o nuevas en la población, y cualquier ensayo de genotipado estándar las pasaría por alto. La secuenciación del exoma proporciona llamadas de variantes de alta cobertura a través de las regiones de codificación, que son necesarias para separar las variantes verdaderas del ruido. Un modelo exitoso de descubrimiento de genes mendelianos implica el descubrimiento de variantes de novo usando secuenciación en trío, donde los padres y el probando son genotipados.

Estudios de caso

Un estudio publicado en septiembre de 2009 analizó un experimento de prueba de concepto para determinar si era posible identificar variantes genéticas causales mediante la secuenciación del exoma. Secuenciaron cuatro individuos con síndrome de Freeman-Sheldon (FSS) (OMIM 193700), un trastorno autosómico dominante poco común que se sabe que es causado por una mutación en el gen MYH3 . También se secuenciaron ocho individuos de HapMap para eliminar variantes comunes con el fin de identificar el gen causal de FSS. Después de la exclusión de variantes comunes, los autores pudieron identificar MYH3 , lo que confirma que la secuenciación del exoma se puede utilizar para identificar variantes causales de trastornos raros. Este fue el primer estudio informado que utilizó la secuenciación del exoma como un enfoque para identificar un gen causal desconocido para un trastorno mendeliano poco común.

Posteriormente, otro grupo informó de un diagnóstico clínico exitoso de un paciente con sospecha de síndrome de Bartter de origen turco. El síndrome de Bartter es una enfermedad renal por pérdida de sal. La secuenciación del exoma reveló una mutación recesiva bien conservada inesperada en un gen llamado SLC26A3 que está asociado con la diarrea congénita por cloruro (EPC). Este diagnóstico molecular de EPC fue confirmado por el médico remitente. Este ejemplo proporcionó una prueba del concepto del uso de la secuenciación del exoma completo como herramienta clínica en la evaluación de pacientes con enfermedades genéticas no diagnosticadas. Este informe se considera la primera aplicación de la tecnología de secuenciación de próxima generación para el diagnóstico molecular de un paciente.

Se realizó un segundo informe sobre la secuenciación del exoma de individuos con un trastorno mendeliano conocido como síndrome de Miller (MIM # 263750), un trastorno poco común de herencia autosómica recesiva . Se estudiaron dos hermanos y dos individuos no relacionados con el síndrome de Miller. Examinaron variantes que tienen el potencial de ser patógenas, como mutaciones no sinónimos, sitios aceptores y donantes de empalmes e inserciones o deleciones de codificación corta. Dado que el síndrome de Miller es un trastorno poco común, se espera que la variante causal no se haya identificado previamente. Se utilizaron estudios previos de secuenciación del exoma de polimorfismos de un solo nucleótido (SNP) en bases de datos públicas de SNP para excluir más genes candidatos. Después de la exclusión de estos genes, los autores encontraron mutaciones en DHODH que se compartían entre las personas con síndrome de Miller. Cada individuo con síndrome de Miller era un heterocigoto compuesto para las mutaciones de DHODH que se heredaron, ya que se descubrió que cada padre de un individuo afectado era portador.

Esta fue la primera vez que se demostró que la secuenciación del exoma identifica un nuevo gen responsable de una rara enfermedad mendeliana. Este interesante hallazgo demuestra que la secuenciación del exoma tiene el potencial de localizar genes causantes en enfermedades complejas, lo que anteriormente no había sido posible debido a las limitaciones de los métodos tradicionales. La captura dirigida y la secuenciación masivamente paralela representa una estrategia rentable, reproducible y robusta con alta sensibilidad y especificidad para detectar variantes que causan cambios en la codificación de proteínas en genomas humanos individuales.

Diagnóstico clínico

La secuenciación del exoma se puede utilizar para diagnosticar la causa genética de la enfermedad en un paciente. La identificación de las mutaciones del gen de la enfermedad subyacente puede tener implicaciones importantes para los enfoques diagnósticos y terapéuticos, puede orientar la predicción de la historia natural de la enfermedad y hace posible realizar pruebas a los miembros de la familia en riesgo. Hay muchos factores que hacen que la secuenciación del exoma sea superior al análisis de un solo gen, incluida la capacidad de identificar mutaciones en genes que no se probaron debido a una presentación clínica atípica o la capacidad de identificar casos clínicos en los que mutaciones de diferentes genes contribuyen a los diferentes fenotipos en el mismo paciente.

Habiendo diagnosticado una causa genética de una enfermedad, esta información puede guiar la selección del tratamiento apropiado. La primera vez que esta estrategia se llevó a cabo con éxito en la clínica fue en el tratamiento de un bebé con enfermedad inflamatoria intestinal. Anteriormente se habían utilizado varios diagnósticos convencionales, pero los resultados no pudieron explicar los síntomas del bebé. El análisis de los datos de secuenciación del exoma identificó una mutación en el gen XIAP . El conocimiento de la función de este gen guió el tratamiento del bebé, lo que llevó a un trasplante de médula ósea que curó al niño de la enfermedad.

Los investigadores han utilizado la secuenciación del exoma para identificar la mutación subyacente en un paciente con síndrome de Bartter y diarrea congénita por cloruro. El grupo de Bilgular también utilizó la secuenciación del exoma e identificó la mutación subyacente para un paciente con malformaciones cerebrales graves, afirmando "[Estos hallazgos] destacan el uso de la secuenciación del exoma completo para identificar los loci de la enfermedad en entornos en los que los métodos tradicionales han demostrado ser un desafío ... Nuestros resultados demuestran que esta tecnología será particularmente valiosa para el descubrimiento de genes en aquellas condiciones en las que el mapeo se ha visto confundido por la heterogeneidad del locus y la incertidumbre sobre los límites de la clasificación diagnóstica, lo que apunta a un futuro brillante para su amplia aplicación a la medicina " .

Investigadores de la Universidad de Ciudad del Cabo, Sudáfrica, utilizaron la secuenciación del exoma para descubrir la mutación genética de CDH2 como la causa subyacente de un trastorno genético conocido como miocardiopatía arritmogénica del ventrículo derecho (ARVC), que aumenta el riesgo de enfermedad cardíaca y paro cardíaco. [1]

Secuenciación del exoma directo al consumidor

Varias empresas han ofrecido la secuenciación del exoma a los consumidores.

Knome fue la primera empresa en ofrecer servicios de secuenciación de exomas a los consumidores, a un costo de varios miles de dólares. Más tarde, 23andMe ejecutó un programa piloto de WES que se anunció en septiembre de 2011 y se suspendió en 2012. Los consumidores podían obtener datos de exoma a un costo de $ 999. La empresa proporcionó datos sin procesar y no ofreció análisis.

En noviembre de 2012, DNADTC, una división de Gene by Gene, comenzó a ofrecer exomas con una cobertura de 80X y un precio de lanzamiento de $ 695. Este precio por sitio web DNADTC es actualmente de $ 895. En octubre de 2013, BGI anunció una promoción para la secuenciación del exoma completo personal con una cobertura de 50X por $ 499. En junio de 2016, Genos pudo lograr un precio aún más bajo de $ 399 con un exoma de consumidor 75X certificado por CLIA secuenciado a partir de saliva.

Ver también

Referencias

enlaces externos