Micromatriz de ADN - DNA microarray

Cómo utilizar una micromatriz para la genotipificación. El video muestra el proceso de extracción de genotipos de una muestra de saliva humana utilizando microarrays. La genotipificación es un uso importante de los microarrays de ADN, pero con algunas modificaciones también se pueden utilizar para otros fines, como la medición de la expresión génica y los marcadores epigenéticos.

Una micromatriz de ADN (también conocida comúnmente como chip de ADN o biochip ) es una colección de manchas de ADN microscópicas adheridas a una superficie sólida. Los científicos usan microarrays de ADN para medir los niveles de expresión de un gran número de genes simultáneamente o para genotipar múltiples regiones de un genoma. Cada mancha de ADN contiene picomoles ( 10-12 moles ) de una secuencia de ADN específica, conocida como sondas (o reporteros u oligos ). Estos pueden ser una sección corta de un gen u otro elemento de ADN que se utiliza para hibridar una muestra de ADNc o ARNc (también denominada ARN antisentido) (denominada diana ) en condiciones muy estrictas. La hibridación sonda-diana generalmente se detecta y cuantifica mediante la detección de dianas marcadas con fluoróforo , plata o quimioluminiscencia para determinar la abundancia relativa de secuencias de ácido nucleico en la diana. Las matrices de ácidos nucleicos originales eran matrices macro de aproximadamente 9 cm x 12 cm y el primer análisis basado en imágenes computarizado se publicó en 1981. Fue inventado por Patrick O. Brown . Un ejemplo de su aplicación es en arreglos de SNPs para polimorfismos en enfermedades cardiovasculares, cáncer, patógenos y análisis GWAS. También para la identificación de variaciones estructurales y la medición de la expresión génica.

Principio

Hibridación del objetivo a la sonda.

El principio central detrás de los microarrays es la hibridación entre dos cadenas de ADN, la propiedad de las secuencias de ácidos nucleicos complementarias para emparejarse específicamente entre sí formando enlaces de hidrógeno entre pares de bases de nucleótidos complementarios . Un alto número de pares de bases complementarios en una secuencia de nucleótidos significa un enlace no covalente más estrecho entre las dos cadenas. Después de lavar las secuencias de unión no específicas, solo las hebras fuertemente emparejadas permanecerán hibridadas. Las secuencias diana marcadas con fluorescencia que se unen a una secuencia de sonda generan una señal que depende de las condiciones de hibridación (como la temperatura) y del lavado después de la hibridación. La fuerza total de la señal, desde un punto (característica), depende de la cantidad de unión de la muestra objetivo a las sondas presentes en ese punto. Los microarrays utilizan cuantificación relativa en la que la intensidad de una característica se compara con la intensidad de la misma característica en una condición diferente, y la identidad de la característica se conoce por su posición.

Los pasos necesarios en un experimento de microarrays

Usos y tipos

Dos chips Affymetrix. Se muestra una coincidencia en la parte inferior izquierda para comparar el tamaño.

Existen muchos tipos de matrices y la distinción más amplia es si están dispuestas espacialmente en una superficie o en cuentas codificadas:

  • La matriz de fase sólida tradicional es una colección de "puntos" microscópicos ordenados, llamados rasgos, cada uno con miles de sondas idénticas y específicas unidas a una superficie sólida, como un biochip de vidrio , plástico o silicio (comúnmente conocido como chip del genoma , ADN chip o matriz de genes ). Miles de estas características se pueden colocar en ubicaciones conocidas en una única micromatriz de ADN.
  • La matriz de perlas alternativa es una colección de perlas de poliestireno microscópicas, cada una con una sonda específica y una proporción de dos o más tintes, que no interfieren con los tintes fluorescentes utilizados en la secuencia objetivo.

Las micromatrices de ADN se pueden usar para detectar ADN (como en la hibridación genómica comparativa ) o detectar ARN (más comúnmente como ADNc después de la transcripción inversa ) que puede o no traducirse en proteínas. El proceso de medir la expresión génica a través del ADNc se denomina análisis de expresión o perfil de expresión .

Las aplicaciones incluyen:

Aplicación o tecnología Sinopsis
Perfiles de expresión genética En un experimento de perfil de expresión génica o ARNm, los niveles de expresión de miles de genes se controlan simultáneamente para estudiar los efectos de ciertos tratamientos, enfermedades y etapas de desarrollo en la expresión génica. Por ejemplo, el perfil de expresión génica basado en micromatrices puede usarse para identificar genes cuya expresión cambia en respuesta a patógenos u otros organismos comparando la expresión génica en células infectadas con la de células o tejidos no infectados.
Hibridación genómica comparativa Evaluación del contenido del genoma en diferentes células u organismos estrechamente relacionados, como lo describieron originalmente Patrick Brown , Jonathan Pollack, Ash Alizadeh y sus colegas de Stanford .
GeneID Pequeños microarrays para verificar la identificación de organismos en alimentos y piensos (como OGM [1] ), micoplasmas en cultivo celular o patógenos para la detección de enfermedades, principalmente combinando PCR y tecnología de microarrays.
Inmunoprecipitación de cromatina en chip Las secuencias de ADN unidas a una proteína particular se pueden aislar inmunoprecipitando esa proteína ( ChIP ), estos fragmentos se pueden hibridar luego con una micromatriz (como una matriz en mosaico ) que permite la determinación de la ocupación del sitio de unión de la proteína en todo el genoma. Ejemplo de proteína para inmunoprecipitar son modificaciones de histonas ( H3K27me3 , H3K4me2, H3K9me3, etc.), proteína del grupo Polycomb (PRC2: Suz12, PRC1: YY1) y proteína del grupo trithorax (Ash1) para estudiar el paisaje epigenético o ARN polimerasa II para estudiar el panorama de la transcripción .
DamID De manera análoga a ChIP , las regiones genómicas unidas por una proteína de interés pueden aislarse y usarse para sondear una micromatriz para determinar la ocupación del sitio de unión. A diferencia de ChIP, DamID no requiere anticuerpos, pero utiliza la metilación de la adenina cerca de los sitios de unión de la proteína para amplificar selectivamente esas regiones, introducidas expresando cantidades diminutas de proteína de interés fusionada con la adenina metiltransferasa de ADN bacteriano .
Detección de SNP Identificación del polimorfismo de un solo nucleótido entre alelos dentro o entre poblaciones. Varias aplicaciones de microarrays hacen uso de la detección de SNP, incluida la genotipificación , el análisis forense , la medición de la predisposición a la enfermedad, la identificación de candidatos a fármacos, la evaluación de mutaciones de la línea germinal en individuos o mutaciones somáticas en cánceres, la evaluación de la pérdida de heterocigosidad o el análisis de ligamiento genético .
Detección de empalmes alternativos Un diseño de matriz de unión de exón utiliza sondas específicas para los sitios de empalme esperados o potenciales de los exones predichos para un gen. Tiene una densidad o cobertura intermedia a una matriz de expresión génica típica (con 1 a 3 sondas por gen) y una matriz de ordenamiento genómico (con cientos o miles de sondas por gen). Se utiliza para analizar la expresión de formas de corte y empalme alternativas de un gen. Las matrices de exones tienen un diseño diferente, empleando sondas diseñadas para detectar cada exón individual para genes conocidos o predichos, y pueden usarse para detectar diferentes isoformas de empalme.
Microarreglo de genes de fusión Una micromatriz de genes Fusion puede detectar transcripciones de fusión, por ejemplo , de muestras de cáncer. El principio detrás de esto se basa en los microarrays de empalme alternativos . La estrategia de diseño de oligonucleótidos permite mediciones combinadas de uniones de transcripciones quiméricas con mediciones de exones de socios de fusión individuales.
Matriz de mosaico Las matrices de ordenamiento genómico consisten en sondas superpuestas diseñadas para representar densamente una región genómica de interés, a veces tan grande como un cromosoma humano completo. El propósito es detectar empíricamente la expresión de transcripciones o formas empalmadas alternativamente que pueden no haberse conocido o predicho previamente.
Microarrays de ADN-B de doble hebra Pueden usarse microarreglos de ADN-B bicatenario para diestros para caracterizar fármacos y productos biológicos novedosos que pueden emplearse para unir regiones específicas de ADN bicatenario intacto e inmovilizado. Este enfoque se puede utilizar para inhibir la expresión génica. También permiten la caracterización de su estructura en diferentes condiciones ambientales.
Microarrays de ADN-Z de doble hebra Pueden usarse microarrays de Z-DNA de doble hebra para zurdos para identificar secuencias cortas de la estructura de Z-DNA alternativa localizada dentro de tramos más largos de genes de B-DNA para diestros (p. Ej., Mejora transcripcional, recombinación, edición de ARN). Los microarrays también permiten la caracterización de su estructura en diferentes condiciones ambientales.
Microarrays de ADN de múltiples cadenas (microarrays de ADN triplex y microarrays de ADN cuádruple) Pueden usarse microarrays de ADN y ARN de múltiples cadenas para identificar nuevos fármacos que se unen a estas secuencias de ácidos nucleicos de cadenas múltiples. Este enfoque se puede utilizar para descubrir nuevos fármacos y productos biológicos que tengan la capacidad de inhibir la expresión génica. Estos microarrays también permiten la caracterización de su estructura en diferentes condiciones ambientales.

Las matrices especializadas adaptadas a cultivos particulares se están volviendo cada vez más populares en aplicaciones de reproducción molecular . En el futuro, podrían usarse para seleccionar plántulas en las primeras etapas para reducir el número de plántulas innecesarias probadas en las operaciones de mejoramiento.

Fabricación

Los microarrays se pueden fabricar de diferentes formas, según el número de sondas que se examinen, los costes, los requisitos de personalización y el tipo de pregunta científica que se plantee. Las matrices de proveedores comerciales pueden tener tan solo 10 sondas o hasta 5 millones o más de sondas a escala micrométrica.

Arreglos sintetizados in situ o manchados

Un microarray de ADN está siendo impreso por un robot en la Universidad de Delaware.

Los microarrays se pueden fabricar usando una variedad de tecnologías, incluida la impresión con alfileres de punta fina en portaobjetos de vidrio, fotolitografía usando máscaras prefabricadas, fotolitografía usando dispositivos de microespejos dinámicos, impresión por chorro de tinta o electroquímica en arreglos de microelectrodos.

En los microarrays manchados , las sondas son oligonucleótidos , ADNc o pequeños fragmentos de productos de PCR que corresponden a ARNm . Las sondas se sintetizan antes de la deposición en la superficie de la matriz y luego se "manchan" sobre el vidrio. Un enfoque común utiliza una matriz de alfileres o agujas finos controlados por un brazo robótico que se sumerge en pozos que contienen sondas de ADN y luego deposita cada sonda en ubicaciones designadas en la superficie de la matriz. La "rejilla" de sondas resultante representa los perfiles de ácido nucleico de las sondas preparadas y está lista para recibir "dianas" de ADNc o ARNc complementarios derivados de muestras experimentales o clínicas. Esta técnica es utilizada por científicos de investigación de todo el mundo para producir microarreglos impresos "internos" a partir de sus propios laboratorios. Estas matrices se pueden personalizar fácilmente para cada experimento, porque los investigadores pueden elegir las sondas y las ubicaciones de impresión en las matrices, sintetizar las sondas en su propio laboratorio (o instalación colaboradora) y detectar las matrices. Luego pueden generar sus propias muestras etiquetadas para la hibridación, hibridar las muestras con la matriz y, finalmente, escanear las matrices con su propio equipo. Esto proporciona una micromatriz de costo relativamente bajo que puede personalizarse para cada estudio y evita los costos de comprar matrices comerciales a menudo más caras que pueden representar un gran número de genes que no son de interés para el investigador. Existen publicaciones que indican que las micromatrices manchadas internas pueden no proporcionar el mismo nivel de sensibilidad en comparación con las matrices de oligonucleótidos comerciales, posiblemente debido a los tamaños de lote pequeños y las eficiencias de impresión reducidas en comparación con los fabricantes industriales de matrices de oligonucleótidos.

En las micromatrices de oligonucleótidos , las sondas son secuencias cortas diseñadas para coincidir con partes de la secuencia de marcos de lectura abiertos conocidos o predichos . Aunque las sondas de oligonucleótidos se utilizan a menudo en micromatrices "manchadas", el término "matriz de oligonucleótidos" se refiere más a menudo a una técnica específica de fabricación. Las matrices de oligonucleótidos se producen imprimiendo secuencias de oligonucleótidos cortas diseñadas para representar un solo gen o familia de variantes de corte y empalme de genes sintetizando esta secuencia directamente en la superficie de la matriz en lugar de depositar secuencias intactas. Las secuencias pueden ser más largas (sondas de 60 unidades como el diseño de Agilent ) o más cortas (sondas de 25 unidades producidas por Affymetrix ) según el propósito deseado; las sondas más largas son más específicas para los genes diana individuales, las sondas más cortas pueden detectarse en una densidad más alta a través de la matriz y son más baratas de fabricar. Una técnica utilizada para producir matrices de oligonucleótidos incluye síntesis fotolitográfica (Affymetrix) sobre un sustrato de sílice donde se utilizan la luz y agentes enmascaradores sensibles a la luz para "construir" una secuencia de un nucleótido a la vez en toda la matriz. Cada sonda aplicable se "desenmascara" selectivamente antes de bañar la matriz en una solución de un solo nucleótido, luego tiene lugar una reacción de enmascaramiento y el siguiente conjunto de sondas se desenmascara en preparación para una exposición de nucleótidos diferente. Después de muchas repeticiones, las secuencias de cada sonda se construyen completamente. Más recientemente, Maskless Array Synthesis de NimbleGen Systems ha combinado la flexibilidad con una gran cantidad de sondas.

Detección de dos canales frente a un canal

Diagrama de un experimento típico de microarrays de dos colores

Las micromatrices de dos colores o las micromatrices de dos canales se hibridan típicamente con ADNc preparado a partir de dos muestras para comparar (por ejemplo, tejido enfermo frente a tejido sano) y que se marcan con dos fluoróforos diferentes . Los tintes fluorescentes comúnmente utilizados para el etiquetado de ADNc incluyen Cy 3, que tiene una longitud de onda de emisión de fluorescencia de 570 nm (correspondiente a la parte verde del espectro de luz), y Cy 5 con una longitud de onda de emisión de fluorescencia de 670 nm (correspondiente a la parte roja de el espectro de luz). Las dos muestras de ADNc marcadas con Cy se mezclan y se hibridan en una única micromatriz que luego se escanea en un escáner de micromatrices para visualizar la fluorescencia de los dos fluoróforos después de la excitación con un rayo láser de una longitud de onda definida. A continuación, pueden usarse intensidades relativas de cada fluoróforo en un análisis basado en proporciones para identificar genes regulados por incremento y regulados por disminución.

Las micromatrices de oligonucleótidos a menudo llevan sondas de control diseñadas para hibridar con picos de ARN . El grado de hibridación entre las puntas y las sondas de control se usa para normalizar las medidas de hibridación de las sondas diana. Aunque los niveles absolutos de expresión génica se pueden determinar en la matriz de dos colores en raras ocasiones, las diferencias relativas en la expresión entre diferentes puntos dentro de una muestra y entre muestras es el método preferido de análisis de datos para el sistema de dos colores. Entre los ejemplos de proveedores para dichos microarrays se incluyen Agilent con su plataforma Dual-Mode, Eppendorf con su plataforma DualChip para etiquetado colorimétrico Silverquant y TeleChem International con Arrayit .

En micromatrices de un solo canal o micromatrices de un color , las matrices proporcionan datos de intensidad para cada sonda o conjunto de sondas que indican un nivel relativo de hibridación con el objetivo marcado. Sin embargo, no indican realmente los niveles de abundancia de un gen, sino una abundancia relativa en comparación con otras muestras o condiciones cuando se procesan en el mismo experimento. Cada molécula de ARN encuentra un protocolo y un sesgo específico del lote durante las fases de amplificación, etiquetado e hibridación del experimento, lo que hace que las comparaciones entre genes para el mismo microarray no sean informativas. La comparación de dos condiciones para el mismo gen requiere dos hibridaciones separadas de un solo colorante. Varios sistemas populares de un solo canal son Affymetrix "Gene Chip", Illumina "Bead Chip", arreglos monocanal Agilent, arreglos Applied Microarrays "CodeLink" y Eppendorf "DualChip & Silverquant". Una fortaleza del sistema de un solo tinte radica en el hecho de que una muestra aberrante no puede afectar los datos brutos derivados de otras muestras, porque cada chip de matriz está expuesto a una sola muestra (a diferencia de un sistema de dos colores en el que una sola baja -la muestra de calidad puede afectar drásticamente la precisión general de los datos, incluso si la otra muestra fue de alta calidad). Otro beneficio es que los datos se comparan más fácilmente con las matrices de diferentes experimentos siempre que se hayan tenido en cuenta los efectos por lotes.

Un microarray de canal puede ser la única opción en algunas situaciones. Suponga que es necesario comparar las muestras: entonces, el número de experimentos necesarios con las matrices de dos canales se vuelve rápidamente inviable, a menos que se utilice una muestra como referencia.

número de muestras micromatriz de un canal microarreglo de dos canales

microarreglo de dos canales (con referencia)

1 1 1 1
2 2 1 1
3 3 3 2
4 4 6 3

Un protocolo típico

Ejemplos de niveles de aplicación de microarrays. Dentro de los organismos, los genes se transcriben y empalman para producir transcripciones maduras de ARNm (rojo). El mRNA se extrae del organismo y la transcriptasa inversa se utiliza para copiar el mRNA en ds-cDNA estable (azul). En los microarrays, el ds-cDNA está fragmentado y marcado con fluorescencia (naranja). Los fragmentos marcados se unen a una matriz ordenada de oligonucleótidos complementarios y la medición de la intensidad fluorescente a través de la matriz indica la abundancia de un conjunto predeterminado de secuencias. Estas secuencias se eligen típicamente específicamente para informar sobre genes de interés dentro del genoma del organismo.

Este es un ejemplo de un experimento de microarrays de ADN que incluye detalles de un caso particular para explicar mejor los experimentos de microarrays de ADN, al tiempo que enumera modificaciones para ARN u otros experimentos alternativos.

  1. Las dos muestras que se van a comparar (comparación por pares) se cultivan / adquieren. En este ejemplo, muestra tratada ( caso ) y muestra no tratada ( control ).
  2. El ácido nucleico de interés está purificado: puede ser ARN para el perfil de expresión , ADN para hibridación comparativa o ADN / ARN unido a una proteína particular que se inmunoprecipita ( ChIP-on-chip ) para estudios epigenéticos o de regulación. En este ejemplo, el ARN total se aísla (tanto nuclear como citoplásmico ) mediante extracción con tiocianato de guanidinio, fenol y cloroformo (por ejemplo, Trizol ), que aísla la mayor parte del ARN (mientras que los métodos de columna tienen un límite de 200 nucleótidos) y, si se hace correctamente, tiene una mayor pureza.
  3. El ARN purificado se analiza en cuanto a calidad (por electroforesis capilar ) y cantidad (por ejemplo, usando un espectrómetro NanoDrop o NanoPhotometer ). Si el material es de calidad aceptable y hay una cantidad suficiente (por ejemplo,> 1 μg , aunque la cantidad requerida varía según la plataforma de microarrays), el experimento puede continuar.
  4. El producto marcado se genera mediante transcripción inversa y le sigue una amplificación por PCR opcional . El ARN se transcribe de forma inversa con cebadores polyT (que amplifican solo el ARNm ) o cebadores aleatorios (que amplifican todo el ARN, la mayoría del cual es ARNr ). Los microarrays de miARN ligan un oligonucleótido al ARN pequeño purificado (aislado con un fraccionador), que luego se transcribe inversamente y se amplifica.
    • La etiqueta se agrega durante el paso de transcripción inversa o después de la amplificación si se realiza. El etiquetado de sentido depende de la micromatriz; por ejemplo, si el marcador se agrega con la mezcla de RT, el ADNc es antisentido y la sonda de micromatriz tiene sentido, excepto en el caso de controles negativos.
    • La etiqueta es típicamente fluorescente ; sólo una máquina utiliza radiomarcadores .
    • El etiquetado puede ser directo (no utilizado) o indirecto (requiere una etapa de acoplamiento). Para matrices de dos canales, la etapa de acoplamiento ocurre antes de la hibridación, usando
    trifosfato de aminoalil uridina (aminoalil-UTP o aaUTP) y tintes NHS amino reactivos (tales como tintes de cianina ); para las matrices de un solo canal, la etapa de acoplamiento ocurre después de la hibridación, usando biotina y estreptavidina marcada . Los nucleótidos modificados (generalmente en una proporción de 1 aaUTP: 4 TTP ( trifosfato de timidina )) se agregan enzimáticamente en una proporción baja a los nucleótidos normales, lo que típicamente da como resultado 1 cada 60 bases. A continuación, el ADNa se purifica con una columna (utilizando una solución tampón de fosfato, ya que Tris contiene grupos amina). El grupo aminoalilo es un grupo amina en un enlazador largo unido a la nucleobase, que reacciona con un colorante reactivo.
    • Se puede realizar una forma de réplica conocida como cambio de tinte para controlar los artefactos del tinte en experimentos de dos canales; para un cambio de tinte, se usa una segunda diapositiva, con las etiquetas intercambiadas (la muestra que se etiquetó con Cy3 en la primera diapositiva está etiquetada con Cy5, y viceversa). En este ejemplo, aminoalil -UTP está presente en la mezcla de transcripción inversa.
  5. Las muestras marcadas se mezclan después con una propiedad de hibridación solución que puede consistir en SDS , SSC , sulfato de dextrano , un agente de bloqueo (tal como Cot-1 DNA , DNA de esperma de salmón, ADN de timo de ternera, poliA , o poliT), solución de Denhardt , o formamina .
  6. La mezcla se desnaturaliza y se agrega a los poros del microarray. Los orificios se sellan y la micromatriz se hibrida, ya sea en un horno hyb, donde la micromatriz se mezcla por rotación, o en un mezclador, donde la micromatriz se mezcla alternando la presión en los poros.
  7. Después de una hibridación durante la noche, se elimina por lavado toda unión inespecífica (SDS y SSC).
  8. El microarray es secado y escaneado por una máquina que usa un láser para excitar el tinte y mide los niveles de emisión con un detector.
  9. La imagen se cuadricula con una plantilla y se cuantifican las intensidades de cada característica (compuesta por varios píxeles).
  10. Los datos brutos están normalizados; el método de normalización más simple es restar la intensidad de fondo y la escala para que las intensidades totales de las características de los dos canales sean iguales, o usar la intensidad de un gen de referencia para calcular el valor t para todas las intensidades. Los métodos más sofisticados incluyen la relación z , regresión de loess y lowess y RMA (análisis robusto de múltiples chips) para chips Affymetrix (chip de silicio de un solo canal, oligonucleótidos cortos sintetizados in situ ).

Microarrays y bioinformática

Los valores de expresión génica de los experimentos de microarrays se pueden representar como mapas de calor para visualizar el resultado del análisis de datos.

El advenimiento de experimentos de microarrays de bajo costo creó varios desafíos bioinformáticos específicos: los múltiples niveles de replicación en el diseño experimental ( diseño experimental ); el número de plataformas y grupos independientes y formato de datos ( estandarización ); el tratamiento estadístico de los datos ( análisis de datos ); mapear cada sonda con la transcripción de ARNm que mide ( anotación ); el gran volumen de datos y la capacidad de compartirlos ( almacenamiento de datos ).

Diseño experimental

Debido a la complejidad biológica de la expresión génica, las consideraciones de diseño experimental que se discuten en el artículo de perfil de expresión son de importancia crítica si se van a extraer conclusiones estadísticas y biológicamente válidas de los datos.

Hay tres elementos principales a considerar al diseñar un experimento de microarrays. Primero, la replicación de las muestras biológicas es esencial para sacar conclusiones del experimento. En segundo lugar, las réplicas técnicas (dos muestras de ARN obtenidas de cada unidad experimental) ayudan a garantizar la precisión y permiten probar las diferencias dentro de los grupos de tratamiento. Las réplicas biológicas incluyen extracciones independientes de ARN y las réplicas técnicas pueden ser dos alícuotas de la misma extracción. En tercer lugar, las manchas de cada clon de cDNA u oligonucleótido están presentes como réplicas (al menos duplicadas) en el portaobjetos de microarrays, para proporcionar una medida de precisión técnica en cada hibridación. Es fundamental que se discuta la información sobre la preparación y el manejo de la muestra, a fin de ayudar a identificar las unidades independientes en el experimento y evitar estimaciones infladas de importancia estadística .

Estandarización

Los datos de microarrays son difíciles de intercambiar debido a la falta de estandarización en la fabricación de plataformas, protocolos de ensayo y métodos de análisis. Esto presenta un problema de interoperabilidad en bioinformática . Varios de base de código abierto proyectos están tratando de facilitar el intercambio y el análisis de los datos producidos con chips no propietarias:

Por ejemplo, la lista de verificación "Información mínima sobre un experimento de microarrays" ( MIAME ) ayuda a definir el nivel de detalle que debería existir y está siendo adoptada por muchas revistas como requisito para la presentación de artículos que incorporan resultados de microarrays. Pero MIAME no describe el formato de la información, por lo que si bien muchos formatos pueden admitir los requisitos de MIAME, a partir de 2007 ningún formato permite la verificación del cumplimiento semántico completo. El "Proyecto de control de calidad de MicroArray (MAQC)" está siendo llevado a cabo por la Administración de Drogas y Alimentos de los Estados Unidos (FDA) para desarrollar estándares y métricas de control de calidad que eventualmente permitirán el uso de datos de MicroArray en el descubrimiento de medicamentos, la práctica clínica y la toma de decisiones regulatorias. . La Sociedad MGED ha desarrollado estándares para la representación de resultados de experimentos de expresión génica y anotaciones relevantes.

Análisis de los datos

Los conjuntos de datos de microarrays suelen ser muy grandes y la precisión analítica está influenciada por una serie de variables. Los desafíos estadísticos incluyen tener en cuenta los efectos del ruido de fondo y la normalización adecuada de los datos. Los métodos de normalización pueden ser adecuados para plataformas específicas y, en el caso de plataformas comerciales, el análisis puede ser propietario. Los algoritmos que afectan el análisis estadístico incluyen:

  • Análisis de imágenes: cuadrícula, reconocimiento de puntos de la imagen escaneada (algoritmo de segmentación), eliminación o marcado de características de baja calidad y baja intensidad (llamado marcado ).
  • Procesamiento de datos: sustracción de fondo (basado en el fondo global o local), determinación de intensidades puntuales y relaciones de intensidad, visualización de datos (por ejemplo, ver gráfico MA ) y transformación logarítmica de relaciones, normalización global o local de relaciones de intensidad y segmentación en diferentes regiones de número de copia utilizando algoritmos de detección de pasos .
  • Análisis de descubrimiento de clases: este enfoque analítico, a veces llamado clasificación no supervisada o descubrimiento de conocimiento, intenta identificar si los microarrays (objetos, pacientes, ratones, etc.) o los genes se agrupan en grupos. La identificación de grupos de objetos que existen de forma natural (microarrays o genes) que se agrupan puede permitir el descubrimiento de nuevos grupos que de otra manera no se sabía que existieran. Durante el análisis de descubrimiento de conocimientos, se pueden emplear varias técnicas de clasificación no supervisadas con datos de microarrays de ADN para identificar nuevos grupos (clases) de arreglos. Este tipo de enfoque no se basa en hipótesis, sino que se basa en el reconocimiento de patrones iterativos o en métodos de aprendizaje estadístico para encontrar un número "óptimo" de agrupaciones en los datos. Entre los ejemplos de métodos de análisis no supervisados ​​se incluyen mapas autoorganizados, gas neuronal, análisis de conglomerados de k-medias, análisis de conglomerados jerárquicos, conglomerados basados ​​en el procesamiento de señales genómicas y análisis de conglomerados basados ​​en modelos. Para algunos de estos métodos, el usuario también tiene que definir una medida de distancia entre pares de objetos. Aunque generalmente se emplea el coeficiente de correlación de Pearson, en la literatura se han propuesto y evaluado varias otras medidas. Los datos de entrada utilizados en los análisis de descubrimiento de clases se basan comúnmente en listas de genes que tienen un alto nivel de información (bajo nivel de ruido) basadas en valores bajos del coeficiente de variación o valores altos de entropía de Shannon, etc. La determinación del número más probable u óptimo de Los conglomerados obtenidos de un análisis no supervisado se denominan validez de conglomerado. Algunas métricas de uso común para la validez de los conglomerados son el índice de silueta, el índice de Davies-Bouldin, el índice de Dunn o la estadística de Hubert .
  • Análisis de predicción de clases: este enfoque, denominado clasificación supervisada, establece la base para desarrollar un modelo predictivo en el que se pueden introducir futuros objetos de prueba desconocidos para predecir la pertenencia de clase más probable de los objetos de prueba. El análisis supervisado para la predicción de clases implica el uso de técnicas como regresión lineal, vecino más cercano k, cuantificación de vectores de aprendizaje, análisis de árboles de decisión, bosques aleatorios, Bayes ingenuo, regresión logística, regresión del núcleo, redes neuronales artificiales, máquinas de vectores de soporte, mezcla de expertos y gas neuronal supervisado. Además, se emplean varios métodos metaheurísticos, como algoritmos genéticos , autoadaptación de matrices de covarianza, optimización de enjambres de partículas y optimización de colonias de hormigas . Los datos de entrada para la predicción de clases se basan generalmente en listas filtradas de genes que predicen la clase, determinadas mediante pruebas de hipótesis clásicas (siguiente sección), índice de diversidad de Gini o ganancia de información (entropía).
  • Análisis estadístico basado en hipótesis: la identificación de cambios estadísticamente significativos en la expresión génica se suele identificar mediante la prueba t , ANOVA , método bayesiano , métodos de prueba de Mann-Whitney adaptados a conjuntos de datos de microarrays, que tienen en cuenta múltiples comparaciones o análisis de conglomerados . Estos métodos evalúan el poder estadístico en función de la variación presente en los datos y el número de repeticiones experimentales, y pueden ayudar a minimizar los errores de tipo I y tipo II en los análisis.
  • Reducción dimensional: los analistas a menudo reducen el número de dimensiones (genes) antes del análisis de datos. Esto puede implicar enfoques lineales como el análisis de componentes principales (PCA) o el aprendizaje múltiple no lineal (aprendizaje métrico a distancia) utilizando PCA del núcleo, mapas de difusión, mapas propios laplacianos, incrustación lineal local, proyecciones de preservación local y mapeo de Sammon.
  • Métodos basados ​​en redes: métodos estadísticos que tienen en cuenta la estructura subyacente de las redes de genes, que representan interacciones asociativas o causales o dependencias entre productos génicos. El análisis de redes de coexpresión de genes ponderados se utiliza ampliamente para identificar módulos de coexpresión y genes concentradores intramodulares. Los módulos pueden corresponder a tipos de células o vías. Los concentradores intramodulares altamente conectados representan mejor sus respectivos módulos.

Los datos de microarrays pueden requerir un procesamiento adicional destinado a reducir la dimensionalidad de los datos para ayudar a la comprensión y un análisis más enfocado. Otros métodos permiten el análisis de datos que consisten en un número reducido de réplicas biológicas o técnicas ; por ejemplo, la prueba de error agrupado local (LPE) agrupa las desviaciones estándar de genes con niveles de expresión similares en un esfuerzo por compensar la replicación insuficiente.

Anotación

La relación entre una sonda y el ARNm que se espera que detecte no es trivial. Algunos ARNm pueden realizar una hibridación cruzada de sondas en la matriz que se supone que detectan otro ARNm. Además, los ARNm pueden experimentar un sesgo de amplificación específico de secuencia o molécula. En tercer lugar, las sondas que están diseñadas para detectar el ARNm de un gen particular pueden depender de información EST genómica que está asociada incorrectamente con ese gen.

Almacenamiento de datos

Se descubrió que los datos de microarrays son más útiles en comparación con otros conjuntos de datos similares. El gran volumen de datos, los formatos especializados (como MIAME ) y los esfuerzos de conservación asociados con los conjuntos de datos requieren bases de datos especializadas para almacenar los datos. Se han creado una serie de soluciones de almacenamiento de datos de código abierto, como InterMine y BioMart , con el propósito específico de integrar diversos conjuntos de datos biológicos y también respaldar el análisis.

Tecnologías alternativas

Los avances en la secuenciación masivamente paralela han llevado al desarrollo de la tecnología RNA-Seq , que permite un enfoque de escopeta de transcriptoma completo para caracterizar y cuantificar la expresión génica. A diferencia de los microarrays, que necesitan un genoma de referencia y un transcriptoma para estar disponibles antes de que se pueda diseñar el microarray en sí, RNA-Seq también se puede usar para nuevos organismos modelo cuyo genoma aún no se ha secuenciado.

Glosario

  • Una matriz o diapositiva es una colección de características dispuestas espacialmente en una cuadrícula bidimensional, dispuestas en columnas y filas.
  • Bloque o submatriz : un grupo de puntos, típicamente hechos en una ronda de impresión; varios subarreglos / bloques forman un arreglo.
  • Caso / control : un paradigma de diseño experimental especialmente adecuado para el sistema de matriz de dos colores, en el que una condición elegida como control (como tejido o estado sano) se compara con una condición alterada (como un tejido o estado enfermo).
  • Canal : lasalida de fluorescencia registrada en el escáner para un fluoróforo individuale incluso puede ser ultravioleta.
  • Cambio de tinte o cambio de tinte o inversión de flúor : etiquetado recíproco de los objetivos de ADN con los dos tintes para tener en cuenta el sesgo del tinte en los experimentos.
  • Escáner : instrumento que se utiliza para detectar y cuantificar la intensidad de la fluorescencia de las manchas en un portaobjetos de microarrays, excitando selectivamente los fluoróforos con un láser y midiendo la fluorescencia con un sistema fotomultiplicador de filtro (óptica) .
  • Mancha o característica : un área pequeña en un portaobjetos de matriz que contiene picomoles de muestras de ADN específicas.
  • Para conocer otros términos relevantes, consulte:

Ver también

Referencias

enlaces externos