Alineación de secuencia - Sequence alignment

En bioinformática , una alineación de secuencias es una forma de ordenar las secuencias de ADN , ARN o proteínas para identificar regiones de similitud que pueden ser consecuencia de relaciones funcionales, estructurales o evolutivas entre las secuencias. Las secuencias alineadas de residuos de nucleótidos o aminoácidos se representan típicamente como filas dentro de una matriz . Se insertan espacios entre los residuos para que los caracteres idénticos o similares se alineen en columnas sucesivas. Las alineaciones de secuencia también se utilizan para secuencias no biológicas, como calcular el costo de la distancia entre cadenas en un lenguaje natural o en datos financieros.

Una secuencia de alineación, producida por ClustalO , de proteínas histonas de mamíferos .
Las secuencias son los aminoácidos de los residuos 120-180 de las proteínas. Los residuos que se conservan en todas las secuencias se resaltan en gris. Debajo de las secuencias de proteínas hay una clave que indica la secuencia conservada (*), mutaciones conservadoras (:), mutaciones semiconservadoras (.) Y mutaciones no conservadoras ().

Interpretación

Si dos secuencias en una alineación comparten un ancestro común, los desajustes se pueden interpretar como mutaciones puntuales y los huecos como indeles (es decir, mutaciones de inserción o deleción) introducidos en uno o ambos linajes en el tiempo desde que divergieron entre sí. En las alineaciones de secuencias de proteínas, el grado de similitud entre los aminoácidos que ocupan una posición particular en la secuencia se puede interpretar como una medida aproximada de cuán conservada está una región particular o un motivo de secuencia entre los linajes. La ausencia de sustituciones, o la presencia de sólo sustituciones muy conservadoras (es decir, la sustitución de aminoácidos cuyas cadenas laterales tienen propiedades bioquímicas similares) en una región particular de la secuencia, sugiere que esta región tiene importancia estructural o funcional. Aunque las bases de nucleótidos de ADN y ARN son más similares entre sí que los aminoácidos, la conservación de los pares de bases puede indicar un papel funcional o estructural similar.

Métodos de alineación

Se pueden alinear a mano secuencias muy cortas o muy similares. Sin embargo, los problemas más interesantes requieren la alineación de secuencias largas, muy variables o extremadamente numerosas que no pueden alinearse únicamente con el esfuerzo humano. En cambio, el conocimiento humano se aplica en la construcción de algoritmos para producir alineaciones de secuencias de alta calidad y, ocasionalmente, en el ajuste de los resultados finales para reflejar patrones que son difíciles de representar algorítmicamente (especialmente en el caso de secuencias de nucleótidos). Los enfoques computacionales para la alineación de secuencias generalmente se dividen en dos categorías: alineaciones globales y alineaciones locales . El cálculo de una alineación global es una forma de optimización global que "fuerza" la alineación a abarcar toda la longitud de todas las secuencias de consulta. Por el contrario, los alineamientos locales identifican regiones de similitud dentro de secuencias largas que a menudo son ampliamente divergentes en general. Las alineaciones locales suelen ser preferibles, pero pueden ser más difíciles de calcular debido al desafío adicional de identificar las regiones de similitud. Se han aplicado una variedad de algoritmos computacionales al problema de alineación de secuencias. Estos incluyen métodos lentos pero formalmente correctos como la programación dinámica . Estos también incluyen algoritmos heurísticos eficientes o métodos probabilísticos diseñados para la búsqueda de bases de datos a gran escala, que no garantizan encontrar las mejores coincidencias.

Representaciones

Las alineaciones se representan comúnmente tanto gráficamente como en formato de texto. En casi todas las representaciones de alineación de secuencias, las secuencias se escriben en filas dispuestas de modo que los residuos alineados aparezcan en columnas sucesivas. En los formatos de texto, las columnas alineadas que contienen caracteres idénticos o similares se indican con un sistema de símbolos de conservación. Como en la imagen de arriba, se usa un asterisco o un símbolo de barra vertical para mostrar la identidad entre dos columnas; otros símbolos menos comunes incluyen dos puntos para sustituciones conservadoras y un punto para sustituciones semiconservativas. Muchos programas de visualización de secuencias también utilizan el color para mostrar información sobre las propiedades de los elementos de secuencia individuales; en las secuencias de ADN y ARN, esto equivale a asignar a cada nucleótido su propio color. En alineaciones de proteínas, como la de la imagen de arriba, el color se usa a menudo para indicar las propiedades de los aminoácidos para ayudar a juzgar la conservación de una sustitución de aminoácidos determinada. Para múltiples secuencias, la última fila de cada columna suele ser la secuencia de consenso determinada por la alineación; la secuencia de consenso también se suele representar en formato gráfico con un logotipo de secuencia en el que el tamaño de cada letra de nucleótido o aminoácido corresponde a su grado de conservación.

Las alineaciones de secuencia se pueden almacenar en una amplia variedad de formatos de archivo basados ​​en texto, muchos de los cuales se desarrollaron originalmente junto con un programa o implementación de alineación específico. La mayoría de las herramientas basadas en la web permiten un número limitado de formatos de entrada y salida, como el formato FASTA y el formato GenBank , y la salida no se puede editar fácilmente. Se encuentran disponibles varios programas de conversión que proporcionan interfaces gráficas y / o de línea de comandos, como READSEQ y EMBOSS . También hay varios paquetes de programación que proporcionan esta funcionalidad de conversión, como BioPython , BioRuby y BioPerl . Los archivos SAM / BAM usan el formato de cadena CIGAR (Informe de alineación con brechas idiosincrásicas compactas) para representar una alineación de una secuencia con una referencia mediante la codificación de una secuencia de eventos (por ejemplo, coincidencia / desajuste, inserciones, eliminaciones).

Formato CIGAR

Árbitro. : GTCGTAGAATA
Lectura : CACGTAG — TA
CIGAR: 2S5M2D2M donde:
2S = 2 recortes suaves (pueden ser discrepancias o una lectura más larga que la secuencia coincidente)
5M = 5 coincidencias o discrepancias
2D = 2 eliminaciones
2M = 2 coincidencias o discrepancias

El formato original de CIGAR del programa de alineación exonerada no distinguía entre discrepancias o coincidencias con el carácter M.

El documento de especificaciones de SAMv1 define códigos CIGAR más nuevos. En la mayoría de los casos, se prefiere utilizar los caracteres '=' y 'X' para indicar coincidencias o discrepancias en lugar del carácter 'M' anterior, que es ambiguo.

Código CIGAR Entero BAM Descripción Consume consulta Consume referencia
METRO 0 coincidencia de alineación (puede ser una coincidencia de secuencia o una falta de coincidencia)
I 1 inserción a la referencia no
D 2 eliminación de la referencia no
norte 3 región omitida de la referencia no
S 4 recorte suave (secuencias recortadas presentes en SEQ) no
H 5 recorte duro (secuencias recortadas NO presentes en SEQ) no no
PAG 6 padding (eliminación silenciosa de la referencia acolchada) no no
= 7 coincidencia de secuencia
X 8 desajuste de secuencia
  • "Consume consulta" y "consume referencia" indican si la operación CIGAR hace que la alineación avance a lo largo de la secuencia de consulta y la secuencia de referencia, respectivamente.
  • H solo puede estar presente como primera y / o última operación.
  • S solo puede tener operaciones H entre ellos y los extremos de la cadena CIGAR.
  • Para la alineación de ARNm a genoma, una operación N representa un intrón. Para otros tipos de alineaciones, la interpretación de N no está definida.
  • La suma de las longitudes de las operaciones M / I / S / = / X será igual a la longitud de SEQ

Alineamientos globales y locales

Las alineaciones globales, que intentan alinear cada residuo en cada secuencia, son más útiles cuando las secuencias del conjunto de consultas son similares y tienen aproximadamente el mismo tamaño. (Esto no significa que las alineaciones globales no puedan comenzar y / o terminar en huecos). Una técnica de alineación global general es el algoritmo Needleman-Wunsch , que se basa en la programación dinámica. Los alineamientos locales son más útiles para secuencias diferentes que se sospecha que contienen regiones de similitud o motivos de secuencia similares dentro de su contexto de secuencia más amplio. El algoritmo de Smith-Waterman es un método de alineación local general basado en el mismo esquema de programación dinámica pero con opciones adicionales para comenzar y terminar en cualquier lugar.

Los métodos híbridos, conocidos como métodos semi-globales o "glocales" (abreviatura de glo bal-lo cal ), buscan la mejor alineación parcial posible de las dos secuencias (en otras palabras, una combinación de uno o ambos inicios y uno o ambos se indica que los extremos están alineados). Esto puede ser especialmente útil cuando la parte descendente de una secuencia se solapa con la parte ascendente de la otra secuencia. En este caso, ni la alineación global ni local es completamente apropiada: una alineación global intentaría forzar la alineación para extenderse más allá de la región de superposición, mientras que una alineación local podría no cubrir completamente la región de superposición. Otro caso en el que la alineación semiglobal es útil es cuando una secuencia es corta (por ejemplo, una secuencia genética) y la otra es muy larga (por ejemplo, una secuencia cromosómica). En ese caso, la secuencia corta debe estar alineada globalmente (completamente) pero solo se desea una alineación local (parcial) para la secuencia larga.

La rápida expansión de los datos genéticos desafía la velocidad de los algoritmos actuales de alineación de secuencias de ADN. Las necesidades esenciales de un método eficiente y preciso para el descubrimiento de variantes de ADN exigen enfoques innovadores para el procesamiento paralelo en tiempo real. Se han sugerido enfoques de computación óptica como alternativas prometedoras a las implementaciones eléctricas actuales, pero su aplicabilidad aún no se ha probado [1] .

Alineación por pares

Los métodos de alineación de secuencias por pares se utilizan para encontrar las alineaciones por partes (locales o globales) que mejor coincidan de dos secuencias de consulta. Las alineaciones por pares solo se pueden usar entre dos secuencias a la vez, pero son eficientes para calcular y a menudo se usan para métodos que no requieren una precisión extrema (como buscar en una base de datos secuencias con alta similitud con una consulta). Los tres métodos principales para producir alineaciones por pares son los métodos de matriz de puntos, la programación dinámica y los métodos de palabras; sin embargo, las técnicas de alineación de múltiples secuencias también pueden alinear pares de secuencias. Aunque cada método tiene sus fortalezas y debilidades individuales, los tres métodos por pares tienen dificultades con secuencias altamente repetitivas de bajo contenido de información , especialmente cuando el número de repeticiones difiere en las dos secuencias a alinear.

Coincidencia única máxima

Una forma de cuantificar la utilidad de una alineación por pares dada es la " coincidencia única máxima " (MUM), o la subsecuencia más larga que se produce en ambas secuencias de consulta. Las secuencias MUM más largas suelen reflejar una relación más estrecha. en el alineamiento de secuencia múltiple de genomas en biología computacional . La identificación de MUM y otros anclajes potenciales es el primer paso en sistemas de alineación más grandes como MUMmer . Los anclajes son las áreas entre dos genomas donde son muy similares. Para entender qué es MUM, podemos desglosar cada palabra en el acrónimo. La coincidencia implica que la subcadena se produce en ambas secuencias a alinear. Único significa que la subcadena ocurre solo una vez en cada secuencia. Finalmente, maximal establece que la subcadena no es parte de otra cadena más grande que cumpla con los dos requisitos anteriores. La idea detrás de esto es que las secuencias largas que coinciden exactamente y ocurren solo una vez en cada genoma son casi con certeza parte de la alineación global.

Más precisamente:

"Dados dos genomas A y B, la subcadena de coincidencia única máxima (MUM) es una subcadena común de A y B de longitud más larga que una longitud mínima especificada d (por defecto d = 20) tal que

  • es máxima, es decir, no puede extenderse en ningún extremo sin incurrir en un desajuste; y
  • es único en ambas secuencias "

Métodos de matriz de puntos

Autocomparación de una parte del genoma de una cepa de ratón. El diagrama de puntos muestra un mosaico de líneas, mostrando segmentos duplicados de ADN.
Un ADN dot parcela de un humano dedo de zinc factor de transcripción (GenBank ID NM_002383), mostrando regional auto-similitud . La diagonal principal representa la alineación de la secuencia consigo misma; las líneas de la diagonal principal representan patrones similares o repetitivos dentro de la secuencia. Este es un ejemplo típico de gráfico de recurrencia .

El enfoque de matriz de puntos, que implícitamente produce una familia de alineaciones para regiones de secuencia individuales, es cualitativo y conceptualmente simple, aunque requiere mucho tiempo para analizarlo a gran escala. En ausencia de ruido, puede ser fácil identificar visualmente ciertas características de secuencia, como inserciones, eliminaciones, repeticiones o repeticiones invertidas, a partir de un gráfico de matriz de puntos. Para construir una gráfica de matriz de puntos , las dos secuencias se escriben a lo largo de la fila superior y la columna más a la izquierda de una matriz bidimensional y se coloca un punto en cualquier punto donde coincidan los caracteres de las columnas correspondientes; esta es una gráfica de recurrencia típica . Algunas implementaciones varían el tamaño o la intensidad del punto según el grado de similitud de los dos caracteres, para dar cabida a sustituciones conservadoras. Los diagramas de puntos de secuencias muy estrechamente relacionadas aparecerán como una sola línea a lo largo de la diagonal principal de la matriz .

Los problemas con los gráficos de puntos como técnica de visualización de información incluyen: ruido, falta de claridad, falta de intuición, dificultad para extraer estadísticas de resumen de partidos y posiciones de partidos en las dos secuencias. También hay mucho espacio desperdiciado donde los datos de coincidencia están intrínsecamente duplicados en la diagonal y la mayor parte del área real del gráfico está ocupada por espacio vacío o ruido y, finalmente, los gráficos de puntos se limitan a dos secuencias. Ninguna de estas limitaciones se aplica a los diagramas de alineación Miropeats, pero tienen sus propios defectos particulares.

Los gráficos de puntos también se pueden utilizar para evaluar la repetitividad en una sola secuencia. Se puede trazar una secuencia contra sí misma y las regiones que comparten similitudes significativas aparecerán como líneas fuera de la diagonal principal. Este efecto puede ocurrir cuando una proteína consta de múltiples dominios estructurales similares .

Programación dinámica

La técnica de programación dinámica se puede aplicar para producir alineaciones globales mediante el algoritmo Needleman-Wunsch y alineaciones locales mediante el algoritmo Smith-Waterman . En el uso típico, las alineaciones de proteínas utilizan una matriz de sustitución para asignar puntuaciones a las coincidencias o faltas de coincidencia de aminoácidos , y una penalización por hueco por emparejar un aminoácido en una secuencia con un hueco en la otra. Las alineaciones de ADN y ARN pueden utilizar una matriz de puntuación, pero en la práctica a menudo simplemente se asigna una puntuación de coincidencia positiva, una puntuación de discordancia negativa y una penalización por hueco negativa. (En la programación dinámica estándar, la puntuación de cada posición de aminoácido es independiente de la identidad de sus vecinos y, por lo tanto , los efectos de apilamiento de bases no se tienen en cuenta. Sin embargo, es posible tener en cuenta estos efectos modificando el algoritmo). La extensión común a los costos de brecha lineal estándar es el uso de dos penalizaciones de brecha diferentes para abrir una brecha y para extender una brecha. Normalmente, el primero es mucho más grande que el segundo, por ejemplo, -10 para el espacio abierto y -2 para la extensión del espacio. Por lo tanto, el número de huecos en una alineación generalmente se reduce y los residuos y huecos se mantienen juntos, lo que típicamente tiene más sentido biológico. El algoritmo de Gotoh implementa costos de brecha afines mediante el uso de tres matrices.

La programación dinámica puede ser útil para alinear secuencias de nucleótidos con proteínas, una tarea complicada por la necesidad de tener en cuenta las mutaciones de cambio de marco (generalmente inserciones o deleciones). El método de búsqueda de marco produce una serie de alineaciones por pares globales o locales entre una secuencia de nucleótidos de consulta y un conjunto de búsqueda de secuencias de proteínas, o viceversa. Su capacidad para evaluar cambios de marco compensados ​​por un número arbitrario de nucleótidos hace que el método sea útil para secuencias que contienen un gran número de indeles, que pueden ser muy difíciles de alinear con métodos heurísticos más eficientes. En la práctica, el método requiere grandes cantidades de potencia informática o un sistema cuya arquitectura esté especializada para la programación dinámica. Las suites BLAST y EMBOSS proporcionan herramientas básicas para crear alineaciones traducidas (aunque algunos de estos enfoques aprovechan los efectos secundarios de las capacidades de búsqueda de secuencias de las herramientas). Hay métodos más generales disponibles en software de código abierto como GeneWise .

Se garantiza que el método de programación dinámica encontrará una alineación óptima dada una función de puntuación particular; sin embargo, identificar una buena función de puntuación es a menudo una cuestión empírica más que teórica. Aunque la programación dinámica es extensible a más de dos secuencias, es prohibitivamente lenta para un gran número de secuencias o secuencias extremadamente largas.

Métodos de Word

Los métodos de Word, también conocidos como métodos k -tuple, son métodos heurísticos que no están garantizados para encontrar una solución de alineación óptima, pero son significativamente más eficientes que la programación dinámica. Estos métodos son especialmente útiles en búsquedas de bases de datos a gran escala en las que se entiende que una gran proporción de las secuencias candidatas no coincidirán esencialmente con la secuencia de la consulta. Los métodos de Word son más conocidos por su implementación en las herramientas de búsqueda de bases de datos FASTA y la familia BLAST . Los métodos de palabras identifican una serie de subsecuencias cortas que no se superponen ("palabras") en la secuencia de consulta que luego se comparan con las secuencias de bases de datos candidatas. Las posiciones relativas de la palabra en las dos secuencias que se comparan se restan para obtener un desplazamiento; esto indicará una región de alineación si varias palabras distintas producen el mismo desplazamiento. Solo si se detecta esta región, estos métodos aplican criterios de alineación más sensibles; por tanto, se eliminan muchas comparaciones innecesarias con secuencias sin similitud apreciable.

En el método FASTA, el usuario define un valor k para usar como la longitud de la palabra con la que buscar en la base de datos. El método es más lento pero más sensible a valores más bajos de k , que también se prefieren para búsquedas que involucran una secuencia de consulta muy corta. La familia BLAST de métodos de búsqueda proporciona una serie de algoritmos optimizados para tipos particulares de consultas, como la búsqueda de coincidencias de secuencias relacionadas lejanamente. BLAST fue desarrollado para proporcionar una alternativa más rápida a FASTA sin sacrificar mucha precisión; al igual que FASTA, BLAST utiliza una búsqueda de palabras de longitud k , pero evalúa solo las coincidencias de palabras más significativas, en lugar de todas las coincidencias de palabras como lo hace FASTA. La mayoría de las implementaciones de BLAST utilizan una longitud de palabra predeterminada fija que está optimizada para la consulta y el tipo de base de datos, y que se cambia solo en circunstancias especiales, como cuando se busca con secuencias de consulta repetitivas o muy cortas. Las implementaciones se pueden encontrar a través de varios portales web, como EMBL FASTA y NCBI BLAST .

Alineación de múltiples secuencias

Alineación de 27 secuencias de proteínas de hemaglutinina de la influenza aviar coloreadas por conservación de residuos (arriba) y propiedades de los mismos (abajo)

La alineación de múltiples secuencias es una extensión de la alineación por pares para incorporar más de dos secuencias a la vez. Múltiples métodos de alineación intentan alinear todas las secuencias en un conjunto de consultas dado. A menudo se utilizan múltiples alineamientos para identificar regiones de secuencia conservadas a través de un grupo de secuencias que se hipotetiza que están relacionadas evolutivamente. Tales motivos de secuencia conservada se pueden usar junto con información estructural y mecanicista para localizar los sitios catalíticos activos de las enzimas . Las alineaciones también se utilizan para ayudar a establecer relaciones evolutivas mediante la construcción de árboles filogenéticos . Los alineamientos de secuencias múltiples son computacionalmente difíciles de producir y la mayoría de las formulaciones del problema conducen a problemas de optimización combinatoria NP-completa . Sin embargo, la utilidad de estos alineamientos en bioinformática ha llevado al desarrollo de una variedad de métodos adecuados para alinear tres o más secuencias.

Programación dinámica

La técnica de programación dinámica es teóricamente aplicable a cualquier número de secuencias; sin embargo, debido a que es computacionalmente costoso tanto en tiempo como en memoria , rara vez se usa para más de tres o cuatro secuencias en su forma más básica. Este método requiere construir el equivalente n- dimensional de la matriz de secuencia formada a partir de dos secuencias, donde n es el número de secuencias en la consulta. La programación dinámica estándar se utiliza primero en todos los pares de secuencias de consulta y luego se completa el "espacio de alineación" considerando posibles coincidencias o espacios en posiciones intermedias, construyendo finalmente una alineación esencialmente entre cada alineación de dos secuencias. Aunque esta técnica es computacionalmente costosa, su garantía de una solución óptima global es útil en los casos en los que solo unas pocas secuencias necesitan alinearse con precisión. Un método para reducir las demandas computacionales de la programación dinámica, que se basa en la función objetivo de "suma de pares" , se ha implementado en el paquete de software MSA .

Métodos progresivos

Los métodos progresivos, jerárquicos o de árbol generan una alineación de secuencia múltiple alineando primero las secuencias más similares y luego agregando sucesivamente menos secuencias o grupos relacionados a la alineación hasta que todo el conjunto de consultas se haya incorporado a la solución. El árbol inicial que describe la relación de secuencia se basa en comparaciones por pares que pueden incluir métodos heurísticos de alineación por pares similares a FASTA . Los resultados de la alineación progresiva dependen de la elección de las secuencias "más relacionadas" y, por tanto, pueden ser sensibles a inexactitudes en las alineaciones iniciales por pares. La mayoría de los métodos de alineación de secuencia múltiple progresiva ponderan además las secuencias en el conjunto de consultas de acuerdo con su relación, lo que reduce la probabilidad de hacer una mala elección de las secuencias iniciales y, por lo tanto, mejora la precisión de la alineación.

Muchas variaciones de la implementación progresiva de Clustal se utilizan para la alineación de secuencias múltiples, la construcción de árboles filogenéticos y como entrada para la predicción de la estructura de proteínas . Una variante más lenta pero más precisa del método progresivo se conoce como T-Coffee .

Métodos iterativos

Los métodos iterativos intentan mejorar la gran dependencia de la precisión de las alineaciones iniciales por pares, que es el punto débil de los métodos progresivos. Los métodos iterativos optimizan una función objetivo basada en un método de puntuación de alineación seleccionado asignando una alineación global inicial y luego realineando subconjuntos de secuencia. Los subconjuntos realineados se alinean ellos mismos para producir la alineación de secuencia múltiple de la siguiente iteración. Se revisan varias formas de seleccionar los subgrupos de secuencia y la función objetivo.

Encontrar motivo

El hallazgo de motivos, también conocido como análisis de perfil, construye alineamientos de secuencia múltiple globales que intentan alinear motivos de secuencia cortos conservados entre las secuencias en el conjunto de consultas. Esto generalmente se hace construyendo primero un alineamiento de secuencia múltiple global general, después de lo cual las regiones altamente conservadas se aíslan y se usan para construir un conjunto de matrices de perfil. La matriz de perfil para cada región conservada está dispuesta como una matriz de puntuación, pero sus recuentos de frecuencia para cada aminoácido o nucleótido en cada posición se derivan de la distribución de caracteres de la región conservada en lugar de una distribución empírica más general. Las matrices de perfil se utilizan luego para buscar otras secuencias en busca de apariciones del motivo que caracterizan. En los casos en que el conjunto de datos original contenía una pequeña cantidad de secuencias, o solo secuencias muy relacionadas, se agregan pseudocontos para normalizar las distribuciones de caracteres representadas en el motivo.

Técnicas inspiradas en la informática

Un perfil HMM que modela una alineación de secuencia múltiple

También se han aplicado al problema de alineación de secuencias múltiples una variedad de algoritmos de optimización general que se utilizan comúnmente en la informática. Los modelos ocultos de Markov se han utilizado para producir puntuaciones de probabilidad para una familia de posibles alineamientos de secuencia múltiple para un conjunto de consultas dado; Aunque los primeros métodos basados ​​en HMM produjeron un rendimiento decepcionante, las aplicaciones posteriores los han encontrado especialmente efectivos para detectar secuencias relacionadas de forma remota porque son menos susceptibles al ruido creado por sustituciones conservadoras o semiconservadoras. Los algoritmos genéticos y el recocido simulado también se han utilizado para optimizar las puntuaciones de alineación de múltiples secuencias según lo juzga una función de puntuación como el método de suma de pares. Se pueden encontrar más detalles y paquetes de software en el artículo principal sobre alineación de secuencias múltiples .

La transformación de Burrows-Wheeler se ha aplicado con éxito a la alineación rápida de lectura corta en herramientas populares como Bowtie y BWA. Ver índice FM .

Alineación estructural

Los alineamientos estructurales, que suelen ser específicos de las secuencias de proteínas y, a veces, de ARN, utilizan información sobre la estructura secundaria y terciaria de la proteína o molécula de ARN para ayudar a alinear las secuencias. Estos métodos pueden usarse para dos o más secuencias y típicamente producen alineamientos locales; sin embargo, debido a que dependen de la disponibilidad de información estructural, solo se pueden usar para secuencias cuyas estructuras correspondientes se conocen (generalmente mediante cristalografía de rayos X o espectroscopía de RMN ). Debido a que tanto la estructura de la proteína como del ARN se conservan más evolutivamente que la secuencia, los alineamientos estructurales pueden ser más confiables entre secuencias que están relacionadas muy lejanamente y que han divergido tan ampliamente que la comparación de secuencias no puede detectar de manera confiable su similitud.

Los alineamientos estructurales se utilizan como el "estándar de oro" en la evaluación de alineamientos para la predicción de la estructura de la proteína basada en la homología porque alinean explícitamente regiones de la secuencia de la proteína que son estructuralmente similares en lugar de depender exclusivamente de la información de la secuencia. Sin embargo, las alineaciones claramente estructurales no se pueden utilizar en la predicción de estructuras porque al menos una secuencia en el conjunto de consultas es el objetivo a modelar, para el cual se desconoce la estructura. Se ha demostrado que, dada la alineación estructural entre una secuencia diana y una plantilla, se pueden producir modelos muy precisos de la secuencia de la proteína diana; Un escollo importante en la predicción de estructuras basada en homología es la producción de alineaciones estructuralmente precisas con solo información de secuencia.

DALI

El método DALI, o alineación de matriz de distancia , es un método basado en fragmentos para construir alineaciones estructurales basadas en patrones de similitud de contacto entre hexapéptidos sucesivos en las secuencias de consulta. Puede generar alineaciones por pares o múltiples e identificar los vecinos estructurales de una secuencia de consulta en el Protein Data Bank (PDB). Se ha utilizado para construir la base de datos de alineación estructural FSSP (clasificación de pliegues basada en la alineación estructura-estructura de proteínas o familias de proteínas estructuralmente similares). Se puede acceder a un servidor web DALI en DALI y el FSSP se encuentra en The Dali Database .

SSAP

SSAP (programa de alineación secuencial de estructuras) es un método de alineación estructural basado en programación dinámica que utiliza vectores átomo a átomo en el espacio de la estructura como puntos de comparación. Se ha ampliado desde su descripción original para incluir alineaciones múltiples y por pares, y se ha utilizado en la construcción de la clasificación jerárquica de la base de datos CATH (clase, arquitectura, topología, homología) de pliegues de proteínas. Se puede acceder a la base de datos CATH en CATH Protein Structure Classification .

Extensión combinatoria

El método de extensión combinatoria de alineación estructural genera una alineación estructural por pares mediante el uso de geometría local para alinear fragmentos cortos de las dos proteínas que se analizan y luego ensambla estos fragmentos en una alineación más grande. Con base en medidas como la distancia cuadrática media de la raíz del cuerpo rígido , las distancias de los residuos, la estructura secundaria local y las características ambientales circundantes, como la hidrofobicidad del vecino del residuo , se generan alineaciones locales llamadas "pares de fragmentos alineados" y se utilizan para construir una matriz de similitud que represente todos los posibles alineaciones estructurales dentro de criterios de corte predefinidos. A continuación, se traza un camino desde un estado de estructura de proteína a otro a través de la matriz extendiendo la alineación en crecimiento un fragmento a la vez. La ruta óptima de este tipo define la alineación combinatoria-extensión. Un servidor basado en la web que implementa el método y proporciona una base de datos de alineaciones de estructuras por pares en el Protein Data Bank se encuentra en el sitio web de Combinatorial Extension .

Análisis filogenético

La filogenética y la alineación de secuencias son campos estrechamente relacionados debido a la necesidad compartida de evaluar la relación de secuencias. El campo de la filogenética hace un uso extensivo de alineamientos de secuencia en la construcción e interpretación de árboles filogenéticos , que se utilizan para clasificar las relaciones evolutivas entre genes homólogos representados en los genomas de especies divergentes. El grado en que las secuencias en un conjunto de consultas difieren está cualitativamente relacionado con la distancia evolutiva de las secuencias entre sí. En términos generales, la identidad de secuencia alta sugiere que las secuencias en cuestión tienen un ancestro común más reciente comparativamente joven , mientras que la identidad baja sugiere que la divergencia es más antigua. Esta aproximación, que refleja la hipótesis del " reloj molecular " de que se puede usar una tasa aproximadamente constante de cambio evolutivo para extrapolar el tiempo transcurrido desde que dos genes divergieron por primera vez (es decir, el tiempo de coalescencia ), asume que los efectos de la mutación y la selección son constante a través de los linajes de secuencia. Por lo tanto, no tiene en cuenta la posible diferencia entre organismos o especies en las tasas de reparación del ADN o la posible conservación funcional de regiones específicas en una secuencia. (En el caso de las secuencias de nucleótidos, la hipótesis del reloj molecular en su forma más básica también descarta la diferencia en las tasas de aceptación entre mutaciones silenciosas que no alteran el significado de un codón dado y otras mutaciones que dan como resultado la incorporación de un aminoácido diferente en la proteína). Los métodos estadísticamente más precisos permiten que varíe la tasa de evolución en cada rama del árbol filogenético, produciendo así mejores estimaciones de los tiempos de coalescencia de los genes.

Las técnicas de alineación múltiple progresiva producen un árbol filogenético por necesidad porque incorporan secuencias en la alineación creciente en orden de parentesco. Otras técnicas que ensamblan múltiples alineaciones de secuencias y árboles filogenéticos puntúan y clasifican los árboles primero y calculan una alineación de múltiples secuencias a partir del árbol con la puntuación más alta. Los métodos comúnmente utilizados de construcción de árboles filogenéticos son principalmente heurísticos porque el problema de seleccionar el árbol óptimo, como el problema de seleccionar la alineación de secuencia múltiple óptima, es NP-difícil .

Evaluación de importancia

Los alineamientos de secuencias son útiles en bioinformática para identificar similitudes de secuencias, producir árboles filogenéticos y desarrollar modelos de homología de estructuras de proteínas. Sin embargo, la relevancia biológica de los alineamientos de secuencias no siempre está clara. A menudo se asume que las alineaciones reflejan un grado de cambio evolutivo entre secuencias descendientes de un ancestro común; sin embargo, es formalmente posible que la evolución convergente pueda producirse para producir una similitud aparente entre proteínas que no están relacionadas evolutivamente pero que realizan funciones similares y tienen estructuras similares.

En búsquedas de bases de datos como BLAST, los métodos estadísticos pueden determinar la probabilidad de que una alineación particular entre secuencias o regiones de secuencia surja por casualidad dado el tamaño y la composición de la base de datos que se busca. Estos valores pueden variar significativamente según el espacio de búsqueda. En particular, la probabilidad de encontrar una alineación dada por casualidad aumenta si la base de datos consta solo de secuencias del mismo organismo que la secuencia de consulta. Las secuencias repetidas en la base de datos o la consulta también pueden distorsionar tanto los resultados de la búsqueda como la evaluación de la significación estadística; BLAST filtra automáticamente esas secuencias repetitivas en la consulta para evitar aciertos aparentes que son artefactos estadísticos.

Los métodos de estimación de la significación estadística para alineamientos de secuencia con huecos están disponibles en la literatura.

Evaluación de credibilidad

La significancia estadística indica la probabilidad de que una alineación de una calidad dada pueda surgir por casualidad, pero no indica qué tan superior es una alineación dada a alineaciones alternativas de las mismas secuencias. Las medidas de credibilidad de la alineación indican hasta qué punto las alineaciones de mejor puntuación para un par de secuencias dado son sustancialmente similares. Los métodos de estimación de la credibilidad de la alineación para alineaciones de secuencia con huecos están disponibles en la literatura.

Funciones de puntuación

La elección de una función de puntuación que refleje observaciones biológicas o estadísticas sobre secuencias conocidas es importante para producir buenas alineaciones. Las secuencias de proteínas se alinean con frecuencia utilizando matrices de sustitución que reflejan las probabilidades de sustituciones de carácter a carácter dadas. Una serie de matrices llamadas matrices PAM ( matrices de mutaciones puntuales aceptadas, originalmente definidas por Margaret Dayhoff y algunas veces denominadas "matrices Dayhoff") codifican explícitamente aproximaciones evolutivas con respecto a las tasas y probabilidades de mutaciones de aminoácidos particulares. Otra serie común de matrices de puntuación, conocida como BLOSUM (Matriz de sustitución de bloques), codifica probabilidades de sustitución derivadas empíricamente. Las variantes de ambos tipos de matrices se utilizan para detectar secuencias con diferentes niveles de divergencia, lo que permite a los usuarios de BLAST o FASTA restringir las búsquedas a coincidencias más estrechamente relacionadas o expandirse para detectar secuencias más divergentes. Las penalizaciones por brecha explican la introducción de una brecha, en el modelo evolutivo, una mutación de inserción o deleción, tanto en las secuencias de nucleótidos como de proteínas y, por lo tanto, los valores de penalización deben ser proporcionales a la tasa esperada de tales mutaciones. La calidad de las alineaciones producidas depende, por tanto, de la calidad de la función de puntuación.

Puede ser muy útil e instructivo intentar la misma alineación varias veces con diferentes opciones para la matriz de puntuación y / o valores de penalización por huecos y comparar los resultados. Las regiones donde la solución es débil o no única a menudo se pueden identificar observando qué regiones de la alineación son resistentes a las variaciones en los parámetros de alineación.

Otros usos biológicos

El ARN secuenciado, como las etiquetas de secuencia expresadas y los ARNm de longitud completa, se pueden alinear con un genoma secuenciado para encontrar dónde hay genes y obtener información sobre el corte y empalme alternativo y la edición del ARN . La alineación de secuencias también es parte del ensamblaje del genoma , donde las secuencias se alinean para encontrar una superposición de modo que se puedan formar contigs (tramos largos de secuencia). Otro uso es el análisis de SNP , donde las secuencias de diferentes individuos se alinean para encontrar pares de bases únicos que a menudo son diferentes en una población.

Usos no biológicos

Los métodos utilizados para la alineación de secuencias biológicas también han encontrado aplicaciones en otros campos, sobre todo en el procesamiento del lenguaje natural y en las ciencias sociales, donde el algoritmo de Needleman-Wunsch se suele denominar coincidencia óptima . Las técnicas que generan el conjunto de elementos a partir de los cuales se seleccionarán palabras en algoritmos de generación de lenguaje natural han tomado prestadas múltiples técnicas de alineación de secuencias de la bioinformática para producir versiones lingüísticas de pruebas matemáticas generadas por computadora. En el campo de la lingüística histórica y comparada , la alineación de secuencias se ha utilizado para automatizar parcialmente el método comparativo mediante el cual los lingüistas reconstruyen tradicionalmente las lenguas. La investigación comercial y de marketing también ha aplicado múltiples técnicas de alineación de secuencias para analizar series de compras a lo largo del tiempo.

Software

Una lista más completa de software disponible categorizado por algoritmo y tipo de alineación está disponible en el software de alineación de secuencia , pero las herramientas de software comunes utilizadas para tareas generales de alineación de secuencia incluyen ClustalW2 y T-coffee para alineación, y BLAST y FASTA3x para búsqueda en bases de datos. También se encuentran disponibles herramientas comerciales como DNASTAR Lasergene , Geneious y PatternHunter . Las herramientas anotadas para realizar la alineación de secuencias se enumeran en el registro de bio.tools .

Los algoritmos y el software de alineación se pueden comparar directamente entre sí mediante un conjunto estandarizado de alineaciones de secuencia múltiple de referencia de referencia conocido como BAliBASE. El conjunto de datos consta de alineaciones estructurales, que pueden considerarse un estándar con el que se comparan métodos puramente basados ​​en secuencias. El rendimiento relativo de muchos métodos de alineación comunes en los problemas de alineación que se encuentran con frecuencia se ha tabulado y los resultados seleccionados se han publicado en línea en BAliBASE. Se puede calcular una lista completa de puntajes BAliBASE para muchas (actualmente 12) herramientas de alineación diferentes dentro del banco de trabajo de proteínas STRAP.

Ver también

Referencias

enlaces externos

Escuche este artículo ( 39 minutos )
Icono de Wikipedia hablado
Este archivo de audio se creó a partir de una revisión de este artículo con fecha del 5 de junio de 2012 y no refleja ediciones posteriores. ( 2012-06-05 )