Familia de proteínas - Protein family

La familia de las ciclofilinas humanas , representada por las estructuras de los dominios isomerasa de algunos de sus miembros.

Una familia de proteínas es un grupo de proteínas relacionadas evolutivamente . En muchos casos, una familia de proteínas tiene una familia de genes correspondiente , en la que cada gen codifica una proteína correspondiente con una relación 1: 1. El término familia de proteínas no debe confundirse con familia, ya que se usa en taxonomía.

Las proteínas de una familia descienden de un ancestro común y normalmente tienen estructuras tridimensionales similares , funciones y similitud de secuencia significativa . El más importante de ellos es la similitud de secuencia (generalmente secuencia de aminoácidos), ya que es el indicador más estricto de homología y, por lo tanto, el indicador más claro de ascendencia común. Existe un marco bastante bien desarrollado para evaluar la importancia de la similitud entre un grupo de secuencias utilizando métodos de alineación de secuencias . Es muy poco probable que las proteínas que no comparten un ancestro común muestren una similitud de secuencia estadísticamente significativa, lo que hace que la alineación de secuencias sea una herramienta poderosa para identificar a los miembros de las familias de proteínas.

Las familias a veces se agrupan en clados más grandes llamados superfamilias en función de la similitud estructural y mecanicista, incluso si no hay una homología de secuencia identificable.

Actualmente, se han definido más de 60.000 familias de proteínas, aunque la ambigüedad en la definición de familia de proteínas lleva a diferentes investigadores a números muy variables.

Terminología y uso

Como ocurre con muchos términos biológicos, el uso de la familia de proteínas depende en cierto modo del contexto; puede indicar grandes grupos de proteínas con el nivel más bajo posible de similitud de secuencia detectable, o grupos muy estrechos de proteínas con secuencia, función y estructura tridimensional casi idénticas, o cualquier tipo de grupo intermedio. Para distinguir entre estas situaciones, el término superfamilia de proteínas se usa a menudo para proteínas relacionadas lejanamente cuya relación no es detectable por similitud de secuencia, sino solo a partir de características estructurales compartidas. Otros términos como clase de proteína , grupo , clan y subfamilia se han acuñado a lo largo de los años, pero todos sufren ambigüedades similares de uso. Un uso común es que las superfamilias ( homología estructural ) contienen familias ( homología de secuencia ) que contienen subfamilias . Por lo tanto, una superfamilia, como el clan de proteasas PA , tiene una conservación de secuencia mucho menor que una de las familias que contiene, la familia C04. Es poco probable que se llegue a un acuerdo sobre una definición exacta y depende del lector discernir exactamente cómo se utilizan estos términos en un contexto particular.

Arriba, conservación de la secuencia de 250 miembros de las proteasas del clan PA ( superfamilia ). A continuación, conservación de la secuencia de 70 miembros de la familia de proteasas C04. Las flechas indican residuos de la tríada catalítica . Alineado sobre la base de la estructura de DALI .

Dominios y motivos de proteínas

El concepto de familia de proteínas se concibió en una época en la que se conocían muy pocas estructuras o secuencias de proteínas; en ese momento, las proteínas de dominio único principalmente pequeñas, como la mioglobina , la hemoglobina y el citocromo c, se entendían estructuralmente. Desde ese momento, se encontró que muchas proteínas comprenden múltiples unidades o dominios estructurales y funcionales independientes . Debido al barajado evolutivo , diferentes dominios en una proteína han evolucionado de forma independiente. Esto ha llevado, en los últimos años, a centrarse en familias de dominios proteicos. Varios recursos en línea están dedicados a identificar y catalogar dichos dominios (consulte la lista de enlaces al final de este artículo).

Las regiones de cada proteína tienen diferentes limitaciones funcionales (características críticas para la estructura y función de la proteína). Por ejemplo, el sitio activo de una enzima requiere que ciertos residuos de aminoácidos estén orientados con precisión en tres dimensiones. Por otro lado, una interfaz de unión proteína-proteína puede consistir en una gran superficie con limitaciones en la hidrofobicidad o polaridad de los residuos de aminoácidos. Las regiones de proteínas funcionalmente restringidas evolucionan más lentamente que las regiones no restringidas, como los bucles de superficie, dando lugar a bloques discernibles de secuencia conservada cuando se comparan las secuencias de una familia de proteínas (ver alineación de secuencias múltiples ). Estos bloques se denominan más comúnmente motivos , aunque se utilizan muchos otros términos (bloques, firmas, huellas dactilares, etc.). Nuevamente, muchos recursos en línea están dedicados a identificar y catalogar motivos de proteínas (ver la lista al final del artículo).

Evolución de las familias de proteínas

Según el consenso actual, las familias de proteínas surgen de dos formas. En primer lugar, la separación de una especie parental en dos especies descendientes aisladas genéticamente permite que un gen / proteína acumule variaciones ( mutaciones ) de forma independiente en estos dos linajes. Esto da como resultado una familia de proteínas ortólogas , generalmente con motivos de secuencia conservados. En segundo lugar, la duplicación de un gen puede crear una segunda copia de un gen (denominada parálogo ). Debido a que el gen original todavía puede realizar su función, el gen duplicado puede divergir libremente y puede adquirir nuevas funciones (por mutación aleatoria). Ciertas familias de genes / proteínas, especialmente en eucariotas , sufren expansiones y contracciones extremas en el curso de la evolución, a veces en concierto con duplicaciones del genoma completo . Esta expansión y contracción de las familias de proteínas es una de las características más destacadas de la evolución del genoma , pero su importancia y ramificaciones no están claras en la actualidad.

Árbol filogenético de la superfamilia RAS. Tree se creó utilizando FigTree (software gratuito en línea).

Uso e importancia de las familias de proteínas

A medida que aumenta el número total de proteínas secuenciadas y se expande el interés en el análisis de proteomas , existe un esfuerzo continuo para organizar las proteínas en familias y describir sus dominios y motivos componentes. La identificación confiable de familias de proteínas es fundamental para el análisis filogenético , la anotación funcional y la exploración de la diversidad de la función de las proteínas en una rama filogenética determinada. La Enzyme Function Initiative (EFI) utiliza familias y superfamilias de proteínas como base para el desarrollo de una estrategia basada en secuencia / estructura para la asignación funcional a gran escala de enzimas de función desconocida.

Los medios algorítmicos para establecer familias de proteínas a gran escala se basan en una noción de similitud. La mayoría de las veces, la única similitud a la que tenemos acceso es la similitud de secuencia.

Recursos de la familia de proteínas

Hay muchas bases de datos biológicas que registran ejemplos de familias de proteínas y permiten a los usuarios identificar si las proteínas identificadas recientemente pertenecen a una familia conocida. Aquí están algunos ejemplos:

  • Pfam - Base de datos de familias de proteínas de alineaciones y HMM
  • PROSITE - Base de datos de dominios de proteínas, familias y sitios funcionales
  • PIRSF - Sistema de clasificación de superfamilias
  • PASS2 - Alineación de proteínas como superfamilias estructurales v2 - PASS2 @ NCBS
  • SUPERFAMILIA - Biblioteca de HMM que representan superfamilias y base de datos de anotaciones (superfamilia y familia) para todos los organismos completamente secuenciados
  • SCOP y CATH : clasificaciones de estructuras de proteínas en superfamilias, familias y dominios

De manera similar, existen muchos algoritmos de búsqueda de bases de datos, por ejemplo:

  • BLAST - búsqueda de similitud de secuencia de ADN
  • BLASTp - Búsqueda de similitud de secuencias de proteínas
  • OrthoFinder es un método rápido, escalable y preciso para agrupar proteínas en familias (ortogrupos)

Ver también

Familias de proteínas

Referencias

enlaces externos