Pfam - Pfam

Pfam
Pfam logo.gif
Contenido
Descripción La base de datos Pfam proporciona alineaciones y modelos de Markov ocultos para dominios de proteínas.
Tipos de datos
capturados
Familias de proteínas
Organismos todos
Contacto
Centro de Investigación EBI
Cita primaria PMID  19920124
Acceso
Formato de datos Formato de Estocolmo
Sitio web Pfam .xfam .org
URL de descarga FTP 1 FTP 2
Diverso
Licencia Licencia pública general reducida GNU
Versión 33,1

Entidades que se pueden marcar

Pfam es una base de datos de familias de proteínas que incluye sus anotaciones y alineaciones de secuencias múltiples generadas utilizando modelos de Markov ocultos . La versión más reciente, Pfam 34.0, se lanzó en marzo de 2021 y contiene 19,179 familias.

Usos

El propósito general de la base de datos Pfam es proporcionar una clasificación completa y precisa de dominios y familias de proteínas. Originalmente, la razón fundamental detrás de la creación de la base de datos era tener un método semiautomático de curar información sobre familias de proteínas conocidas para mejorar la eficiencia de la anotación de genomas. La clasificación Pfam de familias de proteínas ha sido ampliamente adoptada por biólogos debido a su amplia cobertura de proteínas y convenciones de nombres sensibles.

Es utilizado por biólogos experimentales que investigan proteínas específicas, por biólogos estructurales para identificar nuevos objetivos para la determinación de estructuras, por biólogos computacionales para organizar secuencias y por biólogos evolutivos que rastrean los orígenes de las proteínas. Los primeros proyectos de genoma, como humanos y moscas, utilizaron ampliamente Pfam para la anotación funcional de datos genómicos.

El sitio web de Pfam permite a los usuarios enviar secuencias de proteínas o ADN para buscar coincidencias con las familias en la base de datos. Si se envía ADN, se realiza una traducción de seis cuadros y luego se busca en cada cuadro. En lugar de realizar una búsqueda BLAST típica , Pfam utiliza modelos de Markov ocultos de perfil , que dan mayor peso a las coincidencias en los sitios conservados , lo que permite una mejor detección de homología remota, lo que los hace más adecuados para anotar genomas de organismos sin parientes cercanos bien anotados.

Pfam también se ha utilizado en la creación de otros recursos como iPfam , que cataloga las interacciones dominio-dominio dentro y entre proteínas, basándose en información en bases de datos de estructura y mapeo de dominios Pfam en estas estructuras.

Características

Para cada familia en Pfam se puede:

  • Ver una descripción de la familia
  • Mira múltiples alineaciones
  • Ver arquitecturas de dominio de proteínas
  • Examinar la distribución de especies
  • Siga los enlaces a otras bases de datos
  • Ver estructuras proteicas conocidas

Las entradas pueden ser de varios tipos: familia, dominio, repetición o motivo. Familia es la clase predeterminada, que simplemente indica que los miembros están relacionados. Los dominios se definen como una unidad estructural autónoma o una unidad de secuencia reutilizable que se puede encontrar en múltiples contextos de proteínas. Las repeticiones no suelen ser estables de forma aislada, sino que suelen ser necesarias para formar repeticiones en tándem para formar un dominio o una estructura extendida. Los motivos suelen ser unidades de secuencia más cortas que se encuentran fuera de los dominios globulares.

Las descripciones de las familias de Pfam son administradas por el público en general usando Wikipedia (ver Historia ).

A partir de la versión 29.0, el 76,1% de las secuencias de proteínas en UniprotKB coincidían con al menos un dominio Pfam.

Creación de nuevas entradas

Las nuevas familias provienen de una variedad de fuentes, principalmente el PDB y el análisis de proteomas completos para encontrar genes sin el impacto de Pfam.

Para cada familia, un subconjunto representativo de secuencias se alinea en una alineación de semillas de alta calidad. Las secuencias para la alineación de semillas se toman principalmente de pfamseq (una base de datos no redundante de proteomas de referencia) con algunos suplementos de UniprotKB . Esta alineación inicial se utiliza para construir un modelo de Markov oculto de perfil utilizando HMMER . Este HMM luego se busca en bases de datos de secuencias, y todos los resultados que alcanzan un umbral de recolección curado se clasifican como miembros de la familia de proteínas. La colección resultante de miembros se alinea luego con el perfil HMM para generar una alineación completa.

Para cada familia, se asigna un umbral de recopilación seleccionado manualmente que maximiza el número de coincidencias verdaderas con la familia y excluye las coincidencias falsas positivas. Los falsos positivos se estiman observando superposiciones entre los hits de la familia Pfam que no son del mismo clan. Este umbral se utiliza para evaluar si una coincidencia con una familia HMM debe incluirse en la familia de proteínas. Tras cada actualización de Pfam, los umbrales de recopilación se reevalúan para evitar superposiciones entre familias nuevas y existentes.

Dominios de función desconocida

Los dominios de función desconocida (DUF) representan una fracción creciente de la base de datos de Pfam. Las familias se llaman así porque se ha descubierto que se conservan en todas las especies, pero desempeñan un papel desconocido. Cada DUF recién agregado se nombra en orden de adición. Los nombres de estas entradas se actualizan a medida que se identifican sus funciones. Normalmente, cuando se ha determinado la función de al menos una proteína que pertenece a un DUF, se actualiza la función de todo el DUF y se cambia el nombre de la familia. Algunas familias nombradas siguen siendo dominios de función desconocida, que reciben el nombre de una proteína representativa, por ejemplo, YbbR. Se espera que el número de DUF continúe aumentando a medida que se sigan identificando secuencias conservadas de función desconocida en los datos de secuencia. Se espera que los DUF eventualmente superen en número a las familias de función conocida.

Clanes

Con el tiempo, tanto la secuencia como la cobertura de residuos han aumentado y, a medida que las familias han crecido, se han descubierto más relaciones evolutivas, lo que permite la agrupación de familias en clanes. Los clanes se introdujeron por primera vez en la base de datos Pfam en 2005. Son agrupaciones de familias relacionadas que comparten un único origen evolutivo, como lo confirman las comparaciones estructurales, funcionales, de secuencia y HMM. A partir de la versión 29.0, aproximadamente un tercio de las familias de proteínas pertenecían a un clan. Esta porción ha crecido a alrededor de las tres cuartas partes en 2019 (versión 32.0).

Para identificar posibles relaciones entre clanes, los curadores de Pfam utilizan el Programa de comparación simple de resultados (SCOOP), así como información de la base de datos ECOD. ECOD es una base de datos jerárquica semiautomática de familias de proteínas con estructuras conocidas, con familias que se asignan fácilmente a las entradas de Pfam y niveles de homología que generalmente se asignan a los clanes de Pfam.

Historia

Pfam fue fundada en 1995 por Erik Sonhammer, Sean Eddy y Richard Durbin como una colección de dominios de proteínas comunes que podrían usarse para anotar los genes codificadores de proteínas de animales multicelulares. Uno de sus principales objetivos al inicio fue ayudar en la anotación del genoma de C. elegans . El proyecto fue impulsado en parte por la afirmación en 'Mil familias para el biólogo molecular' de Cyrus Chothia de que había alrededor de 1500 familias diferentes de proteínas y que la mayoría de las proteínas se incluían en solo 1000 de ellas. En contra de esta afirmación, la base de datos de Pfam contiene actualmente 16.306 entradas correspondientes a dominios y familias de proteínas únicos. Sin embargo, muchas de estas familias contienen similitudes estructurales y funcionales que indican un origen evolutivo compartido (ver Clanes ).

Un punto importante de diferencia entre Pfam y otras bases de datos en el momento de su creación fue el uso de dos tipos de alineación para las entradas: una alineación de semillas más pequeña, verificada manualmente, así como una alineación completa construida alineando secuencias a un modelo de Markov oculto de perfil. construido a partir de la alineación de semillas. Esta alineación de semillas más pequeña fue más fácil de actualizar a medida que aparecieron nuevas versiones de bases de datos de secuencias y, por lo tanto, representó una solución prometedora al dilema de cómo mantener la base de datos actualizada a medida que la secuenciación del genoma se volvió más eficiente y se necesitaron más datos para procesar con el tiempo. . Una mejora adicional a la velocidad a la que se podía actualizar la base de datos se produjo en la versión 24.0, con la introducción de HMMER3, que es ~ 100 veces más rápido que HMMER2 y más sensible.

Debido a que las entradas en Pfam-A no cubren todas las proteínas conocidas, se proporcionó un suplemento generado automáticamente llamado Pfam-B. Pfam-B contenía una gran cantidad de familias pequeñas derivadas de grupos producidos por un algoritmo llamado ADDA. Aunque de menor calidad, las familias Pfam-B podrían ser útiles cuando no se encontraron familias Pfam-A. Pfam-B se suspendió a partir de la versión 28.0 y luego se reintrodujo en la versión 33.1 utilizando un nuevo algoritmo de agrupación en clústeres, MMSeqs2.

Pfam se alojó originalmente en tres sitios espejo en todo el mundo para preservar la redundancia. Sin embargo, entre 2012 y 2014, el recurso de Pfam se trasladó a EMBL-EBI , lo que permitió alojar el sitio web desde un dominio (xfam.org), utilizando centros de datos independientes duplicados. Esto permitió una mejor centralización de las actualizaciones y la agrupación con otros proyectos de Xfam como Rfam , TreeFam , iPfam y otros, al tiempo que se mantuvo la resistencia crítica proporcionada por el alojamiento desde múltiples centros.

Pfam ha sufrido una reorganización sustancial en los últimos dos años para reducir aún más el esfuerzo manual involucrado en la conservación y permitir actualizaciones más frecuentes.

Curaduría comunitaria

La conservación de una base de datos tan grande presentó problemas en términos de mantenerse al día con el volumen de nuevas familias y la información actualizada que era necesario agregar. Para acelerar las versiones de la base de datos, los desarrolladores pusieron en marcha una serie de iniciativas para permitir una mayor participación de la comunidad en la gestión de la base de datos.

Un paso crítico para mejorar el ritmo de actualización y mejora de las entradas fue abrir la anotación funcional de los dominios Pfam a la comunidad de Wikipedia en la versión 26.0. Para las entradas que ya tenían una entrada de Wikipedia, esta se vinculó a la página de Pfam, y para las que no la tenían, se invitó a la comunidad a crear una e informar a los curadores para que se vincule. Se anticipa que mientras La participación de la comunidad mejorará en gran medida el nivel de anotación de estas familias, algunas no serán lo suficientemente notables para su inclusión en Wikipedia, en cuyo caso conservarán su descripción original de Pfam. Algunos artículos de Wikipedia cubren varias familias, como el artículo Zinc finger . También se implementó un procedimiento automatizado para generar artículos basados ​​en datos de InterPro y Pfam, que llena una página con información y enlaces a bases de datos, así como imágenes disponibles, luego, una vez que un curador ha revisado un artículo, se mueve de Sandbox a Wikipedia propiamente dicha. Para protegerse contra el vandalismo de los artículos, los curadores revisan cada revisión de Wikipedia antes de que se muestre en el sitio web de Pfam. Sin embargo, casi todos los casos de vandalismo han sido corregidos por la comunidad antes de que lleguen a los curadores.

Pfam está dirigido por un consorcio internacional de tres grupos. En las versiones anteriores de Pfam, las entradas familiares solo podían modificarse en el sitio de Cambridge, Reino Unido, lo que limitaba la capacidad de los miembros del consorcio para contribuir a la conservación del sitio. En la versión 26.0, los desarrolladores se trasladaron a un nuevo sistema que permitía a los usuarios registrados en cualquier parte del mundo agregar o modificar familias de Pfam.

Ver también

  • Lista de bases de datos biológicas
  • PANDIT , una base de datos biológica que cubre dominios de proteínas
  • Base de datos Rfam para familias de ARN no codificantes conservadas
  • Base de datos TreeFam de árboles filogenéticos de genes animales
  • Base de datos TrEMBL que realiza una anotación automatizada de secuencias de proteínas
  • Integración InterPro de bases de datos de dominios de proteínas y familias de proteínas
  • PDBfam : asignación completa de dominios Pfam a secuencias en el banco de datos de proteínas (PDB)

Referencias

enlaces externos

  • Pfam - base de datos de familias de proteínas en EBI Reino Unido
  • iPfam : interacciones de dominios Pfam en PDB
  • PDBfam : asignaciones de dominios Pfam a secuencias en el PDB en Fox Chase Cancer Center EE. UU.
  • PlantTFDB : las reglas de asignación de familias para factores de transcripción de plantas basadas en dominios Pfam