Base de datos de clasificación estructural de proteínas - Structural Classification of Proteins database

SCOP
Base de datos de clasificación estructural de proteínas logo.gif
Contenido
Descripción Clasificación de la estructura de proteínas
Contacto
Centro de Investigación Laboratorio de Biología Molecular
Autores Alexey G. Murzin, Steven E. Brenner, Tim JP Hubbard y Cyrus Chothia
Cita primaria PMID  7723011
Fecha de lanzamiento 1994
Acceso
Sitio web http://scop.mrc-lmb.cam.ac.uk/scop/
Diverso
Versión 1,75 (junio de 2009; 110,800 dominios en 38,221 estructuras clasificadas como 3,902 familias)
Política de curación manual
Alcance
Contenido
Descripción SCOP - extendido
Contacto
Autores Naomi K. Fox, Steven E. Brenner y John-Marc Chandonia
Cita primaria PMID  24304899
Acceso
Sitio web https://scop.berkeley.edu
Diverso
Versión 2.07 (marzo de 2018; 276,231 dominios en 87,224 estructuras clasificadas como 4,919 familias)
Política de curación manual (nuevas clasificaciones) y automatizado (nuevas estructuras, BLAST )

La base de datos de Clasificación Estructural de Proteínas (SCOP) es una clasificación en gran parte manual de dominios estructurales de proteínas basada en similitudes de sus estructuras y secuencias de aminoácidos . Una motivación para esta clasificación es determinar la relación evolutiva entre proteínas. Las proteínas con las mismas formas pero que tienen poca secuencia o similitud funcional se colocan en diferentes superfamilias y se supone que solo tienen un ancestro común muy distante. Las proteínas que tienen la misma forma y alguna similitud de secuencia y / o función se colocan en "familias" y se supone que tienen un ancestro común más cercano.

De manera similar a las bases de datos CATH y Pfam , SCOP proporciona una clasificación de dominios estructurales individuales de proteínas, en lugar de una clasificación de las proteínas completas que pueden incluir un número significativo de dominios diferentes.

La base de datos SCOP es de libre acceso en Internet. SCOP fue creado en 1994 en el Centro de Ingeniería de Proteínas y el Laboratorio de Biología Molecular . Fue mantenido por Alexey G. Murzin y sus colegas en el Centro de Ingeniería de Proteínas hasta su cierre en 2010 y posteriormente en el Laboratorio de Biología Molecular en Cambridge, Inglaterra.

El trabajo en SCOP 1.75 se interrumpió en 2014. Desde entonces, el equipo de SCOPe de UC Berkeley ha sido responsable de actualizar la base de datos de manera compatible, con una combinación de métodos automáticos y manuales. En abril de 2019, la última versión es SCOPe 2.07 (marzo de 2018).

La nueva base de datos de Clasificación Estructural de Proteínas versión 2 (SCOP2) se lanzó a principios de 2020. La nueva actualización incluía un esquema de base de datos mejorado, una nueva API y una interfaz web modernizada. Esta fue la actualización más significativa del grupo de Cambridge desde SCOP 1.75 y se basa en los avances en el esquema del prototipo SCOP 2.

Organización jerárquica

La fuente de estructuras proteicas es el Protein Data Bank . La unidad de clasificación de la estructura en SCOP es el dominio proteico . Lo que los autores de SCOP quieren decir con "dominio" lo sugiere su afirmación de que las proteínas pequeñas y la mayoría de las de tamaño mediano tienen un solo dominio, y la observación de que a la hemoglobina humana, que tiene una estructura α 2 β 2 , se le asignan dos dominios SCOP , uno para la subunidad α y otro para la subunidad β.

Las formas de los dominios se denominan "pliegues" en SCOP. Los dominios que pertenecen al mismo pliegue tienen las mismas estructuras secundarias principales en la misma disposición con las mismas conexiones topológicas. Se dan 1195 pliegues en SCOP versión 1.75. Se dan breves descripciones de cada pliegue. Por ejemplo, el pliegue "similar a una globina" se describe como núcleo: 6 hélices; hoja doblada, parcialmente abierta . El pliegue al que pertenece un dominio se determina por inspección, más que por software.

Los niveles de SCOP versión 1.75 son los siguientes.

  1. Clase : Tipos de pliegues, por ejemplo, hojas beta.
  2. Pliegue: las diferentes formas de dominios dentro de una clase.
  3. Superfamilia : los dominios de un pliegue se agrupan en superfamilias, que tienen al menos un ancestro común distante.
  4. Familia : los dominios de una superfamilia se agrupan en familias, que tienen un ancestro común más reciente.
  5. Dominio proteico: los dominios de las familias se agrupan en dominios proteicos, que son esencialmente la misma proteína.
  6. Especies: los dominios de los "dominios de proteínas" se agrupan según la especie.
  7. Dominio: parte de una proteína. Para proteínas simples, puede ser la proteína completa.

Clases

Los grupos más amplios en la versión 1.75 de SCOP son las clases de pliegues de proteínas . Estas clases agrupan estructuras con una composición de estructura secundaria similar, pero diferentes estructuras terciarias generales y orígenes evolutivos. Esta es la "raíz" de nivel superior de la clasificación jerárquica de SCOP.

  1. Todas las proteínas alfa [46456] (284): dominios formados por hélices alfa
  2. Todas las proteínas beta [48724] (174): dominios que constan de hojas beta
  3. Proteínas alfa y beta (a / b) [51349] (147): principalmente hojas beta paralelas (unidades beta-alfa-beta)
  4. Proteínas alfa y beta (a + b) [53931] (376): principalmente láminas beta antiparalelas (regiones alfa y beta segregadas)
  5. Proteínas de múltiples dominios (alfa y beta) [56572] (66): pliegues que constan de dos o más dominios que pertenecen a clases diferentes
  6. proteínas y péptidos de la membrana y la superficie celular [56835] (58): no incluye proteínas del sistema inmunológico
  7. Proteínas pequeñas [56992] (90): generalmente dominadas por ligando metálico , cofactor y / o puentes disulfuro
  8. proteínas en espiral [57942] (7): No es una clase verdadera
  9. Estructuras de proteínas de baja resolución [58117] (26): péptidos y fragmentos. No es una verdadera clase
  10. Péptidos [58231] (121): péptidos y fragmentos. No es una verdadera clase.
  11. Proteínas diseñadas [58788] (44): estructuras experimentales de proteínas con secuencias esencialmente no naturales. No es una verdadera clase

El número entre paréntesis, llamado un "sunid", es un S COP ONU número entero ique Identificación del entifier para cada nodo en la jerarquía SCOP. El número entre paréntesis indica cuántos elementos hay en cada categoría. Por ejemplo, hay 284 pliegues en la clase "Todas las proteínas alfa". Cada miembro de la jerarquía es un enlace al siguiente nivel de la jerarquía.

Pliegues

Cada clase contiene varios pliegues distintos. Este nivel de clasificación indica una estructura terciaria similar, pero no necesariamente una relación evolutiva. Por ejemplo, la clase "Todas las proteínas α" contiene> 280 pliegues distintos, que incluyen: tipo globina (núcleo: 6 hélices; hoja doblada, parcialmente abierta), horquilla alfa larga (2 hélices; horquilla antiparalela, giro a la izquierda ) y dominios de dockerina de tipo I (repetición en tándem de dos motivos de hélice de bucle de unión a calcio, distintos de la mano EF).

Superfamilias

Los dominios dentro de un pliegue se clasifican además en superfamilias . Esta es una agrupación más grande de proteínas para las que la similitud estructural es suficiente para indicar una relación evolutiva y, por lo tanto, comparten un ancestro común. Sin embargo, se presume que este antepasado es distante, porque los diferentes miembros de una superfamilia tienen identidades de secuencia baja . Por ejemplo, las dos superfamilias del pliegue "similar a Globin" son: la superfamilia Globin y la superfamilia de ferredoxina alfa helicoidal (contiene dos grupos de Fe4-S4).

Familias

Las familias de proteínas están más relacionadas que las superfamilias. Los dominios se colocan en la misma familia si tienen:

  1. > 30% de identidad de secuencia
  2. alguna identidad de secuencia (por ejemplo, 15%) y realizan la misma función

La similitud en secuencia y estructura es evidencia de que estas proteínas tienen una relación evolutiva más cercana que las proteínas de la misma superfamilia. Las herramientas de secuencia, como BLAST , se utilizan para ayudar a colocar dominios en superfamilias y familias. Por ejemplo, las cuatro familias de la superfamilia "similar a la globina" del pliegue "similar a la globina" son hemoglobina truncada (carece de la primera hélice), minihemoglobina de tejido nervioso (carece de la primera hélice pero por lo demás es más similar a las globinas convencionales que las truncadas), globinas (proteína de unión a hem) y proteínas ficobilisomas similares a ficocianina (oligómeros de dos tipos diferentes de subunidades similares a globina que contienen dos hélices adicionales en el extremo N que se unen a un cromóforo de bilina ). A cada familia en SCOP se le asigna una cadena de clasificación concisa, sccs , donde la letra identifica la clase a la que pertenece el dominio; los siguientes números enteros identifican el pliegue, la superfamilia y la familia, respectivamente (por ejemplo, a.1.1.2 para la familia "Globin").

Dominios de entrada PDB

Un "TaxId" es el número de identificación de la taxonomía y los enlaces al navegador de taxonomía del NCBI , que proporciona más información sobre la especie a la que pertenece la proteína. Al hacer clic en una especie o isoforma, aparece una lista de dominios. Por ejemplo, la proteína "Hemoglobina, cadena alfa de la proteína humana (Homo sapiens)" tiene> 190 estructuras proteicas resueltas, como 2dn3 (complejado con cmo) y 2dn1 (complejado con hem, mbn, oxy). Se supone que al hacer clic en los números de PDB se muestra la estructura de la molécula, pero los enlaces están actualmente rotos (los enlaces funcionan en pre-SCOP).

Ejemplo

La mayoría de las páginas de SCOP contienen un cuadro de búsqueda. Al ingresar "tripsina + humana" se recuperan varias proteínas, incluida la proteína tripsinógeno de los humanos. Al seleccionar esa entrada, se muestra una página que incluye el "linaje", que se encuentra en la parte superior de la mayoría de las páginas de SCOP.

Linaje tripsonógeno humano
  1. Raíz: scop
  2. Clase: todas las proteínas beta [48724]
  3. Pliegue: serina proteasas similares a tripsina [50493]
    barril, cerrado; n = 6, S = 8; clave griega
    duplicación: consta de dos dominios del mismo pliegue
  4. Superfamilia: serina proteasas similares a tripsina [50494]
  5. Familia: proteasas eucariotas [50514]
  6. Proteína: tripsina (ogen) [50515]
  7. Especie: Humano (Homo sapiens) [TaxId: 9606] [50519]

La búsqueda de "Subtilisina" devuelve la proteína, "Subtilisina de Bacillus subtilis, carlsberg", con el siguiente linaje.

Subtilisina de Bacillus subtilis, linaje carlsberg
  1. Raíz: scop
  2. Clase: Proteínas alfa y beta (a / b) [51349]
    Principalmente hojas beta paralelas (unidades beta-alfa-beta)
  3. Pliegue: similar a la subtilisina [52742]
    3 capas: a / b / a, hoja beta paralela de 7 hilos, pedido 2314567; Conexión cruzada para zurdos entre los hilos 2 y 3
  4. Superfamilia: similar a la subtilisina [52743]
  5. Familia: Subtilases [52744]
  6. Proteína: subtilisina [52745]
  7. Especie: Bacillus subtilis, carlsberg [TaxId: 1423] [52746]

Aunque ambas proteínas son proteasas, ni siquiera pertenecen al mismo pliegue, lo que es consistente con que sean un ejemplo de evolución convergente .

Comparación con otros sistemas de clasificación

La clasificación SCOP depende más de decisiones manuales que la clasificación semiautomática de CATH , su principal rival. La experiencia humana se utiliza para decidir si ciertas proteínas son evolutiva relacionada y por lo tanto debe ser asignado a la misma superfamilia , o su similitud es el resultado de limitaciones estructurales y por lo tanto pertenecen a la misma pliegue . Otra base de datos, FSSP , se genera de forma puramente automática (incluidas las actualizaciones automáticas periódicas), pero no ofrece ninguna clasificación, lo que permite al usuario sacar su propia conclusión sobre la importancia de las relaciones estructurales basadas en las comparaciones por pares de estructuras de proteínas individuales.

Sucesores de SCOP

Para 2009, la base de datos SCOP original clasificó manualmente 38.000 entradas de PDB en una estructura estrictamente jerárquica. Con el ritmo acelerado de las publicaciones sobre estructuras de proteínas, la automatización limitada de la clasificación no pudo mantenerse al día, lo que llevó a un conjunto de datos no completo. La base de datos Structural Classification of Proteins extended (SCOPe) se lanzó en 2012 con una automatización mucho mayor del mismo sistema jerárquico y es totalmente compatible con la versión 1.75 de SCOP. En 2014, se reintrodujo la curación manual en SCOPe para mantener una asignación de estructura precisa. A febrero de 2015, SCOPe 2.05 clasificó 71,000 de las 110,000 entradas totales del AP.

El prototipo SCOP2 era una versión beta de la clasificación estructural de proteínas y el sistema de clasificación que tenía como objetivo aumentar la complejidad evolutiva inherente a la evolución de la estructura de las proteínas. Por lo tanto, no es una jerarquía simple, sino una red de gráficos acíclicos dirigidos que conecta superfamilias de proteínas que representan relaciones estructurales y evolutivas como permutaciones circulares , fusión de dominios y desintegración de dominios. En consecuencia, los dominios no están separados por límites fijos estrictos, sino que están definidos por sus relaciones con las otras estructuras más similares. El prototipo se utilizó para el desarrollo de la base de datos SCOP versión 2. La versión 2 de SCOP, lanzada en enero de 2020, contiene 5134 familias y 2485 superfamilias en comparación con 3902 familias y 1962 superfamilias en SCOP 1.75. Los niveles de clasificación organizan más de 41 000 dominios no redundantes que representan más de 504 000 estructuras de proteínas.

La base de datos de la clasificación evolutiva de dominios de proteínas (ECOD) publicada en 2014 es similar a la expansión SCOPe de la versión 1.75 de SCOP. A diferencia del SCOPe compatible, cambia el nombre de la jerarquía class-fold-superfamily-family a una agrupación de arquitectura-X-homología-topología-familia (A-XHTF), con el último nivel definido principalmente por Pfam y complementado por agrupaciones de HHsearch para secuencias no categorizadas . ECOD tiene la mejor cobertura de PDB de los tres sucesores: cubre todas las estructuras de PDB y se actualiza quincenalmente. El mapeo directo a Pfam ha demostrado ser útil para los curadores de Pfam que usan la categoría de nivel de homología para complementar su agrupación de "clanes".

Ver también

Referencias

enlaces externos