Formato de Estocolmo - Stockholm format

Formato de Estocolmo
Extensiones de nombre de archivo	.sto, .stk
Tipo de medio de Internet	text/x-stockholm-alignment
Desarrollado por	Erik Sonnhammers
Tipo de formato	Bioinformática
¿ Formato abierto ?	sí
Sitio web	sonnhammer .sbc .su .se / Stockholm .html

El formato de Estocolmo es un formato de alineación de secuencia múltiple utilizado por Pfam y Rfam para diseminar alineaciones de secuencias de proteínas y ARN. Los editores de alineación Ralee , Belvu y Jalview admiten el formato de Estocolmo, al igual que las herramientas de búsqueda de bases de datos probabilísticas , Infernal y HMMER , y la herramienta de análisis filogenético Xrate . Los archivos con formato de Estocolmo a menudo tienen la extensión de nombre de archivo .sto o .stk.

Sintaxis

Un archivo de Estocolmo bien formado siempre contiene un encabezado que indica el formato y el identificador de versión, actualmente ' # STOCKHOLM 1.0'. Luego, el encabezado es seguido por varias líneas, una combinación de marcado (comenzando con # ) y secuencias. Finalmente, la //línea " " indica el final de la alineación.

Un ejemplo sin marcado se ve así:

# STOCKHOLM 1.0
#=GF ID   EXAMPLE
<seqname> <aligned sequence>
<seqname> <aligned sequence>
<seqname> <aligned sequence>
//

Las secuencias se escriben una por línea. El nombre de la secuencia se escribe primero y, después de cualquier número de espacios en blanco, se escribe la secuencia. Los nombres de secuencia suelen tener el formato "nombre / inicio-fin" o simplemente "nombre". Las letras de secuencia pueden incluir cualquier carácter excepto espacios en blanco. Los espacios se pueden indicar con " . " O " - ".

Las líneas de marcado comienzan con # . Los "parámetros" están separados por espacios en blanco, por lo que se debe usar un guión bajo ("_") en lugar de un espacio para las marcas de 1 carácter por columna. Los tipos de marcado definidos incluyen:

#=GF <feature> <Generic per-File annotation, free text>
#=GC <feature> <Generic per-Column annotation, exactly 1 char per column>
#=GS <seqname> <feature> <Generic per-Sequence annotation, free text>
#=GR <seqname> <feature> <Generic per-Residue annotation, exactly 1 char per residue>

Caracteristicas recomendadas

Pfam y Rfam utilizan estos nombres de funciones para tipos específicos de anotaciones. (Consulte la documentación de Pfam y Rfam en "Descripción de campos")

# = GF

Pfam y Rfam pueden usar las siguientes etiquetas:

Compulsory fields:
------------------
AC Accession number: Accession number in form PFxxxxx (Pfam) or RFxxxxx (Rfam).
ID Identification: One word name for family.
DE Definition: Short description of family.
AU Author: Authors of the entry.
SE Source of seed: The source suggesting the seed members belong to one family.
SS Source of structure: The source (prediction or publication) of the consensus RNA secondary structure used by Rfam.
BM Build method: Command line used to generate the model
SM Search method: Command line used to perform the search
GA Gathering threshold: Search threshold to build the full alignment.
TC Trusted Cutoff: Lowest sequence score (and domain score for Pfam) of match in the full alignment.
NC Noise Cutoff: Highest sequence score (and domain score for Pfam) of match not in full alignment.
TP Type: Type of family -- presently Family, Domain, Motif or Repeat for Pfam.
-- a tree with roots Gene, Intron or Cis-reg for Rfam.
SQ Sequence: Number of sequences in alignment.

Optional fields:
----------------
DC Database Comment: Comment about database reference.
DR Database Reference: Reference to external database.
RC Reference Comment: Comment about literature reference.
RN Reference Number: Reference Number.
RM Reference Medline: Eight digit medline UI number.
RT Reference Title: Reference Title.
RA Reference Author: Reference Author
RL Reference Location: Journal location.
PI Previous identifier: Record of all previous ID lines.
KW Keywords: Keywords.
CC Comment: Comments.
NE Pfam accession: Indicates a nested domain.
NL Location: Location of nested domains - sequence ID, start and end of insert.
WK Wikipedia link: Wikipedia page
CL Clan: Clan accession
MB Membership: Used for listing Clan membership

For embedding trees:
----------------
NH New Hampshire A tree in New Hampshire eXtended format.
TN Tree ID A unique identifier for the next tree.

Other:
------
FR False discovery Rate: A method used to set the bit score threshold based on the ratio of
expected false positives to true positives. Floating point number between 0 and 1.
CB Calibration method: Command line used to calibrate the model (Rfam only, release 12.0 and later)

Notas: Un árbol puede almacenarse en varias líneas # = GF NH.
Si se almacenan varios árboles en el mismo archivo, cada árbol debe estar precedido por una línea # = GF TN con un identificador de árbol único. Si solo se incluye un árbol, se puede omitir la línea # = GF TN.

# = GS

Rfam y Pfam pueden utilizar estas funciones:

      Feature                    Description
      ---------------------      -----------
      AC <accession>             ACcession number
      DE <freetext>              DEscription
      DR <db>; <accession>;      Database Reference
      OS <organism>              Organism (species)
      OC <clade>                 Organism Classification (clade, etc.)
      LO <look>                  Look (Color, etc.)

# = GR

      Feature   Description            Markup letters
      -------   -----------            --------------
      SS        Secondary Structure    For RNA [.,;<>(){}[]AaBb.-_] --supports pseudoknot and further structure markup (see WUSS documentation) 
                                       For protein [HGIEBTSCX]
      SA        Surface Accessibility  [0-9X] 
                    (0=0%-10%; ...; 9=90%-100%)
      TM        TransMembrane          [Mio]
      PP        Posterior Probability  [0-9*] 
                    (0=0.00-0.05; 1=0.05-0.15; *=0.95-1.00)
      LI        LIgand binding         [*]
      AS        Active Site            [*]
     pAS        AS - Pfam predicted    [*]
     sAS        AS - from SwissProt    [*]
      IN        INtron (in or after)   [0-2]
 
     For RNA tertiary interactions:
     ------------------------------
     tWW       WC/WC        in trans   For basepairs: [<>AaBb...Zz]  For unpaired: [.]
     cWH       WC/Hoogsteen in cis
     cWS       WC/SugarEdge in cis
     tWS       WC/SugarEdge in trans
     notes: (1) {c,t}{W,H,S}{W,H,S} for general format. 
            (2) cWW is equivalent to SS.

# = GC

La lista de características válidas incluye las que se muestran a continuación, así como las mismas características que para # = GR con "_cons" adjuntos, que significa "consenso". Ejemplo: "SS_cons".

      Feature   Description            Description
      -------   -----------            --------------
      RF        ReFerence annotation   Often the consensus RNA or protein sequence is used as a reference
                                       Any non-gap character (e.g. x's) can indicate consensus/conserved/match columns
                                       .'s or -'s indicate insert columns
                                       ~'s indicate unaligned insertions
                                       Upper and lower case can be used to discriminate strong and weakly conserved 
                                       residues respectively
      MM        Model Mask             Indicates which columns in an alignment should be masked, such
                                       that the emission probabilities for match states corresponding to
                                       those columns will be the background distribution.

Notas

No utilice varias líneas con la misma etiqueta # = GC.
Para una sola secuencia, no use varias líneas con la misma etiqueta # = GR. Solo se puede realizar una asignación de función única para cada secuencia.
"X" en SA y SS significa "residuo con estructura desconocida".
Las letras de la proteína SS se toman de DSSP : H = alfa-hélice, G = 3/10-hélice, I = p-hélice, E = hebra extendida, B = residuo en el puente b aislado, T = giro, S = curva , C = bobina / bucle.)
Las letras RNA SS se toman de la notación WUSS (Estructura secundaria de la Universidad de Washington). Los caracteres de paréntesis anidados coincidentes <>, (), [] o {} indican un par de bases. Los símbolos '.', ',' Y ';' indican regiones no emparejadas. Los caracteres coincidentes en mayúsculas y minúsculas del alfabeto inglés indican interacciones de pseudonudo . El nucleótido 5 'dentro del nudo debe estar en mayúsculas y el nucleótido 3' en minúsculas.

Ubicaciones recomendadas

# = GF Por encima de la alineación
# = GC debajo de la alineación
# = GS Por encima de la alineación o justo debajo de la secuencia correspondiente
# = GR Justo debajo de la secuencia correspondiente

Límites de tamaño

No hay límites de tamaño explícitos en ningún campo. Sin embargo, un analizador simple que usa tamaños de campo fijos debería funcionar de manera segura en alineaciones Pfam y Rfam con estos límites:

Longitud de la línea: 10000.
<seqname>: 255.
<característica>: 255.

Ejemplos de

A continuación se muestra un ejemplo simple de una alineación Rfam ( UPSK RNA ) con un pseudonudo en formato de Estocolmo:

# STOCKHOLM 1.0
#=GF ID    UPSK
#=GF SE    Predicted; Infernal 
#=GF SS    Published; PMID 9223489
#=GF RN    [1]
#=GF RM    9223489
#=GF RT    The role of the pseudoknot at the 3' end of turnip yellow mosaic
#=GF RT    virus RNA in minus-strand synthesis by the viral RNA-dependent RNA
#=GF RT    polymerase.
#=GF RA    Deiman BA, Kortlever RM, Pleij CW;
#=GF RL    J Virol 1997;71:5990-5996.

AF035635.1/619-641             UGAGUUCUCGAUCUCUAAAAUCG
M24804.1/82-104                UGAGUUCUCUAUCUCUAAAAUCG
J04373.1/6212-6234             UAAGUUCUCGAUCUUUAAAAUCG
M24803.1/1-23                  UAAGUUCUCGAUCUCUAAAAUCG
#=GC SS_cons                   .AAA....<<<<aaa....>>>>
//

Aquí hay un ejemplo un poco más complejo que muestra el dominio Pfam CBS :

# STOCKHOLM 1.0
#=GF ID CBS
#=GF AC PF00571
#=GF DE CBS domain
#=GF AU Bateman A
#=GF CC CBS domains are small intracellular modules mostly found
#=GF CC in 2 or four copies within a protein.
#=GF SQ 5
#=GS O31698/18-71 AC O31698
#=GS O83071/192-246 AC O83071
#=GS O83071/259-312 AC O83071
#=GS O31698/88-139 AC O31698
#=GS O31698/88-139 OS Bacillus subtilis
O83071/192-246          MTCRAQLIAVPRASSLAEAIACAQKMRVSRVPVYERS
#=GR O83071/192-246 SA  9998877564535242525515252536463774777
O83071/259-312          MQHVSAPVFVFECTRLAYVQHKLRAHSRAVAIVLDEY
#=GR O83071/259-312 SS  CCCCCHHHHHHHHHHHHHEEEEEEEEEEEEEEEEEEE
O31698/18-71            MIEADKVAHVQVGNNLEHALLVLTKTGYTAIPVLDPS
#=GR O31698/18-71 SS    CCCHHHHHHHHHHHHHHHEEEEEEEEEEEEEEEEHHH
O31698/88-139           EVMLTDIPRLHINDPIMKGFGMVINN..GFVCVENDE
#=GR O31698/88-139 SS   CCCCCCCHHHHHHHHHHHHEEEEEEEEEEEEEEEEEH
#=GC SS_cons            CCCCCHHHHHHHHHHHHHEEEEEEEEEEEEEEEEEEH
O31699/88-139           EVMLTDIPRLHINDPIMKGFGMVINN..GFVCVENDE
#=GR O31699/88-139 AS   ________________*____________________
#=GR O31699/88-139 IN   ____________1____________2______0____
//

Ver también

Referencias

enlaces externos

Definición de Erik Sonnhammers del formato de Estocolmo

Languages

In other projects