GenBank - GenBank

GenBank
Contenido
Descripción Secuencias de nucleótidos para más de 300.000 organismos con anotaciones bibliográficas y biológicas de apoyo.
Tipos de datos
capturados
Organismos Todos
Contacto
Centro de Investigación NCBI
Cita primaria PMID  21071399
Fecha de lanzamiento 1982 ; Hace 39 años ( 1982 )
Acceso
Formato de datos
Sitio web NCBI
URL de descarga ncbi ftp
URL del servicio web
Instrumentos
Web EXPLOSIÓN
Ser único EXPLOSIÓN
Diverso
Licencia Poco claro

La base de datos de secuencias de GenBank es una colección anotada de acceso abierto de todas las secuencias de nucleótidos disponibles públicamente y sus traducciones de proteínas . Es producido y mantenido por el Centro Nacional de Información Biotecnológica (NCBI; una parte de los Institutos Nacionales de Salud de los Estados Unidos ) como parte de la Colaboración Internacional de Base de Datos de Secuencias de Nucleótidos (INSDC).

GenBank y sus colaboradores reciben secuencias producidas en laboratorios de todo el mundo a partir de más de 100.000 organismos distintos . La base de datos comenzó en 1982 por Walter Goad y el Laboratorio Nacional de Los Alamos . GenBank se ha convertido en una base de datos importante para la investigación en campos biológicos y ha crecido en los últimos años a un ritmo exponencial al duplicarse aproximadamente cada 18 meses.

La versión 242.0, producida en febrero de 2021, contenía más de 12 billones de bases de nucleótidos en más de 2 mil millones de secuencias. GenBank se crea mediante presentaciones directas de laboratorios individuales, así como a partir de presentaciones masivas de centros de secuenciación a gran escala .

Envíos

Solo se pueden enviar secuencias originales a GenBank. Las presentaciones directas se realizan a GenBank utilizando BankIt , que es un formulario basado en la web, o el programa de presentación independiente, Sequin . Al recibir una presentación de secuencia, el personal de GenBank examina la originalidad de los datos, asigna un número de acceso a la secuencia y realiza controles de garantía de calidad. A continuación, los envíos se envían a la base de datos pública, donde Entrez puede recuperar las entradas o descargarlas mediante FTP . Los envíos masivos de datos de etiqueta de secuencia expresada (EST), sitio etiquetado de secuencia (STS), secuencia de estudio del genoma (GSS) y secuencia de genoma de alto rendimiento (HTGS) suelen ser enviados por centros de secuenciación a gran escala. El grupo de presentaciones directas de GenBank también procesa secuencias completas del genoma microbiano.

Historia

Walter Goad de la Biología Teórica y del Grupo de Biofísica en el Laboratorio Nacional de Los Alamos y otros establecieron la base de datos de secuencias de Los Alamos en 1979, que culminó en 1982 con la creación del GenBank público. Los fondos fueron proporcionados por los Institutos Nacionales de Salud , la Fundación Nacional de Ciencias, el Departamento de Energía y el Departamento de Defensa. LANL colaboró ​​en GenBank con la firma Bolt, Beranek y Newman , y a fines de 1983 se almacenaron en él más de 2.000 secuencias.

A mediados de la década de 1980, la empresa de bioinformática Intelligenetics de la Universidad de Stanford gestionó el proyecto GenBank en colaboración con LANL. Como uno de los primeros proyectos comunitarios de bioinformática en Internet, el proyecto GenBank inició los grupos de noticias BIOSCI / Bionet para promover las comunicaciones de acceso abierto entre los biocientíficos. Durante 1989 a 1992, el proyecto GenBank pasó al recién creado Centro Nacional de Información Biotecnológica .

Genbank y EMBL: NucleotideSequences 1986/1987 Volúmenes I a VII.
CDRom de Genbank v100

Crecimiento

Crecimiento de pares de bases de GenBank, 1982 a 2018, en una escala semilogarítmica

Las notas de la versión de GenBank para la versión 162.0 (octubre de 2007) establecen que "desde 1982 hasta el presente, el número de bases en GenBank se ha duplicado aproximadamente cada 18 meses". A 15 de junio de 2019, la versión 232.0 de GenBank tiene 213,383,758 loci , 329,835,282,370 bases, de 213,383,758 secuencias reportadas.

La base de datos de GenBank incluye conjuntos de datos adicionales que se construyen mecánicamente a partir de la recopilación de datos de la secuencia principal y, por lo tanto, se excluyen de este recuento.

Principales organismos en GenBank (versión 191)
Organismo pares de bases
Homo sapiens 1,6310774187 × 10 10^
Mus musculus 9,974977889 × 10 9^
Rattus norvegicus 6.521253272 × 10 9^
Bos tauro 5.386258455 × 10 9^
Zea mays 5.062731057 × 10 9^
Sus scrofa 4.88786186 × 10 9^
Danio rerio 3.120857462 × 10 9^
Strongylocentrotus purpuratus 1.435236534 × 10 9^
Macaca mulata 1,256203101 × 10 9^
Grupo Oryza sativa Japonica 1.255686573 × 10 9^
Nicotiana tabacum 1.197357811 × 10 9^
Xenopus (Silurana) tropicalis 1,249938611 × 10 9^
Drosophila melanogaster 1.11996522 × 10 9^
Pan trogloditas 1,008323292 × 10 9^
Arabidopsis thaliana 1.144226616 × 10 9^
Canis lupus familiaris 951,238,343
Vitis vinifera 999,010,073
Gallus gallus 899,631,338
Glycine max 906,638,854
Triticum aestivum 898,689,329

Identificaciones incompletas

Las bases de datos públicas en las que se pueden realizar búsquedas utilizando la herramienta de búsqueda de alineación local básica del Centro Nacional de Información Biotecnológica (NCBI BLAST) carecen de secuencias revisadas por pares de cepas tipo y secuencias de cepas no tipo. Por otro lado, aunque las bases de datos comerciales contienen potencialmente datos de secuencia filtrados de alta calidad, hay un número limitado de secuencias de referencia.

Un artículo publicado en el Journal of Clinical Microbiology evaluó los resultados de la secuenciación del gen 16S rRNA analizados con GenBank junto con otras bases de datos públicas basadas en la web, de calidad controlada y de acceso gratuito, como las bases de datos EzTaxon -e y BIBI. Los resultados mostraron que los análisis realizados utilizando GenBank combinado con EzTaxon -e (kappa = 0,79) fueron más discriminativos que utilizando GenBank (kappa = 0,66) u otras bases de datos solas.

GenBank, al ser una base de datos pública, puede contener secuencias asignadas incorrectamente a una especie en particular, porque la identificación inicial del organismo fue incorrecta. Un artículo reciente, publicado en Genome (revista) , mostró que el 75% de las secuencias de la subunidad I de la citocromo c oxidasa mitocondrial se asignaron incorrectamente al mesoprión del pez Nemipterus como resultado del uso continuo de secuencias de individuos inicialmente identificados erróneamente. Los autores brindan recomendaciones sobre cómo evitar una mayor distribución de secuencias disponibles públicamente con nombres científicos incorrectos.

Ver también

Referencias


enlaces externos