Rastreo común - Common Crawl
Tipo de negocio | 501 (c) (3) sin fines de lucro |
---|---|
Disponible en | inglés |
Sede | San Francisco, California ; Los Ángeles, California , Estados Unidos |
Fundador (es) | Gil Elbaz |
Gente clave | Peter Norvig , Nova Spivack , Carl Malamud , Kurt Bollacker Joi Ito |
URL | commoncrawl |
Common Crawl es una organización sin fines de lucro 501 (c) (3) que rastrea la web y proporciona gratuitamente sus archivos y conjuntos de datos al público. El archivo web de Common Crawl consta de petabytes de datos recopilados desde 2011. Por lo general, completa los rastreos todos los meses.
Common Crawl fue fundada por Gil Elbaz . Los asesores de la organización sin fines de lucro incluyen a Peter Norvig y Joi Ito . Los rastreadores de la organización respetan las políticas nofollow y robots.txt . El código fuente abierto para procesar el conjunto de datos de Common Crawl está disponible públicamente.
Historia
Amazon Web Services comenzó a alojar el archivo de Common Crawl a través de su programa de Conjuntos de datos públicos en 2012.
La organización comenzó a publicar archivos de metadatos y la salida de texto de los rastreadores junto con los archivos .arc en julio de ese año. Los archivos de Common Crawl solo habían incluido archivos .arc anteriormente.
En diciembre de 2012, blekko donó a Common Crawl los metadatos del motor de búsqueda que blekko recopiló de los rastreos que realizó de febrero a octubre de 2012. Los datos donados ayudaron a Common Crawl a "mejorar su rastreo y evitar el spam, la pornografía y la influencia del SEO excesivo ".
En 2013, Common Crawl comenzó a utilizar el rastreador web Nutch de Apache Software Foundation en lugar de un rastreador personalizado. Common Crawl pasó de utilizar archivos .arc a archivos .warc con su rastreo de noviembre de 2013.
Se usó una versión filtrada de Common Crawl para entrenar el modelo de lenguaje GPT-3 de OpenAI , anunciado en 2020. Un desafío de usar los datos de Common Crawl es que a pesar de la gran cantidad de datos web documentados, las partes individuales de sitios web rastreados podrían documentarse mejor. Esto puede crear desafíos al intentar diagnosticar problemas en proyectos que utilizan los datos de Common Crawl. Una solución propuesta por Timnit Gebru, et al., En 2020 a un déficit de documentación en toda la industria es que cada conjunto de datos debe ir acompañado de una hoja de datos que documente su motivación, composición, proceso de recopilación y usos recomendados.
Historial de datos de rastreo común
Los siguientes datos se han recopilado del blog oficial de Common Crawl.
Fecha de rastreo | Tamaño en TiB | Miles de millones de páginas | Comentarios |
---|---|---|---|
Abril de 2021 | 320 | 3.1 | |
Noviembre de 2018 | 220 | 2.6 | |
Octubre de 2018 | 240 | 3,0 | |
Septiembre de 2018 | 220 | 2.8 | |
Agosto de 2018 | - | - | |
Julio de 2018 | 255 | 3,25 | |
Junio de 2018 | 235 | 3,05 | |
Mayo de 2018 | 215 | 2,75 | |
Abril de 2018 | 230 | 3.1 | |
Marzo de 2018 | 250 | 3.2 | |
Febrero de 2018 | 270 | 3.4 | |
Enero de 2018 | 270 | 3.4 | |
Diciembre de 2017 | 240 | 2.9 | |
Noviembre de 2017 | 260 | 3.2 | |
Octubre de 2017 | 300 | 3,65 | |
Septiembre de 2017 | 250 | 3,01 | |
Agosto de 2017 | 280 | 3,28 | |
Julio de 2017 | 240 | 2,89 | |
Junio de 2017 | 260 | 3,16 | |
Mayo de 2017 | 250 | 2,96 | |
Abril de 2017 | 250 | 2,94 | |
Marzo de 2017 | 250 | 3,07 | |
Febrero de 2017 | 250 | 3,08 | |
Enero de 2017 | 250 | 3,14 | |
Diciembre de 2016 | - | 2,85 | |
Octubre de 2016 | - | 3,25 | |
Septiembre de 2016 | - | 1,72 | |
Agosto de 2016 | - | 1,61 | |
Julio de 2016 | - | 1,73 | |
Junio de 2016 | - | 1,23 | |
Mayo de 2016 | - | 1,46 | |
Abril de 2016 | - | 1,33 | |
Febrero de 2016 | - | 1,73 | |
Noviembre de 2015 | 151 | 1,82 | |
Septiembre de 2015 | 106 | 1,32 | |
Agosto de 2015 | 149 | 1,84 | |
Julio de 2015 | 145 | 1,81 | |
Junio de 2015 | 131 | 1,67 | |
Mayo de 2015 | 159 | 2,05 | |
Abril de 2015 | 168 | 2.11 | |
Marzo de 2015 | 124 | 1,64 | |
Febrero de 2015 | 145 | 1,9 | |
Enero de 2015 | 139 | 1,82 | |
Diciembre de 2014 | 160 | 2,08 | |
Noviembre de 2014 | 135 | 1,95 | |
Octubre de 2014 | 254 | 3,7 | |
Septiembre de 2014 | 220 | 2.8 | |
Agosto de 2014 | 200 | 2.8 | |
Julio de 2014 | 266 | 3.6 | |
Abril de 2014 | 183 | 2.6 | |
Marzo del 2014 | 223 | 2.8 | Primer rastreo de Nutch |
Enero 2014 | 148 | 2.3 | Rastreos realizados mensualmente |
Noviembre de 2013 | 102 | 2 | Datos en formato de archivo Warc |
Julio de 2012 | - | - | Datos en formato de archivo Arc |
Enero de 2012 | - | - | Conjunto de datos públicos de Amazon Web Services |
Noviembre de 2011 | 40 | 5 | Primera disponibilidad en Amazon |
Premio Norvig Web Data Science
En corroboración con SURFsara , Common Crawl patrocina el premio Norvig Web Data Science Award, un concurso abierto a estudiantes e investigadores del Benelux . El premio lleva el nombre de Peter Norvig, quien también preside el comité de jueces del premio.
Referencias
enlaces externos
- Common Crawl en California, Estados Unidos
- Repositorio de GitHub de rastreo común con el rastreador, bibliotecas y código de ejemplo
- Grupo de discusión de rastreo común
- Blog de rastreo común