Corpus Nacional Británico - British National Corpus

El British National Corpus ( BNC ) es una de 100 millones de palabras de texto corpus de muestras de hablado y escrito Inglés a partir de una amplia gama de fuentes. El corpus abarca el inglés británico de finales del siglo XX de una amplia variedad de géneros , con la intención de que sea una muestra representativa del inglés británico hablado y escrito de esa época.

Historia

El proyecto para crear el BNC contó con la colaboración de tres editoriales (con Oxford University Press como colaborador principal, Longman y W. & R. Chambers ), dos universidades (la Universidad de Oxford y la Universidad de Lancaster ) y la Biblioteca Británica . La creación del BNC comenzó en 1991 bajo la dirección del consorcio BNC, y el proyecto se terminó en 1994. No se han agregado nuevas muestras después de 1994, pero el BNC se sometió a ligeras revisiones antes del lanzamiento de la segunda edición de BNC World. (2001) y la tercera edición BNC XML Edition (2007).

El BNC fue la visión de los lingüistas computacionales cuyo objetivo era un corpus de lenguaje moderno (en el momento de construir el corpus), natural en forma de habla y texto o escritura que pudiera ser analizado por una computadora. Por lo tanto, se compiló como un corpus general para allanar el camino para la búsqueda y el procesamiento automáticos en el campo de la lingüística de corpus . Una de las formas en que el BNC debía diferenciarse de los corpus existentes en ese momento era abrir los datos no solo a la investigación académica, sino también a usos comerciales y educativos.

El corpus se restringió solo al inglés británico y no se extendió para cubrir los ingleses mundiales . Esto se debió en parte a que una parte significativa del costo del proyecto estaba siendo financiado por el gobierno británico, que estaba lógicamente interesado en la documentación de respaldo de su propia variedad lingüística . Debido a su tamaño potencialmente sin precedentes, el BNC también requirió fondos de las instituciones comerciales y académicas. A su vez, los datos de BNC estuvieron disponibles para la investigación comercial y académica.

Descripción

El BNC es un corpus monolingüe, ya que registra muestras de lenguaje de uso en Inglés británico solamente, aunque en ocasiones, palabras y frases de otros idiomas también pueden estar presentes. Es un corpus sincrónico , ya que solo se representa el uso del lenguaje de finales del siglo XX; el BNC no pretende ser un registro histórico del desarrollo del inglés británico a lo largo de los siglos. Desde el principio, los involucrados en la recopilación de datos escritos buscaron hacer del BNC un corpus equilibrado y, por lo tanto, buscaron datos en varios medios.

Componentes y contenido

Estructura BNC

El 90% del BNC son muestras de uso de corpus escrito . Estas muestras fueron extraídas de periódicos regionales y nacionales, revistas de investigación publicadas o publicaciones periódicas de diversos campos académicos, libros de ficción y no ficción, otro material publicado y material inédito como folletos, folletos, cartas, ensayos escritos por estudiantes de diferentes niveles académicos. , discursos, guiones y muchos otros tipos de textos.

El 10% restante del BNC son muestras del uso del lenguaje hablado . Estos se presentan y registran en forma de transcripciones ortográficas. El corpus hablado consta de dos partes: una parte es demográfica , que contiene las transcripciones de conversaciones naturales espontáneas producidas por voluntarios de varios grupos de edad, clases sociales y provenientes de diferentes regiones. Estas conversaciones se produjeron en diferentes situaciones, desde reuniones formales de negocios o gubernamentales hasta conversaciones en programas de radio y llamadas telefónicas. Estos debían dar cuenta tanto de la distribución demográfica del lenguaje hablado como de las variaciones lingüísticamente significativas debido al contexto.

La otra parte incluye muestras regidas por el contexto, como transcripciones de grabaciones realizadas en tipos específicos de reuniones y eventos. Todas las grabaciones originales transcritas para su inclusión en el BNC se han depositado en el British Library Sound Archive . La mayoría de las grabaciones están disponibles gratuitamente en el Laboratorio de Fonética de la Universidad de Oxford .

Subcorpora y etiquetado

Se han publicado dos subcorpora (subconjuntos de los datos de BNC): BNC Baby y BNC Sampler. Ambos subcorpora se pueden solicitar en línea a través de la página web de BNC. BNC Baby es un subcorpus de BNC que consta de cuatro conjuntos de muestras, cada una de las cuales contiene un millón de palabras etiquetadas como están en el propio BNC. Las palabras en cada conjunto de muestra corresponden a una etiqueta de género específica . Un conjunto de muestra contiene conversación hablada y los otros tres conjuntos de muestra contienen texto escrito: escritura académica , ficción y periódicos, respectivamente. Se ha lanzado la última (tercera) edición y viene en formato XML. El BNC Sampler es un subcorpora de dos partes, una parte para datos escritos y hablados; cada parte contiene un millón de palabras. El BNC Sampler se utilizó originalmente en un proyecto para averiguar cómo mejorar el proceso de etiquetado del BNC, lo que finalmente condujo a la edición BNC World. A lo largo del proyecto, el BNC Sampler se mejoró con una experiencia y un conocimiento cada vez mayores para que el etiquetado llegara a su forma actual.

El corpus BNC ha sido etiquetado para información gramatical ( parte del discurso ). El sistema de etiquetado, llamado CLAWS, pasó por mejoras para producir el último sistema CLAWS4, que se utiliza para etiquetar el BNC. CLAWS1 se basó en un modelo de Markov oculto y, cuando se empleó en el etiquetado automático, logró etiquetar con éxito entre el 96% y el 97% de cada texto analizado. CLAWS1 se actualizó a CLAWS2 eliminando la necesidad de procesamiento manual para preparar los textos para el etiquetado automático. La última versión, CLAWS4, incluye mejoras como capacidades más poderosas de desambiguación del sentido de las palabras (WSD) y la capacidad de lidiar con la variación en la ortografía y el lenguaje de marcado . El trabajo posterior en el sistema de etiquetado buscó aumentar las tasas de éxito en el etiquetado automático y reducir el trabajo necesario para el procesamiento manual, mientras se mantiene la efectividad y la eficiencia mediante la introducción de software para reemplazar parte del trabajo manual. Posteriormente, se introdujo un nuevo programa llamado "Template Tagger" para una función correctiva. Posteriormente se agregaron etiquetas que indicaban ambigüedad. El etiquetado manual sigue siendo necesario, ya que CLAWS4 todavía no puede tratar con palabras extranjeras.

TEI y acceso

El corpus está marcado siguiendo las recomendaciones de la Iniciativa de codificación de texto (TEI) e incluye anotaciones lingüísticas completas e información contextual. La licencia para el etiquetador de parte del discurso CLAWS4 se puede comprar para usar el etiquetador. Alternativamente, se ofrece un servicio de etiquetado en la Universidad de Lancaster . El propio BNC puede solicitarse con una licencia personal o institucional. La edición disponible es la edición BNC XML y viene con el software del motor de búsqueda Xaira . Los pedidos se pueden realizar a través del sitio web de BNC. Se ha desarrollado un administrador de corpus en línea , BNCweb, para la edición BNC XML. La interfaz está diseñada para ser fácil de usar y el programa ofrece características de consulta y funciones para el análisis de corpus. Los usuarios pueden recuperar resultados y datos de búsquedas y análisis.

Problemas de permisos

El BNC fue el primer corpus de texto de su tamaño que se difundió ampliamente. Esto podría atribuirse a las formas estándar de acuerdo, entre los titulares de derechos y el Consorcio por un lado, y entre los usuarios del corpus y el Consorcio por el otro. Se solicitó a los propietarios de los derechos de propiedad intelectual su acuerdo con la licencia estándar, incluida la voluntad de incorporar sus materiales en el corpus sin ningún cargo. Este arreglo puede haber sido facilitado por la originalidad del concepto y la prominencia asociada con el proyecto. Sin embargo, fue un desafío mantener oculta la identidad de los contribuyentes sin desacreditar el valor de su trabajo. Se eliminó en gran medida cualquier alusión distinta a la identidad de los contribuyentes; Se discutió la solución alternativa de sustituir la identidad de un contribuyente con un nombre diferente, pero no se consideró factible.

Además, anteriormente se había pedido a los contribuyentes que solo incorporaran versiones transcritas de su discurso y no el discurso en sí. Si bien se pudo solicitar nuevamente el permiso de los contribuyentes iniciales, la falta de éxito en el proceso de anonimización significó que sería un desafío buscar materiales de los contribuyentes iniciales. Al mismo tiempo, dos factores agravaron la falta de voluntad de los titulares de derechos para donar sus materiales: los textos completos debían ser excluidos y no había motivación para que diseminaran información utilizando el corpus, particularmente porque el corpus opera sin fines comerciales. .

Problemas y limitaciones

Categorías

Para 2001, el BNC todavía no tenía una categorización de texto para los textos escritos más allá de la del dominio, y ninguna categorización para los textos hablados, excepto por contexto y clases demográficas o socioeconómicas . Por ejemplo, en el BNC se incluyó una amplia variedad de textos imaginativos ( novelas , cuentos , poemas y guiones dramáticos), pero tales inclusiones se consideraron inútiles ya que los investigadores no pudieron recuperar fácilmente los subgéneros en los que querían trabajar (p. Ej. , poesía). Debido a que estos metadatos se omitieron en los encabezados de los archivos y en toda la documentación de BNC, no había forma de saber si un texto "imaginativo" realmente provenía de una novela, un cuento, un guión dramático o una colección de poemas, a menos que el título realmente incluyera palabras como "novela" o "poema").

Con la introducción en 2002 de una nueva versión, la BNC World Edition, BNC intentó solucionar este problema. Además del dominio, ahora hay 70 categorías de género para datos tanto hablados como escritos, por lo que los investigadores ahora pueden recuperar textos específicamente por género. Sin embargo, incluso después de estas adiciones, la implementación sigue siendo complicada, ya que asignar un género o subgénero a un texto no es sencillo. Las divisiones son menos claras para los datos hablados que para los datos escritos, ya que hubo más variación en el tema y la ejecución. Además, siempre habrá posibles subconjuntos de géneros de cada subgénero. La medida en que se subdividen los géneros está predeterminada por el bien de un valor predeterminado, pero los investigadores tienen la opción de hacer las divisiones más generales o específicas de acuerdo con sus necesidades. La categorización también es un problema, ya que ciertos textos, aunque se considera que pertenecen a un género interdisciplinario como la lingüística, incluyen contenido que posteriormente se clasifica en categorías de artes o ciencias debido a la naturaleza de su contenido.

Clasificación y discurso

Algunos textos se clasificaron en la categoría incorrecta, generalmente debido a un título engañoso. Los usuarios no siempre pueden confiar en los títulos de los archivos como indicaciones de su contenido real: por ejemplo, muchos textos con "conferencia" en su título son en realidad discusiones en el aula o seminarios tutoriales que involucran a un grupo muy pequeño de personas, o fueron conferencias populares (dirigidas a una audiencia general en lugar de a estudiantes de una institución de educación superior). Una razón es que las etiquetas de género y subgénero solo se pueden asignar a la mayoría de los textos de una categoría. Hay subgéneros dentro de los géneros, y para cada texto el contenido puede no ser uniforme y puede abarcar múltiples subgéneros. Además, las presiones de producción junto con información insuficiente llevaron a decisiones apresuradas, lo que resultó en inexactitudes e inconsistencias en los registros.

La proporción de material escrito y hablado en el BNC es de 10: 1, lo que hace que el material hablado esté subrepresentado. Esto se debe a que el costo de recopilar y transcribir un millón de palabras del habla natural es al menos 10 veces mayor que el costo de agregar otro millón de palabras de texto de periódico. Algunos lingüistas han argumentado que esto representa una deficiencia en el corpus, ya que el habla y la escritura son igualmente importantes en un idioma. El BNC no es ideal para el estudio de muchas características del discurso hablado, ya que la mayoría de sus transcripciones son ortográficas . Las características paraingüísticas solo se indican de forma aproximada.

Limitaciones y apropiaciones indebidas

A pesar de ser una excelente fuente de información léxica , el BNC solo puede usarse realmente para estudiar un conjunto limitado de patrones gramaticales, particularmente aquellos que tienen correlatos léxicos distintivos. Si bien es bastante fácil encontrar todas las apariciones de "enjoy" y ordenarlas de acuerdo con la categoría de la parte gramatical de la siguiente palabra, se requiere un trabajo adicional para encontrar todos los casos de verbos seguidos de un gerundio , ya que El índice SARA del BNC no incluye categorías de partes gramaticales como "todos los verbos" o "todas las formas V-ing".

Algunos correlatos léxicos también son demasiado ambiguos para permitir su uso en consultas: cualquier búsqueda de cláusulas relativas restrictivas proporcionaría al usuario datos irrelevantes, dado el número de otros usos de los pronombres wh- y de eso en el idioma (sin mencionar la imposibilidad de identificar cláusulas de relativo con supresión de pronombres, como en "el hombre que vi"). Las categorías semánticas y pragmáticas particulares (duda, conocimiento, desacuerdos, resúmenes, etc.) son difíciles de ubicar por la misma razón. Esto significa, por ejemplo, que si bien uno puede comparar el habla de los hombres y de las mujeres, no se puede comparar el habla de las mujeres y de los hombres.

La naturaleza del BNC como un gran corpus mixto lo hace inadecuado para el estudio de tipos de texto o géneros muy específicos, ya que es probable que cualquiera de ellos esté representado de manera inadecuada y no sea reconocible a partir de la codificación. Por ejemplo, hay muy pocas cartas comerciales y encuentros de servicios en el BNC, y quienes deseen explorar sus convenciones específicas harían mejor en compilar un pequeño corpus que incluya solo textos de ese tipo.

Usos

Educación del idioma inglés

Hay dos formas generales de utilizar el material del corpus en la enseñanza de idiomas.

En primer lugar, los editores e investigadores podrían utilizar muestras de corpus para crear referencias de aprendizaje de idiomas, programas de estudios y otras herramientas o materiales relacionados. Por ejemplo, el BNC fue utilizado por un grupo de investigadores japoneses como una herramienta en la creación de un sitio web de aprendizaje del idioma inglés para estudiantes de inglés con fines específicos (ESP). El sitio web permitió a los estudiantes de inglés descargar patrones de oraciones que se escuchan y usan con frecuencia, y luego basar su propio uso del idioma inglés en estos patrones de oraciones. El BNC sirvió como fuente de la que se extrajeron las expresiones de uso frecuente. Por lo tanto, al utilizar este sitio web, los usuarios se basaron en muestras de referencia del BNC para guiarlos en su aprendizaje del idioma inglés. Esta creación de materiales que facilitan el aprendizaje de idiomas normalmente implica el uso de corpus muy grandes (comparables al tamaño del BNC), así como software y tecnología avanzados. Se invierte una gran cantidad de dinero, tiempo y experiencia en el campo de la lingüística computacional en el desarrollo de dicho material de aprendizaje de idiomas.

En segundo lugar, el análisis del corpus puede incorporarse directamente al entorno de enseñanza y aprendizaje de idiomas. Con este método, los estudiantes de idiomas tienen la oportunidad de clasificar los datos del idioma del corpus y, posteriormente, sacar conclusiones sobre los patrones y características de su idioma de destino a partir de sus categorizaciones. Este método implica una mayor cantidad de trabajo por parte de los que aprenden el lenguaje y Tim Johns lo denomina “aprendizaje basado en datos”. Los datos del corpus utilizados para el aprendizaje basado en datos son relativamente más pequeños y, en consecuencia, las generalizaciones hechas sobre el idioma de destino pueden tener un valor limitado. En general, el BNC es útil como fuente de referencia para producir y percibir texto. El BNC se puede utilizar como fuente de referencia al estudiar el uso de palabras individuales en varios contextos, de modo que los alumnos se familiaricen con las diferentes formas de usar palabras particulares en contextos adecuados. Además de la información relacionada con el idioma, también se encuentra información enciclopédica en el BNC. Los estudiantes que examinan los datos del BNC también conocen las características y estereotipos culturales británicos .

Diccionarios, pruebas y evaluación bilingües

El BNC fue la fuente de más de 12.000 palabras y frases utilizadas para la producción de una variedad de diccionarios bilingües en la India en 2012, traduciendo 22 idiomas locales al inglés. Esto fue parte de un movimiento más amplio para impulsar mejoras en la educación, la preservación de las lenguas vernáculas de la India y el desarrollo del trabajo de traducción . El gran tamaño del BNC proporciona un recurso a gran escala para probar programas. Se ha utilizado como banco de pruebas para las directrices de la Iniciativa de codificación de texto (TEI). El BNC también se ha utilizado para proporcionar 20 millones de palabras para evaluar los sistemas de adquisición de subcategorización en inglés para la iniciativa Senseval para el análisis computacional del significado.

Investigar

Evidencia de colocación del British National Corpus

Hoffman y Lehmann (2000) exploraron los mecanismos detrás de la capacidad de los hablantes para manipular su gran inventario de colocaciones que están listas para usar y pueden expandirse gramatical o sintácticamente fácilmente para adaptarse a la situación del habla actual. Las combinaciones de palabras que ocurren en baja frecuencia se extrajeron del BNC para ofrecer una idea de ello.

Comportamiento de colocación del hombre y la mujer

Pearce (2008) examinó la representación de hombres y mujeres en este corpus utilizando Sketch Engine . La herramienta de consulta de corpus se utilizó para explorar el comportamiento gramatical de los lemas sustantivos "hombre" y "mujer" (es decir, los sustantivos "hombre" / "hombres" y "mujer" / "mujeres").

Expresiones sin sentencia: un estudio de corpus

Fernandez & Ginzburg (2002) investigaron el diálogo que incluía enunciados no sentientes usando el BNC.

Un curso de EAP basado en corpus para estudiantes de doctorado de NNS

Lee y Swales (2006) diseñaron un curso experimental en inglés basado en corpus para fines académicos (EAP) para estudiantes de doctorado en el English Language Institute (ELI) de la Universidad de Michigan en los EE. UU.

Los participantes utilizaron tres corpus principales como base de sus investigaciones: Hyland's Research Article Corpus, Michigan Corpus of Academic Spoken English (MICASE) y textos académicos del BNC.

Trabajo futuro

Procesamiento morfológico

Como parte del trabajo en curso sobre el procesamiento morfológico, un área clave del procesamiento del lenguaje natural (NLP), se utilizaron datos del BNC para probar la precisión, confiabilidad y rapidez de las herramientas computacionales desarrolladas para facilitar el análisis y procesamiento de marcadores morfológicos en inglés británico. . Las herramientas computacionales involucraban un programa que permitía el análisis de la morfología flexional en inglés británico (conocido como analizador) y un programa que generaba marcas morfológicas basadas en el análisis del analizador. Los datos del BNC también se utilizaron para crear un depósito extenso de información sobre los marcadores morfológicos del inglés británico. En particular, se extrajeron aproximadamente 1.100 lemas del BNC y se compilaron en una lista de verificación que fue consultada por el generador morfológico antes de que los verbos que permitían la duplicación de consonantes se declinaran con precisión. Dado que el BNC representa un esfuerzo reconocible para recopilar y posteriormente procesar una cantidad tan grande de datos, se ha convertido en un precursor influyente en el campo y en un modelo o corpus ejemplar en el que se basó el desarrollo de corpus posteriores.

BNC2014

En julio de 2014, Cambridge University Press y el Center for Corpus Approaches to Social Science (CASS) anunciaron en la Universidad de Lancaster que se estaba compilando un nuevo British National Corpus, el BNC2014. La primera etapa del proyecto de colaboración entre las dos instituciones fue compilar un nuevo corpus hablado de inglés británico desde principios hasta mediados de la década de 2010. El 25 de septiembre de 2017 se lanzó al público el Corpus Nacional Británico Hablado de 11,5 millones de palabras de 2014. El componente escrito de 100 millones de palabras del BNC2014 se está compilando actualmente y está programado para ser lanzado al público en el otoño de 2018.

Languages

In other projects