ISO 639-3 - ISO 639-3

ISO 639-3: 2007 , Códigos para la representación de nombres de idiomas - Parte 3: Código Alpha-3 para una cobertura completa de idiomas , es un estándar internacional para códigos de idiomas en la serie ISO 639 . Define códigos de tres letras para identificar idiomas. La norma fue publicada por la Organización Internacional de Normalización (ISO) el 1 de febrero de 2007.

ISO 639-3 amplía los códigos ISO 639-2 alfa-3 con el objetivo de cubrir todos los lenguajes naturales conocidos . La cobertura de idioma ampliada se basó principalmente en los códigos de idioma utilizados en el Ethnologue (volúmenes 10-14) publicado por SIL International , que ahora es la autoridad de registro para ISO 639-3. Proporciona una enumeración de idiomas lo más completa posible, incluidos vivos y extintos, antiguos y construidos, mayores y menores, escritos y no escritos. Sin embargo, no incluye lenguas reconstruidas como el protoindoeuropeo .

ISO 639-3 está diseñado para usarse como códigos de metadatos en una amplia gama de aplicaciones. Se utiliza ampliamente en sistemas informáticos y de información, como Internet, en los que es necesario admitir muchos idiomas. En archivos y otro almacenamiento de información, se utiliza en sistemas de catalogación, indicando en qué idioma se encuentra un recurso o sobre el que se encuentra. Los códigos también se utilizan con frecuencia en la literatura lingüística y en otros lugares para compensar el hecho de que los nombres de los idiomas pueden ser oscuros o ambiguos.

Encuentra un idioma
Ingrese un código ISO 639-3 para encontrar el artículo de idioma correspondiente.

Códigos de idioma

ISO 639-3 incluye todos los idiomas en ISO 639-1 y todos los idiomas individuales en ISO 639-2 . ISO 639-1 e ISO 639-2 se centraron en los principales idiomas, representados con mayor frecuencia en el conjunto de la literatura mundial. Dado que ISO 639-2 también incluye colecciones de idiomas y la Parte 3 no, ISO 639-3 no es un superconjunto de ISO 639-2. Donde existen códigos B y T en ISO 639-2, ISO 639-3 usa los códigos T.

Ejemplos de códigos de idioma ISO
Idioma 639-1 639-2 (B / T) 639-3 tipo 639-3 código
inglés en eng individual eng
alemán Delaware ger / deu individual deu
Arábica Arkansas ara macro ara
Árabe estándar individual arb
Árabe egipcio individual arz
chino Z h chi / zho macro zho
mandarín individual cmn
Cantonés individual yue
Minnan individual yaya

Al 18 de febrero de 2021, el estándar contiene 7.893 entradas. El inventario de idiomas se basa en una serie de fuentes que incluyen: los idiomas individuales contenidos en 639-2, los idiomas modernos del Ethnologue , las variedades históricas, los idiomas antiguos y los idiomas artificiales de la Lista de lingüistas , así como los idiomas recomendados por el público anual. período de comentarios.

Los archivos de datos legibles por máquina son proporcionados por la autoridad de registro. Las asignaciones de ISO 639-1 o ISO 639-2 a ISO 639-3 se pueden realizar utilizando estos archivos de datos.

La norma ISO 639-3 está destinada a asumir distinciones basadas en criterios que no son del todo objetivos. No tiene la intención de documentar ni proporcionar identificadores de dialectos u otras variaciones de idiomas secundarios. Sin embargo, los juicios con respecto a las distinciones entre idiomas pueden ser subjetivos, particularmente en el caso de variedades de idiomas sin tradiciones literarias establecidas, uso en la educación o los medios de comunicación, u otros factores que contribuyen a la convencionalización del idioma. Por lo tanto, el estándar no debe considerarse como una declaración autorizada de los distintos idiomas que existen en el mundo (sobre los cuales puede haber un desacuerdo sustancial en algunos casos), sino simplemente como una forma útil de identificar diferentes variedades de idiomas con precisión.

Espacio de código

Dado que el código es alfabético de tres letras, un límite superior para el número de idiomas que se pueden representar es 26 × 26 × 26 = 17,576. Dado que ISO 639-2 define códigos especiales (4), un rango reservado (520) y códigos de solo B (22), no se pueden usar 546 códigos en la parte 3. Por lo tanto, un límite superior más estricto es 17.576 - 546 = 17.030.

El límite superior se vuelve aún más estricto si se restan las colecciones de idiomas definidas en 639-2 y las que aún no se han definido en ISO 639-5 .

Macrolenguajes

Hay 58 idiomas en ISO 639-2 que se consideran, para los propósitos de la norma, como "macrolenguajes" en ISO 639-3.

Algunos de estos macrolenguajes no tenían un idioma individual según lo definido por ISO 639-3 en el conjunto de códigos de ISO 639-2, por ejemplo, 'ara' (árabe genérico). Otros como 'nor' (noruego) tenían sus dos partes individuales ('nno' ( Nynorsk ), 'nob' ( Bokmål )) ya en ISO 639-2.

Eso significa que algunos idiomas (p. Ej., 'Arb', árabe estándar) que ISO 639-2 consideraba dialectos de un idioma ('ara') ahora se encuentran en ISO 639-3 en ciertos contextos que se consideran idiomas individuales.

Se trata de un intento de tratar con variedades que pueden ser lingüísticamente distintas entre sí, pero que sus hablantes las tratan como dos formas del mismo idioma, por ejemplo, en los casos de diglosia .

Por ejemplo:

Consulte la lista completa.

Idiomas colectivos

"Un elemento de código de idioma colectivo es un identificador que representa un grupo de idiomas individuales que no se consideran un solo idioma en ningún contexto de uso". Estos códigos no representan con precisión un idioma o macrolenguaje en particular.

Si bien ISO 639-2 incluye identificadores de tres letras para idiomas colectivos, estos códigos están excluidos de ISO 639-3. Por tanto, ISO 639-3 no es un superconjunto de ISO 639-2.

ISO 639-5 define códigos colectivos de 3 letras para familias y grupos de idiomas, incluidos los códigos colectivos de idiomas de ISO 639-2.

Códigos especiales

En ISO 639-2 e ISO 639-3 se reservan cuatro códigos para los casos en los que ninguno de los códigos específicos es apropiado. Estos están destinados principalmente a aplicaciones como bases de datos donde se requiere un código ISO independientemente de si existe.

  • mis (idiomas no codificados, originalmente una abreviatura de 'varios') está destinado a idiomas que (todavía) no se han incluido en la norma ISO.
  • mul (varios idiomas) está destinado a los casos en los que los datos incluyen más de un idioma y (por ejemplo) la base de datos requiere un solo código ISO.
  • und(indeterminado) está destinado a casos en los que el idioma de los datos no se ha identificado, como cuando está mal etiquetado o nunca se ha etiquetado. No está diseñado para casos como el de Trojan, en el que se ha dado un nombre a un idioma no certificado.
  • zxx (sin contenido lingüístico / no aplicable) está destinado a datos que no son un idioma en absoluto, como las llamadas de animales.

Además, 520 de descuento en la gama qaa- qtzestán 'reservados para uso local'. Por ejemplo, Rebecca Bettencourt, asigna un código a los lenguajes construidos y se realizan nuevas asignaciones a pedido. The Linguist List los usa para idiomas extintos . Linguist List ha asignado a uno de ellos un valor genérico: qnpprotolenguaje sin nombre. Se utiliza para los nodos intermedios propuestos en un árbol genealógico que no tienen nombre.

Procesos de mantenimiento

La tabla de códigos para ISO 639-3 está abierta a cambios. Para proteger la estabilidad del uso existente, los cambios permitidos se limitan a:

  • modificaciones a la información de referencia para una entrada (incluidos nombres o categorizaciones por tipo y alcance),
  • adición de nuevas entradas,
  • desaprobación de entradas duplicadas o falsas,
  • fusionar una o más entradas en otra entrada, y
  • dividir una entrada de idioma existente en varias entradas de idioma nuevo.

El código asignado a un idioma no se cambia a menos que también haya un cambio en la denotación.

Los cambios se realizan en un ciclo anual. Cada solicitud tiene un período mínimo de tres meses para revisión pública.

El sitio web ISO 639-3 tiene páginas que describen "ámbitos de denotación" ( tipos lánguidos ) y tipos de lenguajes, que explican qué conceptos están dentro del ámbito de la codificación y ciertos criterios que deben cumplirse. Por ejemplo, los lenguajes construidos se pueden codificar, pero solo si están diseñados para la comunicación humana y tienen un cuerpo de literatura, evitando solicitudes de invenciones idiosincrásicas.

La autoridad de registro documenta en su sitio web las instrucciones hechas en el texto de la norma ISO 639-3 con respecto a cómo se deben mantener las tablas de códigos. También documenta los procesos utilizados para recibir y procesar solicitudes de cambio.

Se proporciona un formulario de solicitud de cambio y hay un segundo formulario para recopilar información sobre las adiciones propuestas. Cualquiera de las partes puede enviar solicitudes de cambio. Cuando se envían, las solicitudes son revisadas inicialmente por la autoridad de registro para verificar que estén completas.

Cuando se recibe una solicitud completamente documentada, se agrega a un índice de solicitud de cambio publicado. Además, los anuncios se envían a la lista de discusión general de LINGUISTA en Linguist List y otras listas que la autoridad de registro puede considerar relevantes, invitando a la opinión pública y comentarios sobre el cambio solicitado. Cualquier propietario o individuo de la lista puede solicitar notificaciones de solicitudes de cambio para regiones o familias de idiomas en particular. Los comentarios que se reciben se publican para que otras partes los revisen. Sobre la base del consenso en los comentarios recibidos, una solicitud de cambio puede retirarse o promoverse a "estado de candidato".

Tres meses antes del final de un ciclo de revisión anual (generalmente en septiembre), se establece un anuncio en la lista de discusión de LINGUISTA y otras listas con respecto a las Solicitudes de cambio de estado de los candidatos. Todas las solicitudes permanecen abiertas para revisión y comentarios hasta el final del ciclo de revisión anual.

Las decisiones se anuncian al final del ciclo de revisión anual (normalmente en enero). En ese momento, las solicitudes pueden adoptarse en su totalidad o en parte, modificarse y trasladarse al siguiente ciclo de revisión o rechazarse. Los rechazos a menudo incluyen sugerencias sobre cómo modificar propuestas para volver a presentarlas. Se mantiene un archivo público de cada solicitud de cambio junto con las decisiones tomadas y la justificación de las decisiones.

Crítica

Los lingüistas Morey, Post y Friedman plantean varias críticas a ISO 639, y en particular a ISO 639-3:

  • Los códigos de tres letras en sí mismos son problemáticos, porque si bien son etiquetas técnicas oficialmente arbitrarias, a menudo se derivan de abreviaturas mnemotécnicas para nombres de idiomas, algunas de las cuales son peyorativas. Por ejemplo, a Yemsa se le asignó el código jnj, del peyorativo "Janejero". Por tanto, estos códigos pueden ser considerados ofensivos por los hablantes nativos. Sin embargo, los códigos se pueden cambiar con un envío de solicitud en el sitio web de SIL .
  • La administración de la norma es problemática porque SIL es una organización misionera con transparencia y responsabilidad inadecuadas. Las decisiones sobre qué merece ser codificado como lenguaje se toman internamente. Si bien las aportaciones externas pueden o no ser bienvenidas, las decisiones en sí mismas son opacas y muchos lingüistas han dejado de intentar mejorar el estándar.
  • La identificación permanente de un idioma es incompatible con el cambio de idioma.
  • Los idiomas y dialectos a menudo no se pueden distinguir rigurosamente, y los continuos del dialecto pueden subdividirse de muchas maneras, mientras que el estándar privilegia una opción. En cambio, estas distinciones se basan a menudo en factores sociales y políticos.
  • Las autoridades que toman decisiones sobre la identidad y el idioma de las personas pueden malinterpretar y utilizar la norma ISO 639-3, aboliendo el derecho de los hablantes a identificarse o identificarse con su variedad de habla. Aunque SIL es sensible a tales cuestiones, este problema es inherente a la naturaleza de un estándar establecido, que puede ser utilizado (o mal utilizado) de formas que ISO y SIL no pretenden.

Martin Haspelmath está de acuerdo con cuatro de estos puntos, pero no con el punto sobre el cambio de idioma. No está de acuerdo porque cualquier descripción de un idioma requiere identificarlo, y podemos identificar fácilmente las diferentes etapas de un idioma. Sugiere que los lingüistas pueden preferir usar una codificación que se hace en el nivel lánguido , ya que "rara vez les importa a los lingüistas si de lo que están hablando es un idioma, un dialecto o una familia de idiomas muy unida". También cuestiona si una norma ISO para la identificación de idiomas es apropiada ya que ISO es una organización industrial, mientras que ve la documentación y la nomenclatura del idioma como un esfuerzo científico. Cita la necesidad original de identificadores de idioma estandarizados como "la importancia económica de la traducción y la localización del software ", para lo cual se establecieron las normas ISO 639-1 y 639-2. Pero plantea dudas sobre la necesidad de la industria de la cobertura completa proporcionada por ISO 639-3, incluyendo "lenguajes poco conocidos de pequeñas comunidades que nunca o casi nunca se utilizan por escrito y que a menudo están en peligro de extinción".

Uso

  • Ethnologue
  • Lista de lingüistas
  • OLAC : la comunidad de archivos de Open Languages
  • Microsoft Windows 8 : admite todos los códigos en ISO 639-3 en el momento del lanzamiento.
  • Fundación Wikimedia: Los nuevos proyectos basados ​​en idiomas (por ejemplo, wikipedias en nuevos idiomas) deben tener un identificador de ISO 639-1, -2 o -3.
  • Otras normas que se basan en ISO 639-3:
    • Etiquetas de idioma definidas por el Grupo de trabajo de ingeniería de Internet (IETF) , como se documenta en:
      • BCP 47: Mejor práctica actual 47 , que incluye RFC  5646
      • RFC  5646 , que reemplazó a RFC  4646 , que reemplazó a RFC  3066 . (Por lo tanto, todos los estándares que dependen de cualquiera de estos 3 estándares IETF ahora usan ISO 639-3).
    • El estándar ePub 3.0 para metadatos de idiomas utiliza elementos de metadatos Dublin Core. Estos elementos de metadatos de idioma en ePubs deben contener códigos RFC 5646 válidos  para idiomas. RFC5646 apunta a ISO 639-3 para idiomas sin códigos IANA más cortos.
    • Iniciativa de metadatos Dublin Core : Término de metadatos DCMI para lenguaje, a través de RFC 4646 de IETF  (ahora reemplazado por RFC  5646 ).
    • Autoridad de Números Asignados de Internet (IANA) El esfuerzo de internacionalización del W3C recomienda el uso del Registro de subetiquetas de idioma de IANA para seleccionar códigos para idiomas. El Registro de subetiquetas de idiomas de la IANA depende de los códigos ISO 639-3 para los idiomas que anteriormente no tenían códigos en otras partes del estándar ISO 639.
    • HTML5: a través de BCP 47 de IETF.
    • Códigos de biblioteca MARC .
    • Códigos de biblioteca MODS : incorpora RFC 3066 de IETF  (ahora reemplazado por RFC  5646 ).
    • Iniciativa de codificación de texto (TEI): a través del BCP 47 de IETF.
    • Marco de marcado léxico : especificación ISO para la representación de diccionarios legibles por máquina.
    • Unicode 's locale Común repositorio de datos : Utiliza varios cientos de códigos de la norma ISO 639-3 no incluidos en la norma ISO 639-2.

Referencias

Otras lecturas

enlaces externos