Computadoras y lengua vietnamita - Vietnamese language and computers

El idioma vietnamita está escrito con un alfabeto latino con signos diacríticos, lo que requiere varias adaptaciones al escribir en el teléfono o en la computadora. Los sistemas basados ​​en software son la forma más popular de escribir en vietnamita. El télex es el método de entrada más antiguo ideado para codificar el idioma vietnamita y, a menudo, se establece como predeterminado en los teclados virtuales de los teléfonos y dispositivos con pantalla táctil. Otros métodos de entrada también pueden incluir VNI y VIQR , que se adaptan más a las computadoras personales físicas de escritorio o portátiles.

El método de entrada VNI no debe confundirse con la página de códigos VNI.

Históricamente, el vietnamita también se escribió en chữ Nôm , que hoy en día se utiliza con fines ceremoniales y tradicionales, y permanece en el campo de los historiadores y filólogos .

Fuentes y codificaciones de caracteres

Alfabeto vietnamita

Es común que se coloquen dos signos diacríticos en una sola vocal vietnamita. Algunas fuentes apilan estos signos diacríticos, mientras que otras compensan la marca de tono.

Hay hasta 46 codificaciones de caracteres para representar el alfabeto vietnamita . Unicode se ha convertido en la forma más popular para muchos de los sistemas de escritura del mundo, debido a su gran compatibilidad y soporte de software. Los diacríticos se pueden codificar como caracteres combinados o como caracteres precompuestos , que se encuentran dispersos entre los bloques Latin Extended-A , Latin Extended-B y Latin Extended Additional . El símbolo đồng vietnamita está codificado en el bloque Símbolos de moneda . Históricamente, el idioma vietnamita utilizó otros caracteres más allá del alfabeto moderno. La letra B del vietnamita medio con floritura (ꞗ) se incluye en el bloque Latin Extended-D . El ápice no está incluido en Unicode, pero U + 1DC4 ◌᷄ COMBINING MACRON-AGUTE puede servir como una aproximación aproximada.

Las primeras versiones de Unicode asignaban los caracteres U + 0340 ◌̀ COMBINING GRAVE TONE MARK y U + 0341 ◌́ COMBINING AGUTE TONE MARK con el propósito de colocar estas marcas al lado de un circunflejo, como es común en la tipografía vietnamita. Estos dos personajes han quedado obsoletos; U + 0301 ◌́ COMBINANDO ACENTO AGUDO y U + 0300 ◌̀ COMBINANDO ACENTO GRAVE ahora se utilizan independientemente de cualquier circunflejo presente.

Para los sistemas que carecen de soporte para Unicode, se han diseñado decenas de páginas de códigos vietnamitas de 8 bits . Los más utilizados de ellos fueron VISCII , VSCII (TCVN 5712: 1993), VNI , VPS y Windows-1258 . Cuando se requiere ASCII , como cuando se garantiza la legibilidad en el correo electrónico de texto sin formato, las letras vietnamitas a menudo se codifican de acuerdo con el texto citado- legible en vietnamita (VIQR) o el mnemónico VSCII (VSCII-MNEM), aunque el uso de cualquiera de los esquemas de ancho variable ha disminuido dramáticamente tras la adopción de Unicode en la World Wide Web . Por ejemplo, la compatibilidad con todas las codificaciones de 8 bits mencionadas anteriormente, con la excepción de Windows-1258, se eliminó del software de Mozilla en 2014.

Muchas fuentes vietnamitas destinadas a la autoedición están codificadas en VNI o TCVN3 ( VSCII ). Estas fuentes se conocen como "fuentes ABC". Los navegadores web populares carecen de soporte para codificaciones vietnamitas especiales, por lo que cualquier página web que use estas fuentes aparece como mojibake ininteligible en sistemas que no las tienen instaladas.

A la derecha, una í que conserva su título .

El vietnamita a menudo apila diacríticos, por lo que los diseñadores de tipografía deben tener cuidado de evitar que los diacríticos apilados choquen con letras o líneas adyacentes. Cuando se usa una marca de tono junto con otro diacrítico, desplazar la marca de tono hacia la derecha conserva la consistencia y evita ralentizar las sacadas . En la señalización publicitaria y en letra cursiva , los signos diacríticos a menudo adoptan formas desconocidas para otros alfabetos latinos. Por ejemplo, la letra minúscula I conserva su título en ì , , ĩ e í . Estos matices rara vez se tienen en cuenta en los entornos informáticos.

Enfoques

La escritura vietnamita requiere 134 letras adicionales (entre ambos casos) además de las 52 ya presentes en ASCII. Esto supera los 128 caracteres adicionales disponibles en una codificación ASCII extendida convencional . Aunque esto se puede resolver utilizando una codificación de ancho variable (como lo hace UTF-8 ), otras codificaciones han utilizado una serie de enfoques para admitir el vietnamita sin hacerlo:

  • Reemplace al menos seis caracteres ASCII, seleccionados por ser poco comunes en vietnamita y / o por no ser invariantes en ISO 646 o DEC NRCS (como en VNI para DOS ).
  • Elimine las letras mayúsculas que se utilizan con menos frecuencia, o todas las letras mayúsculas con marcas de tono (como en VSCII-3 (TCVN3)). Estas letras aún se pueden suministrar mediante fuentes en mayúsculas.
  • Elimine las formas de la letra Y con marcas de tono, lo que requiere el uso de la letra I en esas circunstancias . Este enfoque fue rechazado por los diseñadores de VISCII sobre la base de que una codificación de caracteres no debería intentar resolver un problema de reforma ortográfica.
  • Reemplace al menos seis caracteres de control C0 (como en VISCII , VSCII-1 (TCVN1) y VPS ).
  • Utilice la combinación de caracteres, permitiendo que una vocal con acentos se represente completamente mediante una secuencia de caracteres (como en VNI , VSCII-2 (TCVN2), Windows-1258 y ANSEL ).

Chữ Nôm

𬖾
El carácter nôm de phở .

Unicode incluye más de 10,000 nôm caracteres como parte del repertorio Unicode de ideogramas unificados de CJK . De estos caracteres, 10082 se pueden encontrar en la CJK Unified Ideographs extensión B de bloque, mientras que el resto se distribuye entre los Ideographs CJK Unified , Unified CJK Ideographs extensión A , y unificadas CJK Ideographs extensión C bloques. Otros 1.028 caracteres, incluidos más de 400 caracteres específicos del idioma Tày , están codificados en el bloque E de extensión de ideogramas unificados de CJK . Los caracteres están tomados de los estándares vietnamitas TCVN 5773: 1993 y TCVN 6909: 2001 [¿error para TCVN 6056: 1995?], Así como de investigaciones del Instituto de Investigación Han-Nom y otros grupos. Todos los caracteres en TCVN 5773: 1993 y aproximadamente el 95% de los caracteres en TCVN 6909: 2001 [¿error para TCVN 6056: 1995?] Tienen puntos de código correspondientes en Unicode 5.1, aunque TCVN 5773: 1993 en sí mismo asignó la mayoría de sus caracteres al Privado. Área de uso de Unicode. Unicode 13.0 agregó dos caracteres diacríticos al bloque de símbolos ideográficos y puntuación que se usaban comúnmente para indicar caracteres prestados en chữ Nôm .

Los dos más completos NOM fuentes son la Fundación vietnamita NOM Preservación 's nom Na Tống luz y el desarrollado por la comunidad HAN NOM A / HAN NOM B , ambos de los cuales colocar un gran número de caracteres no normalizados en las áreas de uso privado .

La base de datos Unihan del Consorcio Unicode incluye lecturas vietnamitas de algunos caracteres, pero no distingue entre lecturas chino-vietnamita y nôm .

Al igual que otros sistemas de escritura CJKV , chữ Nôm se escribe tradicionalmente verticalmente , de arriba a abajo y de derecha a izquierda.

Chữ Hán y chữ Nôm también se pueden anotar usando caracteres rubí , que es lo mismo que chữ quốc ngữ para vietnamita.

Entrada de texto

Un teclado vietnamita puramente físico no sería práctico, debido a la gran cantidad de combinaciones de letras, diacríticos y diacríticos en el alfabeto, por ejemplo, á, à, ả, ã, ạ, â, ấ, etcétera. En cambio, la entrada vietnamita se basa en diseños de teclado basados ​​en software de fórmulas, teclados virtuales o métodos de entrada (también conocidos como IME).

Diseños de teclado

Microsoft Windows incluye un diseño de teclado vietnamita basado en TCVN 6064: 1995.
Diseño de teclado de máquina de escribir vietnamita basado en AZERTY

La distribución del teclado vietnamita se basa en teclas muertas para componer letras con diacríticos. La mayoría de los sistemas operativos de escritorio incluyen una distribución de teclado vietnamita similar a TCVN 6064: 1995  [ vi ] , un estándar nacional vietnamita. Anteriormente, las máquinas de escribir usaban un diseño vietnamita basado en AZERTY.

Métodos de entrada

xvnkb, un IME compatible con el marco del método de entrada X en sistemas Unix, admite la salida en codificaciones de seis caracteres.

Los tres métodos de entrada vietnamitas más comunes son Telex , VNI y VIQR . El télex indica diacríticos usando letras que es poco probable que aparezcan al final de una palabra, mientras que VNI reutiliza las teclas numéricas o de función y VIQR reutiliza varios signos de puntuación. Las convenciones de télex y VIQR se originaron en una era anterior de máquinas de télex y máquinas de escribir, respectivamente.

El soporte para estos métodos de entrada lo proporcionan los editores de métodos de entrada (IME), que se conocen en vietnamita como bộ gõ , literalmente "picoteadores" o "percusión" en términos más generales. Los IME pueden ser proporcionados por el sistema operativo, instalados como una aplicación de terceros, instalados como una extensión del navegador o proporcionados por un sitio web individual en forma de script . Las aplicaciones comunes de terceros incluyen GoTiengViet, UniKey , VietKey, VPSKeys , WinVNKey y xvnkb. En sistemas operativos similares a Unix, los marcos IBus y SCIM son compatibles con el vietnamita. Los scripts de IME como AVIM, Mudim y VietTyping se pueden encontrar en la mayoría de los foros de mensajes vietnamitas , la Wikipedia vietnamita y otros sitios web de texto intensivo. El navegador web vietnamita Cốc Cốc viene con un método de entrada incorporado.

Los métodos de entrada permiten que las palabras se compongan en un orden más flexible que el que permiten los diseños de teclado. Por ejemplo, para ingresar la palabra " viết " usando la distribución del teclado TCVN 6064: 1995, se debe escribir VI38T, en ese orden. Por el contrario, la mayoría de los IME permiten al usuario insertar signos diacríticos al final de la palabra: VIEETSen télex, VIET61en VNI o VIET^'en VIQR. Algunos IME incluso permiten introducir signos diacríticos antes de sus letras base. Dependiendo de la implementación de un IME, también es posible editar los signos diacríticos de una palabra existente sin volver a escribir la palabra.

Tomando prestada una característica común entre los métodos de entrada chinos , algunos IME vietnamitas permiten omitir los signos diacríticos por completo y, en su lugar, después de escribir las letras base, el usuario puede seleccionar la palabra acentuada de una lista de candidatos. Para proporcionar esta lista de autocompletar , es posible que el IME deba comunicarse con un servicio web . Algunos IME también utilizan listas de candidatos para permitir al usuario convertir texto del alfabeto vietnamita a chữ Nôm , porque no hay correspondencia uno a uno entre las palabras alfabéticas y los caracteres nôm .

Otras Consideraciones

El texto típico vietnamita contiene una alta proporción de palabras compuestas. Las palabras compuestas nunca se separan con guiones en el uso contemporáneo, por lo que los correctores ortográficos se limitan a comprobar sílabas individuales a menos que se consulte un modelo de lenguaje estadístico .

El vietnamita tiene reglas de ortografía rígidas y pocas excepciones, por lo que los motores de conversión de texto a voz pueden evitar las búsquedas en el diccionario, excepto cuando se encuentra con una palabra de préstamo extranjera. Los motores de TTS deben tener en cuenta los tonos , que son esenciales para el significado de cualquier palabra vietnamita, por ejemplo, má (madre) es una palabra diferente a mà (pero).

Ver también

Referencias

Otras lecturas

enlaces externos