Carácter precompuesto - Precomposed character

Un carácter precompuesto (alternativamente , un carácter compuesto o un carácter descomponible ) es una entidad Unicode que también se puede definir como una secuencia de uno o más caracteres. Un carácter precompuesto puede representar típicamente una letra con un signo diacrítico , como é (letra e minúscula latina con acento agudo ). Técnicamente, é (U + 00E9) es un carácter que se puede descomponer en una cadena equivalente de la letra base e (U + 0065) y que combina acento agudo (U + 0301). De manera similar, las ligaduras son precomposiciones de sus letras o grafemas constituyentes .

Los caracteres precompuestos son la solución heredada para representar muchas letras especiales en varios conjuntos de caracteres . En Unicode, se incluyen principalmente para ayudar a los sistemas informáticos con soporte Unicode incompleto, donde los caracteres descompuestos equivalentes pueden representarse incorrectamente.

Comparación de caracteres precompuestos y descompuestos

En el siguiente ejemplo, hay un apellido sueco común Åström escrito en los dos métodos alternativos, el primero con un Å (U + 00C5) y ö (U + 00F6) precompuestos, y el segundo usando una letra base descompuesta A ( U + 0041) con un anillo de combinación arriba (U + 030A) y una o (U + 006F) con una diéresis de combinación (U + 0308).

Å str ö m (U + 00C5U + 0073 U + 0074 U + 0072U + 00F6U + 006D)
Åström (U + 0041 U + 030A U + 0073 U + 0074 U + 0072 U + 006F U + 0308 U + 006D)

Excepto por los diferentes colores, las dos soluciones son equivalentes y deben renderizarse de manera idéntica. En la práctica, sin embargo, algunas implementaciones de Unicode todavía tienen dificultades con los caracteres descompuestos. En el peor de los casos, la combinación de signos diacríticos puede descartarse o representarse como caracteres no reconocidos después de sus letras base, ya que no se incluyen en todas las fuentes . Para superar los problemas, algunas aplicaciones pueden simplemente intentar reemplazar los caracteres descompuestos con los caracteres precompuestos equivalentes.

Sin embargo, con una fuente incompleta, los caracteres precompuestos también pueden ser problemáticos, especialmente si son más exóticos, como en el siguiente ejemplo (que muestra la palabra protoindoeuropea reconstruida para "perro"):

ḱṷṓ n (U + 1E31 U + 1E77 U + 1E53U + 006E)
ḱṷṓn (U + 006B U + 0301 U + 0075 U + 032D U + 006F U + 0304 U + 0301 U + 006E)

En algunas situaciones, el verde precompuesto k , T y O con diacríticos pueden hacer que como caracteres no reconocidos , o su tipográfico apariencia puede ser muy diferente de la última letra n sin diacrítica. En la segunda línea, las letras base deben al menos representarse correctamente incluso si no se pueden reconocer los signos diacríticos combinados.

OpenType tiene la "etiqueta de función" ccmp para definir glifos que son composiciones o descomposiciones que involucran la combinación de caracteres.

caracteres chinos

En teoría, la mayoría de los caracteres chinos codificados por la unificación Han y esquemas similares podrían tratarse como caracteres precompuestos, ya que pueden reducirse (descomponerse) a sus trazos constituyentes y descripciones ideográficas con lenguajes de descripción de caracteres chinos . Este enfoque podría reducir la cantidad de caracteres en el conjunto de caracteres de decenas de miles a solo unos pocos cientos. Por otro lado, un conjunto de caracteres tan descompuesto presentaría desafíos para el software de búsqueda y edición y requeriría más bytes de codificación por documento.

Ver también

Lista de caracteres latinos precompuestos en Unicode
Llave muerta
Redactar clave
Combinando carácter
Equivalencia Unicode
Diseño de texto complejo
Caracteres de compatibilidad Unicode
Formularios de presentación alfabéticos - (bloque Unicode)
Formularios de presentación en árabe-A - (bloque Unicode)
Formularios de presentación en árabe-B - (bloque Unicode)

Fuentes

El estándar Unicode, versión 5.2: conformidad (consulte la sección 3.7 para obtener información sobre la descomposición). The Unicode Consortium, diciembre de 2009.
MSDN: Definición de un juego de caracteres . 8 de abril de 2010.
Formularios de normalización Unicode (Unicode® Standard Annex # 15): http://unicode.org/reports/tr15/

enlaces externos

Free Idg Serif , un derivado de la fuente FreeSerif con declaraciones agregadas de caracteres precompuestos.

Languages

In other projects