ISO / IEC 8859-1 - ISO/IEC 8859-1

ISO / IEC 8859-1: 1998
Latin-1-infobox.svg
Diseño de página de códigos ISO 8859-1
MIME / IANA ISO-8859-1
Alias iso-ir-100, csISOLatin1, latin1, l1, IBM819, CP819
Idioma (s) Inglés , varios otros
Estándar ISO / IEC 8859
Clasificación ASCII extendido , ISO 8859
Se extiende US-ASCII
Residencia en DEC MCS
Sucesor
Otras codificaciones relacionadas BraSCII

ISO / IEC 8859-1: 1998 , Tecnología de la información - Juegos de caracteres gráficos codificados de un solo byte de 8 bits - Parte 1: Alfabeto latino No. 1 , es parte de la serie ISO / IEC 8859 de codificaciones de caracteres estándar basadas en ASCII , primero edición publicada en 1987. ISO 8859-1 codifica lo que se denomina "alfabeto latino nº 1", que consta de 191 caracteres de la escritura latina . Este esquema de codificación de caracteres se utiliza en América , Europa Occidental , Oceanía y gran parte de África . Es la base de algunos conjuntos de caracteres de 8 bits populares y los dos primeros bloques de caracteres en Unicode .

ISO-8859-1 era (de acuerdo con el estándar, al menos) la codificación predeterminada de documentos entregados a través de HTTP con un tipo MIME que comienza con "texto /" ( HTML5 cambió esto a Windows-1252 ). En octubre de 2021, el 1,2% de todos los sitios web (pero solo 5 de los 1000 principales) utilizan ISO 8859-1 . Es la codificación de caracteres de un solo byte más declarada del mundo en la web, pero como los navegadores web la interpretan como el superconjunto Windows-1252, los documentos pueden incluir caracteres de ese conjunto.

Dependiendo del país, el uso puede ser mucho más alto que el promedio mundial, por ejemplo, para Alemania con un 5,1% (e incluyendo Windows-1252 con un 5,6%).

ISO-8859-1 fue la codificación predeterminada de los valores de ciertos encabezados HTTP descriptivos, y definió el repertorio de caracteres permitidos en los  documentos HTML 3.2, y está especificado por muchos otros estándares. A menudo se supone que este y otros conjuntos similares son la codificación de texto de 8 bits en Unix y Microsoft Windows si no hay una marca de orden de bytes (BOM); esto solo se está cambiando gradualmente a UTF-8 .

ISO-8859-1 es el nombre preferido de IANA para este estándar cuando se complementa con los códigos de control C0 y C1 de ISO / IEC 6429 . Los siguientes otros alias están registradas: iso-IR-100 , csISOLatin1 , latin1 , l1 , IBM819 . La página de códigos 28591, también conocida como Windows-28591, se utiliza para ello en Windows. IBM lo llama página de códigos 819 o CP819 ( CCSID 819). Oracle lo llama WE8ISO8859P1 .

Cobertura

Cada carácter se codifica como un único valor de código de ocho bits. Estos valores de código se pueden utilizar en casi cualquier sistema de intercambio de datos para comunicarse en los siguientes idiomas (aunque puede excluir las comillas correctas , como en muchos idiomas, incluidos el alemán y el islandés):

Idiomas modernos con cobertura completa

Notas

Idiomas con cobertura incompleta

ISO-8859-1 se usó comúnmente para ciertos idiomas, aunque carece de los caracteres utilizados por estos idiomas. En la mayoría de los casos, solo faltan unas pocas letras o se usan con poca frecuencia, y se pueden reemplazar con caracteres que están en ISO-8859-1 usando alguna forma de aproximación tipográfica . La siguiente tabla enumera dichos idiomas.

Idioma Caracteres faltantes Solución típica Apoyado por
catalán Ŀ , ŀ (obsoleto) L ·, l ·
danés Ǿ , ǿ (el acento es opcional y ǿ es muy raro) Ø, ø o øe
holandés IJ , ij (pero con un estado discutible ); j́ en palabras enfatizadas como "blíj́f" dígrafos IJ, ij; blíjf
Estonio Š , š, Ž , ž (solo presente en préstamos) Sh, sh, Zh, zh ISO-8859-15 , Windows-1252
finlandés Š , š, Ž , ž (solo presente en préstamos) Sh, sh, Zh, zh ISO-8859-15 , Windows-1252
francés Œ , œ y lo muy raro Ÿ dígrafos OE, oe; Y o Ý ISO-8859-15 , Windows-1252
alemán (ß mayúscula, utilizado solo en todas las mayúsculas; incluido en la ortografía oficial en 2017, sigue siendo opcional) dígrafo SS
húngaro Ő , ő, Ű , ű Ö, ö, Ü, ü ISO / IEC 8859-2 , Windows-1250
Irlandés ( ortografía tradicional ) Ḃ, ḃ, Ċ, ċ, Ḋ, ḋ, Ḟ, ḟ, Ġ, ġ, Ṁ, ṁ, Ṗ, ṗ, Ṡ, ṡ, Ṫ, ṫ Bh, bh, Ch, ch, Dh, dh, Fh, fh, Gh, gh, Mh, mh, Ph, ph, Sh, sh, Th, th ISO-8859-14
turco Ş , ş
galés , ẁ, , ẃ, Ŵ , ŵ, , ẅ, , ỳ, Ŷ , ŷ, Ÿ W, w, Y, y, Ý, ý ISO-8859-14

La letra ÿ , que aparece en francés muy raramente, principalmente en nombres de ciudades como L'Haÿ-les-Roses y nunca al principio de las palabras, se incluye solo en minúsculas. El espacio correspondiente a su forma mayúscula está ocupado por la letra minúscula ß del idioma alemán, que no tenía forma mayúscula en el momento en que se creó el estándar.

Comillas

Para algunos idiomas mencionados anteriormente, los tipográficos correctos comillas faltan, ya que solo « », " "y ' 'se incluyen. Además, este esquema no prevé comillas simples o dobles orientadas (en forma de 6 o 9). Algunas fuentes mostrarán el acento grave espaciado (0x60) y el apóstrofo (0x27) como un par coincidente de comillas simples orientadas, pero esto no se considera parte del estándar moderno.

Historia

ISO 8859-1 se basó en el conjunto de caracteres multinacional (MCS) utilizado por Digital Equipment Corporation (DEC) en el popular terminal VT220 en 1983. Fue desarrollado dentro de la Asociación Europea de Fabricantes de Computadoras (ECMA) y publicado en marzo de 1985 como ECMA -94, cuyo nombre todavía se conoce a veces. La segunda edición de ECMA-94 (junio de 1986) también incluyó ISO 8859-2 , ISO 8859-3 e ISO 8859-4 como parte de la especificación.

El borrador original de ISO 8859-1 colocaba Œ y œ francés en los puntos de código 215 (0xD7) y 247 (0xF7), como en el MCS. Sin embargo, el delegado de Francia, que no es ni lingüista ni tipógrafo, afirmó falsamente que estas no son letras francesas independientes por sí solas, sino meras ligaduras (como o ), apoyadas por el equipo de delegados de Bull Publishing Company , que regularmente no imprimieron francés con Œ / œ en el estilo de su casa en ese momento. Un delegado anglófono de Canadá insistió en retener Œ / œ pero fue rechazado por el delegado francés y el equipo de Bull. Estos puntos de código pronto se llenaron con × y ÷ bajo la sugerencia de la delegación alemana. El apoyo al francés se redujo aún más cuando se volvió a declarar falsamente que la letra ÿ "no es francesa", lo que provocó la ausencia de la mayúscula Ÿ . De hecho, la letra ÿ se encuentra en varios nombres propios franceses y la letra mayúscula se ha utilizado en diccionarios y enciclopedias. Estos caracteres se agregaron a ISO / IEC 8859-15: 1999 . BraSCII coincide con el borrador original.

En 1985, Commodore adoptó ECMA-94 para su nuevo sistema operativo AmigaOS . La impresora de matriz de puntos de impacto Seikosha MP-1300AI, utilizada con la Amiga 1000, incluía esta codificación.

En 1990, la primera versión de Unicode utilizó los puntos de código de ISO-8859-1 como los primeros 256 puntos de código Unicode.

En 1992, la IANA registró el mapa de caracteres ISO_8859-1: 1987 , más comúnmente conocido por su nombre MIME preferido de ISO-8859-1 (tenga en cuenta el guión adicional sobre ISO 8859-1), un superconjunto de ISO 8859-1, para utilizar en Internet . Este mapa asigna los códigos de control C0 y C1 a los valores de código no asignados, por lo que proporciona 256 caracteres a través de cada valor posible de 8 bits.

Diseño de página de códigos

ISO / IEC 8859-1
_0 _1 _2 _3 _4 _5 _6 _7 _8 _9 _A _B _C _D _MI _F
0_
0
1_
16
2_
32
SP
0020
!
0021
"
0022
#
0023
$
0024
%
0025
&
0026
«
0027
(
0028
)
0029
*
002A
+
002B
,
002C
-
002D
.
002E
/
002F
3_
48
0
0030
1
0031
2
0032
3
0033
4
0034
5
0035
6
0036
7
0037
8
0038
9
0039
:
003A
;
003B
<
003C
=
003D
>
003E
?
003F
4_
64
@
0040
A
0041
B
0042
C
0043
D
0044
E
0045
F
0046
G
0047
H
0048
Yo
0049
J
004A
K
004B
L
004C
M
004D
N
004E
O
004F
5_
80
P
0050
Q
0051
R
0052
S
0053
T
0054
U
0055
V
0056
W
0057
X
0058
Y
0059
Z
005A
[
005B
\
005C
]
005D
^
005E
_
005F
6_
96
`
0060
un
0061
b
0062
c
0063
d
0064
e
0065
f
0066
g
0067
h
0068
yo
0069
j
006A
k
006B
l
006C
m
006D
n
006E
o
006F
7_
112
p
0070
q
0071
r
0072
s
0073
t
0074
u
0075
v
0076
w
0077
x
0078
y
0079
z
007A
{
007B
|
007C
}
007D
~
007E
8_
128
9_
144
A_
160
NBSP
00A0
¡
00A1
¢
00A2
£
00A3
¤
00A4
¥
00A5
¦
00A6
§
00A7
¨
00A8
©
00A9
ª
00AA
«
00AB
¬
00AC
SHY
00AD
®
00AE
¯
00AF
B_
176
°
00B0
±
00B1
²
00B2
³
00B3
´
00B4
µ
00B5

00B6
·
00B7
¸
00B8
¹
00B9
º
00BA
»
00BB
¼
00BC
½
00BD
¾
00BE
¿
00BF
C_
192
À
00C0
Á
00C1
Â
00C2
Ã
00C3
Ä
00C4
Å
00C5
Æ
00C6
Ç
00C7
È
00C8
É
00C9
Ê
00CA
Ë
00CB
Ì
00CC
Í
00CD
Î
00CE
Ï
00CF
D_
208
Ð
00D0
Ñ
00D1
Ò
00D2
Ó
00D3
Ô
00D4
Õ
00D5
Ö
00D6
×
00D7
Ø
00D8
Ù
00D9
Ú
00DA
Û
00DB
Ü
00DC
Ý
00DD
Þ
00DE
ß
00DF
E_
224
à
00E0
á
00E1
â
00E2
ã
00E3
ä
00E4
å
00E5
æ
00E6
ç
00E7
è
00E8
é
00E9
ê
00EA
ë
00EB
ì
00EC
í
00ED
î
00EE
ï
00EF
F_
240
ð
00F0
ñ
00F1
ò
00F2
ó
00F3
ô
00F4
õ
00F5
ö
00F6
÷
00F7
ø
00F8
ù
00F9
ú
00FA
û
00FB
ü
00FC
ý
00FD
þ
00FE
ÿ
00FF

  Carta  Número  Puntuación  Símbolo  Otro  Indefinido   Indefinido en la primera versión de ECMA-94 (1985). Sin embargo, en el borrador original, Œ estaba en el punto de código 215 (0xD7) y œ estaba en el punto de código 247 (0xF7).

Conjuntos de caracteres similares

ISO / IEC 8859-15

ISO / IEC 8859-15 se desarrolló en 1999, como una actualización de ISO / IEC 8859-1. Proporciona algunos caracteres para el texto en francés y finlandés y el símbolo del euro , que faltan en ISO / IEC 8859-1. Esto requiere la eliminación de algunos caracteres de uso poco frecuente de la norma ISO / IEC 8859-1, incluyendo símbolos de fracciones y diacríticos libre letras: ¤, ¦, ¨, ´, ¸, ¼, ½, y ¾. Irónicamente, tres de los caracteres recién agregados ( Œ,, œy Ÿ) ya habían estado presentes en el conjunto de caracteres multinacionales (MCS) de DEC de 1983 , el predecesor de ISO / IEC 8859-1 (1987). Dado que sus puntos de código originales ahora se reutilizaron para otros fines, los caracteres tuvieron que ser reintroducidos bajo diferentes puntos de código menos lógicos.

ISO-IR-204, una modificación menor, se había registrado en 1998, alterando ISO-8859-1 al reemplazar el signo de moneda universal (¤) con el signo del euro (la misma sustitución hecha por ISO-8859-15).

Windows-1252

El popular conjunto de caracteres Windows-1252 agrega todos los caracteres faltantes proporcionados por ISO / IEC 8859-15 , más una serie de símbolos tipográficos, al reemplazar los controles C1 raramente utilizados en el rango de 128 a 159 ( hexadecimal 80 a 9F). Es muy común etiquetar incorrectamente el texto de Windows-1252 como si estuviera en ISO-8859-1. Un resultado común fue que todas las comillas y apóstrofos (producidos por "comillas tipográficas" en software de procesamiento de texto) fueron reemplazados por signos de interrogación o cuadros en sistemas operativos que no son Windows, lo que dificulta la lectura del texto. Muchos navegadores web y clientes de correo electrónico interpretarán los códigos de control ISO-8859-1 como caracteres de Windows-1252, y ese comportamiento se estandarizó posteriormente en HTML5 .

Mac Roman

La computadora Apple Macintosh introdujo una codificación de caracteres llamada Mac Roman en 1984. Estaba destinada a ser adecuada para la autoedición de Europa occidental . Es un superconjunto de ASCII y tiene la mayoría de los caracteres que están en ISO-8859-1 y todos los caracteres adicionales de Windows-1252, pero en una disposición totalmente diferente. Los pocos caracteres imprimibles que están en ISO 8859-1, pero no en este conjunto, a menudo son una fuente de problemas al editar texto en sitios web con navegadores Macintosh más antiguos, incluida la última versión de Internet Explorer para Mac .

Otro

DOS tenía la página de códigos 850 , que tenía todos los caracteres imprimibles que tenía ISO-8859-1 (aunque en una disposición totalmente diferente) más los caracteres gráficos más utilizados de la página de códigos 437 .

Entre 1989 y 2015, Hewlett-Packard utilizó otro superconjunto de ISO-8859-1 en muchas de sus calculadoras. Este conjunto de caracteres patentado a veces también se denominaba simplemente "ECMA-94".

Ver también

Referencias

enlaces externos