874 | Thai |
932 | Japanisch |
936 | Vereinfachtes Chinesisch |
949 | Koreanisch |
950 | Traditionelles Chinesisch |
1200 | Unicode UTF-16, little endian |
1201 | Unicode UTF-16, big endian |
1250 | Mitteleuropäisch |
1251 | Kyrillisch |
1252 | Westeuropäisch |
1253 | Griechisch |
1254 | Türkisch |
1255 | Hebräisch |
1256 | Arabisch |
1257 | Baltisch |
1258 | Vietnamesisch |
12000 | Unicode UTF-32, little endian |
12001 | Unicode UTF-32, big endian |
65000 | Unicode UTF-7 |
65001 | Unicode UTF-8 |
Windows-1252 (auch Codepage 1252, cp1252, Westeuropäisch (Western European) oder ANSI) ist eine 8-Bit-Zeichenkodierung, die für das Betriebssystem Microsoft Windows entwickelt wurde. Der Zeichensatz basiert auf ISO 8859-1 (Latin-1), weicht aber im Bereich 8016 – 9F16 von dieser ab; statt der (sehr selten genutzten) C1-Steuerzeichen enthalten diese 32 Positionen hier 27 darstellbare Zeichen, u. a. die in ISO 8859-15 hinzugekommenen und einige für bessere Typografie notwendige Zeichen.
Manche Applikationen vermischen die Definitionen von ISO 8859-1 und Windows-1252. Da auch in HTML die zusätzlichen Steuerzeichen aus ISO 8859-1 keine Bedeutung haben, schreibt der HTML5-Standard vor, dass als ISO 8859-1 markierte Texte als Windows-1252 zu interpretieren sind. Trotzdem ist Windows-1252 ebenfalls bei der IANA registriert. Im Juli 2022 verwendeten 1,2 % aller Websites die Zeichenkodierung implizit als ISO 8859-1, bei 0,3 % der Websites wurde explizit Windows-1252 verwendet, bei jeweils fallender Tendenz. Latin-1 war damit nach UTF-8 (97,7 %) mit diesem Stand die zweithäufigste Kodierung von Websites, Windows-1252 nach Windows-1251 die vierthäufigste. Die Unterschiede zwischen all diesen Kodierungen sowie generell mangelnde Konsequenz bei der Unterstützung verschiedener Zeichensätze sind ein häufiges Interoperabilitätsproblem.
Code | …0 | …1 | …2 | …3 | …4 | …5 | …6 | …7 | …8 | …9 | …A | …B | …C | …D | …E | …F |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0… | NUL | SOH | STX | ETX | EOT | ENQ | ACK | BEL | BS | HT | LF | VT | FF | CR | SO | SI |
1… | DLE | DC1 | DC2 | DC3 | DC4 | NAK | SYN | ETB | CAN | EM | SUB | ESC | FS | GS | RS | US |
2… | SP | ! | " | # | $ | % | & | ' | ( | ) | * | + | , | - | . | / |
3… | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | : | ; | < | = | > | ? |
4… | @ | A | B | C | D | E | F | G | H | I | J | K | L | M | N | O |
5… | P | Q | R | S | T | U | V | W | X | Y | Z | [ | \ | ] | ^ | _ |
6… | ` | a | b | c | d | e | f | g | h | i | j | k | l | m | n | o |
7… | p | q | r | s | t | u | v | w | x | y | z | { | | | } | ~ | DEL |
8… | € | ‚ | ƒ | „ | … | † | ‡ | ˆ | ‰ | Š | ‹ | Œ | Ž | |||
9… | ‘ | ’ | “ | ” | • | – | — | ˜ | ™ | š | › | œ | ž | Ÿ | ||
A… | NBSP | ¡ | ¢ | £ | ¤ | ¥ | ¦ | § | ¨ | © | ª | « | ¬ | SHY | ® | ¯ |
B… | ° | ± | ² | ³ | ´ | µ | ¶ | · | ¸ | ¹ | º | » | ¼ | ½ | ¾ | ¿ |
C… | À | Á | Â | Ã | Ä | Å | Æ | Ç | È | É | Ê | Ë | Ì | Í | Î | Ï |
D… | Ð | Ñ | Ò | Ó | Ô | Õ | Ö | × | Ø | Ù | Ú | Û | Ü | Ý | Þ | ß |
E… | à | á | â | ã | ä | å | æ | ç | è | é | ê | ë | ì | í | î | ï |
F… | ð | ñ | ò | ó | ô | õ | ö | ÷ | ø | ù | ú | û | ü | ý | þ | ÿ |
Die farbigen Codepoints stellen Änderungen gegenüber ISO 8859-1 dar: Gelbe Felder sind belegt, grüne sind ungenutzt.
Da Unicode auf ISO 8859-1 und nicht auf Windows-1252 aufbaut, sind zwar die Unicode-Codepoints der nicht farbig unterlegten Zeichen zu den Codewerten in Windows-1252 identisch, die der farbig hinterlegten jedoch nicht:
…0 | …1 | …2 | …3 | …4 | …5 | …6 | …7 | …8 | …9 | …A | …B | …C | …D | …E | …F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
8… | € U+20AC |
‚ U+201A |
ƒ U+0192 |
„ U+201E |
… U+2026 |
† U+2020 |
‡ U+2021 |
ˆ U+02C6 |
‰ U+2030 |
Š U+0160 |
‹ U+2039 |
Œ U+0152 |
Ž U+017D |
|||
9… | ‘ U+2018 |
’ U+2019 |
“ U+201C |
” U+201D |
• U+2022 |
– U+2013 |
— U+2014 |
˜ U+02DC |
™ U+2122 |
š U+0161 |
› U+203A |
œ U+0153 |
ž U+017E |
Ÿ U+0178 |
Unterschiede zwischen ISO 8859-1, ISO 8859-15, Windows-1252 und Unicode
Windows-1252 enthält neben den Zeichen aus ISO 8859-1 auch diejenigen Zeichen, welche in ISO 8859-15 hinzugefügt wurden und dort einige weniger oft gebrauchten Zeichen aus ISO 8859-1 ersetzen. Allerdings unterscheidet sich bei diesen Zeichen die Position sowohl zwischen Windows-1252 und ISO 8859-15 als auch zu der Codierung in Unicode. Alle Zeichen, die nicht in einer der beiden ISO-Codierungen auftauchen, belegen dabei die folgenden Positionen.
Zeichen | € | Š | š | Ž | ž | Œ | œ | Ÿ | ¤ | ¦ | ¨ | ´ | ¸ | ¼ | ½ | ¾ |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
ISO 8859-1 | – | – | – | – | – | – | – | – | A4 | A6 | A8 | B4 | B8 | BC | BD | BE |
ISO 8859-15 | A4 | A6 | A8 | B4 | B8 | BC | BD | BE | – | – | – | – | – | – | – | – |
Windows-1252 | 80 | 8A | 9A | 8E | 9E | 8C | 9C | 9F | A4 | A6 | A8 | B4 | B8 | BC | BD | BE |
Unicode | 20AC | 160 | 161 | 17D | 17E | 152 | 153 | 178 | A4 | A6 | A8 | B4 | B8 | BC | BD | BE |
Zeichen | ‚ | ƒ | „ | … | † | ‡ | ˆ | ‰ | ‹ | ‘ | ’ | “ | ” | • | – | — | ˜ | ™ | › |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
ISO 8859-1 | – | – | – | – | – | – | – | – | – | – | – | – | – | – | – | – | – | – | – |
ISO 8859-15 | – | – | – | – | – | – | – | – | – | – | – | – | – | – | – | – | – | – | – |
Windows-1252 | 82 | 83 | 84 | 85 | 86 | 87 | 88 | 89 | 8B | 91 | 92 | 93 | 94 | 95 | 96 | 97 | 98 | 99 | 9B |
Unicode | 201A | 192 | 201E | 2026 | 2020 | 2021 | 2C6 | 2030 | 2039 | 2018 | 2019 | 201C | 201D | 2022 | 2013 | 2014 | 2DC | 2122 | 203A |
Siehe auch
Einzelnachweise
- 1 2 Charset name: windows-1252. Internet Assigned Numbers Authority (IANA), abgerufen am 20. Dezember 2020 (englisch).
- ↑ Microsoft Windows Codepage: 1252 (Latin I). Microsoft, archiviert vom am 8. Mai 1999; abgerufen am 27. September 2019.
- ↑ HTML 5.1 Nightly Editor’s Draft 19 February 2013. 8.2.2.2 Character encodings. In: w3.org. World Wide Web Consortium, abgerufen am 19. Februar 2013 (englisch).
- ↑ Encoding. 4.2. Names and labels. In: Living Standard. WHATWG, abgerufen am 20. Dezember 2020 (englisch).
- ↑ Historical trends in the usage statistics of character encodings for websites, July 2022. w3techs.com, 21. Juli 2022, abgerufen am 21. Juli 2022.
- ↑ Frequently Asked Questions. w3techs.com, abgerufen am 21. Juli 2022.