ISO/IEC 2022

ISO/IEC 2022, Informationstechnologie – Zeichensatzstruktur- und -erweiterungstechniken (englisch Information Technology – Character code structure and extension techniques) ist eine ISO-Norm, die eine Technik zur Kodierung mehrerer Zeichensätze sowie Sprachen, die nicht in 7 Bits kodiert werden können, definiert.

Der Zeichensatz sollte das Problem unterschiedlicher zueinander inkompatibler Zeichenkodierungen lösen sowie die Kodierung ostasiatischer Schriftsysteme ermöglichen. Ein in ISO 2022 kodierter String kann problemlos durch 7-Bit-Kanäle transportiert werden, was die Verwendung des Zeichensatzes im Mail- und Usenet-Verkehr ermöglicht. Mithilfe von meist drei oder vier Byte langen Escape-Sequenzen kann zwischen mehreren Zeichensätzen geschaltet werden. Pro Escapesequenz können, abhängig von ihrer Definition, entweder 94, 8.836 (in einer 94×94-Matrix) oder 830.584 (in einer dreidimensionalen 94×94×94-Matrix) Zeichen kodiert werden.

Jedoch konnte sich ISO/IEC 2022 nur im ostasiatischen Mailverkehr durchsetzen, für westliche Sprachen wurde keine Version veröffentlicht. Stattdessen wurde Unicode entwickelt, um diese Aufgabe zu erfüllen.

Es gibt drei Versionen von ISO/IEC 2022 für die drei ostasiatischen Schriften, ISO-2022-JP, ISO-2022-KR und ISO-2022-CN.

ISO-2022-JP

ISO-2022-JP kodiert die japanische Schrift. Sie wird häufig im Mailverkehr eingesetzt, ansonsten wird eher auf Shift JIS oder EUC-JP zurückgegriffen.

Die ursprüngliche Version wird in RFC 1468 beschrieben und enthält die folgenden vier Escape-Sequenzen:

ESC ( B schaltet zu ASCII (1-Byte)
ESC ( J schaltet zu JIS-Roman (1-Byte)
ESC $ @ schaltet zu JIS X 0208:1978 (2-Byte)
ESC $ B schaltet zu JIS X 0208:1983 (2-Byte)

ISO-2022-JP-1 wird in RFC 2237 beschrieben und fügt eine weitere Escapesequenz hinzu:

ESC $ ( D schaltet zu JIS X 0212:1990 (2-Byte)

ISO-2022-JP-2 wird in RFC 1554 beschrieben und fügt weitere Escapesequenzen zur Unterstützung weiterer Sprachen hinzu. Sie erweitert ISO-2022-JP-1 um die folgenden Escapesequenzen:

ESC $ A schaltet zu GB2312-1980 (2-Byte)
ESC $ ( C schaltet zu KS C 5601-1987 (2-Byte)
ESC . A schaltet zu ISO 8859-1 (1-Byte)
ESC . F schaltet zu ISO 8859-7 (1-Byte)

ISO-2022-JP-3 erweitert die ursprüngliche Version um folgende Escapesequenzen:

ESC ( I schaltet zu JIS X 0201 (1-Byte)
ESC $ ( O schaltet zu JIS X 0213:2000, Plane 1 (2-Byte)
ESC $ ( P schaltet zu JIS X 0213:2000, Plane 2 (2-Byte)

ISO-2022-JP-2004 erweitert ISO-2022-JP-3 um die folgende Escapesequenz:

ESC $ ( Q schaltet zu JIS X 0213:2004, Plane 1 (2-Byte)

ISO-2022-KR

ISO-2022-KR kodiert die koreanische Schrift und wird neben EUC-KR auf koreanischen Websites verwendet. Sie enthält nur eine einzige Escapesequenz:

ESC $ ( C schaltet zu KS C 5601-1987 (2-Byte)

ISO-2022-CN

ISO-2022-CN kodiert die chinesische Schrift (sowohl Kurz- als auch Langzeichen) und wird in RFC 1922 beschrieben. Sie wird fast nie verwendet, EUC-CN bzw. Big5 und im Mailverkehr HZ sind viel häufiger anzutreffen. Die Kodierung enthält die folgenden Escapesequenzen:

ESC $ ( A schaltet zu GB2312-1980 (2-Byte)
ESC $ ( G schaltet zu CNS 11643-1992, Plane 1 (2-Byte)
ESC $ ( H schaltet zu CNS 11643-1992, Plane 2 (2-Byte)

ISO-2022-CN-EXT erweitert den ursprünglichen Zeichensatz um die folgenden Escapesequenzen:

ESC $ ( E schaltet zu ISO-IR-165 (2-Byte)
ESC $ ( I schaltet zu CNS 11643-1992, Plane 3 (2-Byte)
ESC $ ( J schaltet zu CNS 11643-1992, Plane 4 (2-Byte)
ESC $ ( K schaltet zu CNS 11643-1992, Plane 5 (2-Byte)
ESC $ ( L schaltet zu CNS 11643-1992, Plane 6 (2-Byte)
ESC $ ( M schaltet zu CNS 11643-1992, Plane 7 (2-Byte)

Weblinks

ECMA 35. ecma-international.org (identisch zu ISO 2022)

Einzelnachweise

↑ RFC 1468 – Japanese Character Encoding for Internet Messages. November 1993 (englisch).
↑ RFC 2237 – Japanese Character Encoding for Internet Messages. November 1997 (englisch).
↑ RFC 1554 – ISO-2022-JP-2: Multilingual Extension of ISO-2022-JP. Dezember 1993 (englisch).
↑ RFC 1922 – Chinese Character Encoding for Internet Messages. März 1996 (englisch).

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.

[1] RFC 1468 – Japanese Character Encoding for Internet Messages. November 1993 (englisch).

[2] RFC 2237 – Japanese Character Encoding for Internet Messages. November 1997 (englisch).

[3] RFC 1554 – ISO-2022-JP-2: Multilingual Extension of ISO-2022-JP. Dezember 1993 (englisch).

[4] RFC 1922 – Chinese Character Encoding for Internet Messages. März 1996 (englisch).