ArininAV

Приложение 7.
Стандартные кодировки символов

Следующие таблицы содержат все допустимые значения параметра charset в метаописателе HTML-документов <META http-equiv="Content-Type" content="text/html; charset=идентификатор"> и в атрибуте encoding пролога XML-документов.

Для каждой кодировки приведены ее название, рекомендуемый в MIME идентификатор, допустимые синонимы этого идентификатора и номер соответствующей кодовой страницы в Windows.

WDH+ См. также WDH+: О кодировках символов и Unicode и письменности мира.

Таблица П7.1.
Стандартные кодировки символов
Наименование Идентификатор Синонимы Кодовая страница
Unicode (UTF-7) utf-7 csUnicode11UTF7, unicode-utf_7, unicode-1-1-utf-7, unicode-2-0-utf-7, x-unicode-2-0-utf-7 65000
Unicode (UTF-8) utf-8 unicode-utf_8, unicode-utf_8-1_1, unicode-1-1-utf-8, unicode-2-0-utf-8, x-unicode-2-0-utf-8 65001
Unicode (UTF-16) unicode-utf_16 csUnicode11, csUnicodeASCII, csUnicodeLatin1, ISO-10646-UCS-2, ISO-10646-UCS-BASIC, ISO-10646-Unicode-Latin1, ISO-10646, ISO-10646-J-1, unicode-utf_16-1.1  
Unicode (UTF-32) unicode-utf_32 ISO-10646-UCS-4  
Арабский (ASMO 708) ASMO-708   708
Арабский (DOS) DOS-720   720
Арабский (ISO) iso-8859-6 csISOLatinArabic, iso-ir-127, ISO_8859-6, ISO_8859-6:1987, iso-8859_6-1999, ECMA-114, arabic 28596
Арабский (Windows) windows-1256 cp1256, windows-1256-2000 1256
Балтийские языки (Latin-4) iso-8859-4 csISOLatin4, iso-ir-110, ISO_8859-4, ISO_8859-4:1988, iso-8859_4-1988, l4, latin4 28594
Балтийские языки (Windows) windows-1257 windows-1257-2000 1257
Вьетнамский (Windows) windows-1258 windows-1258-2000 1258
Греческий (ISO) iso-8859-7 csISOLatinGreek, iso-ir-126, ISO_8859-7, ISO_8859-7:1987, iso-8859_7-1987, ECMA-118, ELOT_928, greek, greek8 28597
Греческий (Windows) windows-1253 windows-1253-2000, x-cp1253 1253
Европа (Latin-3) iso-8859-3 iso-8859_3-1999 28593
Европа (Latin-6) iso-8859-10 iso-8859_10-1999  
Европа (Latin-7) iso-8859-13 iso-8859_13-1999  
Европа (Latin-9) iso-8859-15 iso-8859_15-1999 28605
Западная Европа (ASCII) us-ascii ANSI_X3.4-1968, ANSI_X3.4-1986, cp367, csASCII, IBM367, iso-ir-6, ISO646-US, ISO_646.irv:1991, ascii, us, us-ascii-1968, x-ansi 20127
Западная Европа (Latin-1) iso-8859-1 cp819, ibm819, iso-ir-100, iso8859-1, iso_8859-1, iso_8859-1:1987, iso-8859_1-1998, ISO-8859-1-Windows-3.0-Latin-1, ISO-8859-1-Windows-3.1-Latin-1, latin1, l1 29591
Западная Европа (Mac) mac-roman-2000 x-mac-roman 10000
Западная Европа (Windows) windows-1252   1252
Иврит (DOS) DOS-862   862
Иврит (ISO–визуальный) iso-8859-8 csISOLatinHebrew, iso-ir-138, ISO_8859-8, iso-8859_8-1999, ISO-8859-8 Visual, visual, hebrew 28598
Иврит (ISO–логический) iso-8859-8-i   38598
Иврит (Windows) windows-1255 ISO_8859-8:1988, iso-ir-138, logical, windows-1255-2000 1255
Кельтские языки (Latin-8) iso-8859-14 iso-8859_14-1999  
Кириллица (DOS) cp866 ibm866 866
Кириллица (ISO) iso-8859-5 csISOLatinCyrillic, iso-ir-144, ISO_8859-5, ISO_8859-5:1988, iso-8859_5-1999, cyrillic 28595
Кириллица (Mac) mac-cyrillic-2000 x-mac-cyrillic 10007
Кириллица (Windows) windows-1251 csWindows31Latin5, iso-8859-5-windows-latin-5, windows-1251-2000, x-cp1251 1251
Кириллица (КОИ8-Р) koi8-r csKOI8R, koi, ru-koi8_r-2000 20866
Китайский – традиционное письмо (EUC) x-euc-tw osf-euc_tw-2000 51950
Китайский – традиционное письмо (Windows) big5 csBig5, CN-Big5, windows-950, windows-950-2000, x-x-big5 950
Китайский – упрощенное письмо (GB2312) gb2312 csGB2312, csISO58GB23128, iso-ir-58, GB2312, GBK, GB_2312-80, gb-3212-2000, chinese, CN-GB, CN-GB-ISOIR165 936
Китайский – упрощенное письмо (HZ) hz-gb-2312   52936
Корейский (EUC) euc-kr csEUCKR, ks_c_5601, kcs5601, osf-euc_kr-2000 51949
Корейский (ISO) iso-2022-kr csISO2022KR, posix-2022_kr 50225
Корейский (Windows) ks_c_5601-1987 csKSC56011987, korean, windows-949, windows-949-2000 949
Тайский (Windows) iso-8859-11 windows-874, windows-874-2000 874
Турецкий (ISO) iso-8859-9 csISOLatin5, iso-ir-148, l5, ISO_8859-9, ISO_8859-9:1989, iso-8859_9-1999, latin5 28599
Турецкий (Windows) windows-1254 windows-1254-2000, x-cp1254 1254
Украинский (КОИ8-У) koi8-u   21866
Центральная Европа (DOS) ibm852 cp852 852
Центральная Европа (Latin-2) iso-8859-2 csISOLatin2, iso-ir-101, iso8859-2, iso_8859-2, iso_8859-2:1987, iso_8859_2-1999, ISO-8859-2-Windows-Latin-2, l2, latin2 28592
Центральная Европа (Mac) mac-ce-2000 x-mac-ce 10029
Центральная Европа (Windows) windows-1250 x-cp1250 1250
Японский (EUC) euc-jp csEUCPkdFmtJapanese, Extended_UNIX_Code_Packed_Format_for_Japanese, osf-euc_jp-2000, x-euc, x-euc-jp 51932
Японский (JIS) iso-2022-jp csISO2022JP, csISO2022JP2, iso-2022-jp-2, posix-2022_jp-2000 50220
Японский (JIS – допускающий однобайтовую кану – SO/SI) iso-2022-jp csISO2022JP, _iso-2022-jp$SIO 50222
Японский (JIS – допускающий однобайтовую кану) csISO2022JP _iso-2022-jp$ESC 50221
Японский (Windows) shift_jis csShiftJIS, csWindows31J, ms_Kanji, shift-jis, x-ms-cp932, x-sjis, Windows-31J, windows-932-2000 932
Таблица П7.2.
Нестандартные кодировки символов в Internet Explorer
Наименование Идентификатор Кодовая страница
Unicode unicode 1200
Unicode (левый байт старший) unicodeFEFF 1201
Определенный пользователем x-user-defined 50000
Автоматический выбор _autodetect_all 50001
Корейский (автовыбор) _autodetect_kr 50949
Японский (автовыбор) _autodetect 50932