Кодирование текста: различия между версиями

41 байт добавлено ,  13 лет назад
м
Нет описания правки
(Новая: Для кодирования букв и других символов, используемых в печатных документах, необходимо закрепить за ...)
 
м
В дальнейшем был принят стандарт на 8-битную таблицу ASCII – ISO/IEC 8859, в которой первые 128 символов оставались те же, что и в 7-битной таблице, а символы с 128 по 255 отводились для неанглийских символов.
Существует несколько частей этого стандарта:
* ISO/IEC 8859-1:1998 -- Part 1:Latin alphabet No. 1,
* ISO/IEC 8859-5:1999 -- Part 5: Latin/Cyrillic alphabet,
* ISO/IEC 8859-6:1999 -- Part 6: Latin/Arabic alphabet,
* ISO/IEC 8859-7:2003 -- Part 7: Latin/Greek alphabet,
* ISO/IEC 8859-8:1999 -- Part 8: Latin/Hebrew alphabet и т.д.
На рисунке 1.2 представлена вторая половина кодовой таблицы (коды 128-255) для стандарта ISO 8859-5.
[[Изображение:image003.png]]
Таблица 1.1. Некоторые национальные кодовые страницы (CP) операционной системы Microsoft Windows
{| border=1
|Локализация|ANSI CP|Mac CP|DOS Primary CP(OEM)|DOS Secondary CP(OEM)|Другие CPs
|ANSI CP
|Mac CP
|DOS Primary CP(OEM)
|DOS Secondary CP(OEM)
|Другие CPs
|-
|English (United States)|1252|10000|437|850|
|1252
|10000
|437
|850
|
|-
|English (Britain, Canada и др.)|1252|10000|850|437|
|1252
|10000
|850
|437
|
|-
|French (Standard)|1252|10000|850|437|
|1252
|10000
|850
|437
|
|-
|French (Canada)|1252|10000|850|863|437
|1252
|10000
|850
|863
|437
|-
|German (Standard)|1252|10000|850|437|
|1252
|10000
|850
|437
|
|-
|Russian|1251|10007|866|855|
|1251
|10007
|866
|855
|
|}
Кодировка русских букв в операционной системе Microsoft Windows – CP1251 – показана на рисунке 1.6.
Таблица 1.2. Принцип кодирования символов в UTF-8
{| border=1
|Диапазон |UTF-8|Notes
|UTF-8
|Notes
|-
|кодов|(binary)||
|(binary)
|
|
|-
|(hexadecimal)|||
|
|
|
|-
|000000 - 00007F
|000000 - 00007F|0xxxxxxx|Первый бит 0, следующие 7 соотверствуют таблице ASCII
|0xxxxxxx
|000000 - 00007F|0xxxxxxx|Первый бит 0, следующие 7 соотверствуют таблице ASCII
|-
|000080 - 0007FF
|000080 - 0007FF|110xxxxx 10xxxxxx|Первые 3 бита 110 – всего используется 2 байта, второй байт начинается с 10
|110xxxxx 10xxxxxx
|000080 - 0007FF|110xxxxx 10xxxxxx|Первые 3 бита 110 – всего используется 2 байта, второй байт начинается с 10
|-
000800 - 00FFFF
000800 - 00FFFF|1110xxxx 10xxxxxx 10xxxxxx|Первые 4 бита 1110 – всего используется 3 байта, второй и третий байты начинаются с 10
|1110xxxx 10xxxxxx 10xxxxxx
000800 - 00FFFF|1110xxxx 10xxxxxx 10xxxxxx|Первые 4 бита 1110 – всего используется 3 байта, второй и третий байты начинаются с 10
|-
|010000 - 10FFFF
|010000 - 10FFFF|11110xxx 10xxxxxx 10xxxxxx 10xxxxxx|Первые 5 бит 11110 – всего используется 4 байта, второй, третий и четвертый байты начинаются с 10
|11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
|010000 - 10FFFF|11110xxx 10xxxxxx 10xxxxxx 10xxxxxx|Первые 5 бит 11110 – всего используется 4 байта, второй, третий и четвертый байты начинаются с 10
|}
Особняком стоит 7-битная, русская кодировка - транслитерация, или транскириллица, когда русские буквы передаются похожими по звучанию английскими primerno takim obrazom.
50

правок