Кодирование текста: различия между версиями

Нет изменений в размере ,  13 лет назад
Нет описания правки
м
Еще два плана используются для «графических» символов. План 1, Дополнительный Многоязычный План (SMP - Supplementary Multilingual Plane ) главным образом используется для исторических символов, а также используется для музыкальных и математических символов. План 2, Supplementary Ideographic Plane (SIP), используется для приблизительно 40000 редких Китайских иероглифов. План 15 и План 16 открыт для любого частного использования.
На рисунке 1.10 показан русский блок Unicode (U+0400 to U+04FF).
[[Изображение:image019.pnggif]][[Изображение:image020.pnggif]]
Рисунок 1.10. Кириллица в Unicode
В то же время, подобно двоичным файлам, кодировка Unicode мало подходит для непосредственной передачи по сети – байты в тексте вполне могут приходиться на область управляющих символов, поэтому обычно применяются две другие основанные на Unicode кодировки переменной длины, обозначаемые как UTF (Unicode Transformation Format): 7-битная UTF-7 (последний пересмотр – RFC2152, 1997 г., зарегистрирована в IANA как UTF-7) и 8-битная UTF-8 (RFC2279, 1998 г., зарегистрирована в IANA как UTF-8). Обе они в каком-то смысле уже не являются языковыми кодировками, а являются программно распознаваемым кодом относительно исходного Unicode, но зарегистрированы они именно как кодировки, наравне с ISO 8859-5 или KOI8-R. Естественно, обе они не являются специфически «русскими», а пригодны для написания «сколько угодно»-язычного письма.
50

правок