Кодирование текста: различия между версиями

Нет изменений в размере ,  12 лет назад
м
Исправление опечаток и коррекция по мелочи , typos fixed: еще → ещё (2), ее → её, четвертый → четвёртый AWB
м Текстовой» переименована в «Кодирование текста»)
м (Исправление опечаток и коррекция по мелочи , typos fixed: еще → ещё (2), ее → её, четвертый → четвёртый AWB)
*ECMA-6 (European Computer Manufacturers Association).
 
Однако для нашей страны и многих других стран необходимо было добавить в кодовую таблицу символы национальных алфавитов. Для этого было предложено использовать 8-битную кодовую таблицу, которая могла содержать дополнительно ещеещё 128 символов (с 128 по 255).
 
В дальнейшем был принят стандарт на 8-битную таблицу ASCII – ISO/IEC 8859, в которой первые 128 символов оставались те же, что и в 7-битной таблице, а символы с 128 по 255 отводились для неанглийских символов.
[[Изображение:image009.png]]<br />
Рисунок 1.5. Таблица символов DOS Cyrillic (CP866)<br />
С широким распространением операционной системы Microsoft Windows и появлением еееё национальных локализаций для второй половины таблицы ASCII было введено понятие «кодовая страница» (code page, CP). Несколько наиболее важных кодировок показаны в таблице 1.1.
 
Таблица 1.1. Некоторые национальные кодовые страницы (CP) операционной системы Microsoft Windows
Unicode резервируют 1114112 (220+216) символов кода, в настоящее время используются более 96000 символов. Первые 256 кодов символов точно соответствуют таковым ISO 8859-1, наиболее популярной 8-разрядной таблицы символов «западного мира»; в результате, первые 128 символов также идентичны таблице ASCII.
Кодовое пространство стандарта Unicode разделено на 17 планов («planes»), и каждый план имеет 65536 (= 216) точек кода. Первый план (план 0), Основной Многоязычный План (BMP - Basic Multilingual Plane) - тот, в котором описано большинство символов. BMP содержит символы почти для всех современных языков, и большое количество специальных символов.
ЕщеЕщё два плана используются для «графических» символов. План 1, Дополнительный Многоязычный План (SMP - Supplementary Multilingual Plane ) главным образом используется для исторических символов, а также используется для музыкальных и математических символов. План 2, Supplementary Ideographic Plane (SIP), используется для приблизительно 40000 редких Китайских иероглифов. План 15 и План 16 открыт для любого частного использования.
На рисунке 1.10 показан русский блок Unicode (U+0400 to U+04FF).<br />
[[Изображение:image019.gif]][[Изображение:image020.gif]]<br />
|010000 - 10FFFF
|11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
|Первые 5 бит 11110 – всего используется 4 байта, второй, третий и четвертыйчетвёртый байты начинаются с 10
|}
Особняком стоит 7-битная, русская кодировка - транслитерация, или транскириллица, когда русские буквы передаются похожими по звучанию английскими primerno takim obrazom.
49

правок