Кодирование текста: различия между версиями
Содержимое удалено Содержимое добавлено
Ramir (обсуждение | вклад) м «Текстовой» переименована в «Кодирование текста» |
MaxSem (обсуждение | вклад) м Исправление опечаток и коррекция по мелочи , typos fixed: еще → ещё (2), ее → её, четвертый → четвёртый AWB |
||
Строка 14:
*ECMA-6 (European Computer Manufacturers Association).
Однако для нашей страны и многих других стран необходимо было добавить в кодовую таблицу символы национальных алфавитов. Для этого было предложено использовать 8-битную кодовую таблицу, которая могла содержать дополнительно
В дальнейшем был принят стандарт на 8-битную таблицу ASCII – ISO/IEC 8859, в которой первые 128 символов оставались те же, что и в 7-битной таблице, а символы с 128 по 255 отводились для неанглийских символов.
Строка 35:
[[Изображение:image009.png]]<br />
Рисунок 1.5. Таблица символов DOS Cyrillic (CP866)<br />
С широким распространением операционной системы Microsoft Windows и появлением
Таблица 1.1. Некоторые национальные кодовые страницы (CP) операционной системы Microsoft Windows
Строка 104:
Unicode резервируют 1114112 (220+216) символов кода, в настоящее время используются более 96000 символов. Первые 256 кодов символов точно соответствуют таковым ISO 8859-1, наиболее популярной 8-разрядной таблицы символов «западного мира»; в результате, первые 128 символов также идентичны таблице ASCII.
Кодовое пространство стандарта Unicode разделено на 17 планов («planes»), и каждый план имеет 65536 (= 216) точек кода. Первый план (план 0), Основной Многоязычный План (BMP - Basic Multilingual Plane) - тот, в котором описано большинство символов. BMP содержит символы почти для всех современных языков, и большое количество специальных символов.
На рисунке 1.10 показан русский блок Unicode (U+0400 to U+04FF).<br />
[[Изображение:image019.gif]][[Изображение:image020.gif]]<br />
Строка 138:
|010000 - 10FFFF
|11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
|Первые 5 бит 11110 – всего используется 4 байта, второй, третий и
|}
Особняком стоит 7-битная, русская кодировка - транслитерация, или транскириллица, когда русские буквы передаются похожими по звучанию английскими primerno takim obrazom.
|