Оцифровка печатных текстов: различия между версиями

===Форматы DJVU и PDF===
 
Формат DJVU позволяет сжимать растровое изображение несколько лучше, чем PDF, просматривается несколько быстрее, а также более удобен в технической обработке. Например, есть простые и бесплатные программные средства для редактирования гиперлинков, закладок и OCR-слоя в DJVU, но таких средств нет для PDF. Также, файлы DJVU более устойчивы к сбоям, чем PDF, и менее зависимы от версии просмотрщика, поскольку формат DJVU гораздо проще. Недостаток DJVU: возможность внести искажения при сильном сжатии и большое количество разных режимов сжатия приводят к тому, что сделать некачественный файл начинающему пользователю довольно легко. Также, DJVU файлы (по теперешнему стандарту) позволяют делать гиперлинки на другую страницу того же документа, но не на другой файл, не на сайт интернета, и не на выбранное место на данной странице (это можно делать в PDF). Однако формат DJVU несложен, документирован и содержит гибкий механизм добавления метаинформации: к каждой странице можно добавлять произвольную информацию в виде нескольких пар <code>key=value</code>. Поэтому в принципе можно сделать всё это и многое другое (например проверку md5sum или криптографическую подпись) средствами формата DJVU.
 
Главное достоинство формата PDF — широкая совместимость (у всех есть бесплатный Acrobat Reader) и тот факт, что большинство людей пока ничего не знают о формате DJVU. Однако, надо заметить, что программы для просмотра DJVU тоже бесплатные и требуют гораздо меньших ресурсов компьютера, чем Acrobat Reader. Недостатки PDF в основном технические, но они существенны. Главный недостаток — невозможность определить разрешение растра, находящегося внутри PDF. Это приводит к сильным потерям в качестве изображения при попытках улучшить качество неоптимально сделанного растрового PDF файла. Неоптимальные PDF файлы могут иметь размеры 100—200 КБ на страницу и даже более. Оптимальный растровый PDF тратит от 10 до 20 КБ на страницу, что примерно на 30—50% больше, чем DJVU. Другие недостатки формата PDF — невозможность эффективно редактировать файлы и чувствительность к сбоям при передаче файлов. Сбойный файл часто невозможно просмотреть даже частично. К техническим недостаткам формата PDF относится и то, что иногда не получается произвести оптимизацию размера файла, которая в принципе была бы возможна, если бы формат PDF был лучше спроектирован.
Анонимный участник