Оцифровка печатных текстов: различия между версиями

на каком это языке?
(на каком это языке?)
«Электронные книги» — это хранимый в компьютере текст, оформленный в виде, свойственном печатным книгам. Так, электронные книги обычно дробят содержимый текст на равноразмерные нумерованные страницы; их типографика соответствует уровню печатных изданий. Важно сразу же различать ''сканированные'' и ''вёрстанные'' электронные книги.
 
;Вёрстанные книги: — это либо материал, подготовленный авторами в издательской системе, либо распознанная и вручную вычитанная и отформатированная бумажная книга. Исходником является обычно файл в формате наглядного текстового процессора (OpenOffice.org или Word) или на языке разметки (LaTeX). О подробностях редактирования электронных текстов в текстовых процессорах вы можете почитать в викиучебнике «[[работа с электронным текстом]]». Конечным результатом является электронная книга в формате PDF (Adobe Portable Document Format), реже ПостСкрипт (Adobe PostScript) или DVI. Такие файлы обычно содержат векторные шрифты и иллюстрации высокого качества, поэтому они пригодны для печати в любом разрешении, для просмотра на экране, и для поиска по тексту книги (включая возможность выделять и копировать куски текста и иллюстрации). Файлы этого вида кратко будем называть <u>векторными</u>. Типичные векторные PDF-файлы имеют размеры от 3 (редко) до 10—15 килобайт на страницу, в зависимости от числа формул и иллюстраций.
;Сканированные книги: — это файлы, хранящие целые электронные изображения каждой страницы книги. Такие файлы делаются путём сканирования бумажной книги постранично и дальнейшей обработки с целью улучшения качества и уменьшения размеров файла. Поскольку каждая страница хранится в виде ряда точек (<u>растра</u>), то такие книги можно кратко называть <u>растровыми</u>, чтобы отличить их от векторных. Основные форматы, употребляющиеся для растровых файлов, — это PDF и DJVU. В этих форматах можно добавить также и распознанный текст, закладки и гиперссылки, чтобы были возможны быстрые переходы по книге и автоматический поиск текста. Поэтому качественно сделанные растровые книги не менее удобны в использовании, чем векторные, и несущественно проигрывают им в качестве распечатанного текста. Типичный размер растровой книги — от 5 (редко) до 10—15 килобайт на страницу, в зависимости от разрешения и качества текста или иллюстраций.
 
Производство векторной электронной книги из бумажной книги путём компьютерного распознавания (OCR) связано с колоссальными затратами труда, особенно если книга содержит много иллюстраций, графиков, диаграмм, таблиц, или формул, ибо нынешнее состояние распознавательных программ заставляет форматировать всё это вручную, и нередко — исправлять ошибки распознавания текста. Поэтому для таких книг гораздо легче делать именно растровые, а не векторные электронные версии. Даже в чисто текстовых книгах — без иллюстраций, таблиц или формул — автоматическое распознавание порой даёт трудновыявимые ошибки. Гораздо быстрее приготовить растровую электронную книгу, тем более что современная технология сжатия изображений позволяет делать файлы вполне приемлемого размера. Например, средний размер растровых книг, включая распознанный текст — 13 КБ на страницу. Это означает, что растровая книга, имеющая 400 страниц, в среднем занимает около 5 МБ (цифры приводятся для формата DJVU). На стандартном ДВД-носителе (4,3 ГБ) может поместиться около 900 таких книг.
 
Некоторые программы позволяют делать файлы формата PDF, в которых весь плохо распознанный материал содержится в виде отсканированных картинок, а текст является векторным. Такие PDF -файлы однако сильно проигрывают чисто растровым книгам и по внешнему виду (нестыковка векторных шрифтов и фрагментов изображения страницы), и по размеру файлов.
 
=== Правовые аспекты ===
=== Форматы DJVU и PDF ===
 
Формат DJVU позволяет сжимать растровое изображение несколько лучше, чем PDF, просматривается несколько быстрее, а также более удобен в технической обработке. Например, есть простые и бесплатные программные средства для редактирования гиперлинков, закладок и OCR-слоя в DJVU, но таких средств нет для PDF. Также, файлы DJVU более устойчивы к сбоям, чем PDF, и менее зависимы от версии просмотрщика, поскольку формат DJVU гораздо проще. Недостаток DJVU: возможность внести искажения при сильном сжатии и большое количество разных режимов сжатия приводят к тому, что сделать некачественный файл начинающему пользователю довольно легко. Также, DJVU -файлы (по теперешнему стандарту) позволяют делать гиперлинки на другую страницу того же документа, но не на другой файл, не на сайт интернета, и не на выбранное место на данной странице (это можно делать в PDF). Однако формат DJVU несложен, документирован и содержит гибкий механизм добавления метаинформации: к каждой странице можно добавлять произвольную информацию в виде нескольких пар <code>key=value</code>. Поэтому в принципе можно сделать всё это и многое другое (например проверку md5sum или криптографическую подпись) средствами формата DJVU.
 
Главное достоинство формата PDF — широкая совместимость (у всех есть бесплатный Acrobat Reader или его аналоги) и тот факт, что большинство людей пока ничего не знают о формате DJVU. Однако, надо заметить, что программы для просмотра DJVU тоже бесплатные и требуют гораздо меньших ресурсов компьютера, чем Acrobat Reader. Недостатки PDF в основном технические, но они существенны. Главный недостаток — невозможность определить разрешение растра, находящегося внутри PDF. Это приводит к сильным потерям в качестве изображения при попытках улучшить качество неоптимально сделанного растрового PDF -файла. Неоптимальные PDF -файлы могут иметь размеры 100—200 КБ на страницу и даже более. Оптимальный растровый PDF тратит от 10 до 20 КБ на страницу, что примерно на 30—50 % больше, чем DJVU. Другие недостатки формата PDF — невозможность эффективно редактировать файлы и чувствительность к сбоям при передаче файлов. Сбойный файл часто невозможно просмотреть даже частично. К техническим недостаткам формата PDF относится и то, что иногда не получается произвести оптимизацию размера файла, которая в принципе была бы возможна, если бы формат PDF был лучше спроектирован.
 
{| class="wikitable"
| 1. Чтобы определить разрешение растра, находящегося внутри ''готового'' PDF, можно воспользоваться функционалом Adobe Acrobat (описываю по версии 5.0). Извлекаем изображения из pdf-файла: File -> Export -> Extract Images As -> TIFF Files. В разделе Settings выбрать Colorspace: Determine Automatically и Resolution: Determine Automatically.
Сохраненные изображения открыть в Irfan View и нажать кнопку «Image Information».
Работает для большинства pdf-файлов. За редким исключением. Иногда, действительно, попадаются файлы, которые не поддаются такой обработке (Acrobat выдает ошибку типа: XObject cannot be extracted).
 
2. Чтобы установить разрешение растра, который ''будет получен'' в pdf при печати изображения на виртуальный принтер Distiller (описываю по версии 5.0), нужно выбрать в свойствах принтера пресет «Screen» (Принтер -> Свойства -> Общие — Настройка печати -> Adobe PDF Settings — Conversion Settings: Screen). Чуть ниже в этом же диалоге нажать кнопку Edit Conversion Settings, на закладке Compression снять галочки со всех Average Downsampling. Тогда разрешение изображений меняться не будет. (Или выставить в 600 dpi. Тогда только изображения с большим разрешением будут приводится к 600 dpi.) Пресет сохранить под новым именем, скажем, Screen-fullresolution.
|}
 
Проиллюстрируем соотношение размеров PDF- и DJVU -файлов. Перевод в формат DJVU типичной отсканированной издательством статьи из журнала Physical Review (у них высокое разрешение и хорошее качество сканирования) уменьшает размер издательского PDF -файла в 10 раз. Во многих случаях перевод из векторного PDF в DJVU, даже с высоким качеством изображения и сохранением текста и навигации, всё равно даёт файл DJVU меньшего размера, чем исходный PDF. Это очень часто относится к файлам, созданным такими программами, как Quark Express, Acrobat Distiller (но не к файлам, созданным с помощью Latex/Ghostscript). Иногда векторные PDF -файлы содержат много формул в виде вставных растров; такие файлы уменьшаются в 3—4 раза при переводе в DJVU.
 
Именно технические достоинства формата DJVU и возможность автоматизированно обрабатывать DJVU -файлы привели к широкому использованию формата DJVU среди энтузиастов создания растровых электронных книг, в основном научно-технического характера.
 
== Приспособления для сканирования ==
После создания чистовой версии всех страниц книги, которые пока что хранятся в отдельных графических файлах, приступают к сжатию всех страниц в единый файл формата DJVU или PDF.
 
Файлы PDF и DJVU могут использовать разные степени сжатия. Наибольшее сжатие достигается в формате DJVU (алгоритм JBIG2), если текст черно-белый, отсканирован четко (это сильно зависит от физического состояния исходной книги), шрифт не слишком мелкий, а края букв ровные (не рваные). Формат PDF позволяет сжимать как алгоритмом JBIG2 (при этом размер получается на 20—30 % больше, чем размер DJVU), так и менее эффективными алгоритмами, например TIFF-G4. Размер PDF -файла после сжатия PDF/TIFF-G4 примерно в 4—8 раз больше, чем у PDF/JBIG2.
 
Имеются программы для создания хорошо сжатых файлов DJVU и PDF/JBIG2 файлов. Для формата DJVU это коммерческие программы от LizardTech: DjvuSolo и Djvu Document Editor. Для формата PDF это коммерческая версия Adobe Acrobat (не Reader). Есть и бесплатные программы для создания DJVU и PDF/JBIG2, но они пока не дают настолько хорошего сжатия, как коммерческие версии. Полубесплатная программа CPCtool, используемая как промежуточный этап перед окончательным сжатием, позволяет несколько улучшить сжатие DJVU (10—30 %) и во многих случаях сгладить «лохматые» контуры букв.
 
После создания окончательной чистовой версии книги делается распознавание текста (OCR). Распознавание текста на большинстве языков можно производить как коммерческой версией Djvu Document Editor (для DJVU), так и широко распространённой программой FineReader (для PDF). Имеется также бесплатный софт (утилита DjvuOCR) для вставки OCR-слоя в DJVU -файлы после распознавания в программе FineReader. По опыту, FineReader дает лучшее качество распознавания, чем Djvu Document Editor (который использует движок IRIS). Ознакомительные или демо-версии этих программ можно получить на официальных сайтах производителей.
 
Имеется также возможность автоматически добавить гипертекстовые ссылки в оглавление и индекс DJVU-книги. Это делает бесплатная утилита Djvu Hyperlink Editor.
Часто бывает необходимо улучшить уже имеющуюся электронную книгу. Доделка бывает по разным причинам необходима как для вёрстанных, так и для сканированных книг. Поскольку сканирование или вёрстка — самый трудоёмкий этап, то целесообразно обработать уже имеющийся файл до максимально хорошего качества (за исключением крайних случаев, когда качество имеющегося файла книги слишком низкое и лучше переделать всё заново).
 
=== Доделка PS -файлов ===
 
PS-файлы почти всегда являются продуктом вёрстки в системе LaTeX и могут быть автоматически сконвертированы в формат PDF с помощью бесплатного пакета ghostscript (утилита ps2pdf). Однако при этом иногда появляется проблема, состоящая в том, что полученные PDF -файлы не позволяют делать поиск по тексту. Причина этого явления такова. Файлы, созданные ранними версиями LaTeX, часто имеют растровые шрифты (вместо векторных). В таком случае при переводе в PDF текст набран нестандартным (то есть не векторным) шрифтом и поиск по файлу невозможен. При использовании достаточно новых версий LaTeX можно указать, что шрифты должны быть векторные, и эта проблема автоматически отпадает. Однако существует много PS- и PDF-файлов, сделанных по-старому и проявляющих этот дефект.
 
Исправить этот дефект можно двумя способами:
 
* Перевести файл в формат DJVU и произвести распознавание (OCR) текста. Перевод из векторного PDF в DJVU производится утилитами gs2djvu или pdftodjvu.
* Если есть исходный PS -файл, созданный утилитой dvips версии 5.58 или старше, то можно воспользоваться утилитой pkfix.
 
=== Доделка PDF -файлов ===
 
Поскольку формат PDF является сейчас самым распространённым, то часто встречаются отсканированные книги, хранимые в этом формате (вдобавок ко другим возможным дефектам отсканированных книг). Почти всегда бывает целесообразно переделать такие файлы в формат DJVU, так как при этом можно добавить распознанный текст (OCR-слой) и существенно уменьшить размер электронной книги.
 
Иногда переделке подлежат также и векторные PDF -файлы. Это относится к файлам со следующими дефектами:
 
* Отсутствие поиска по тексту книги. (Растровые шрифты, или неверная кодировка текста.) Самый простой способ исправить — переделать в DJVU и добавить OCR.
* Размер файла больше 10 КБ на страницу (кроме PDF -файлов, содержащих большое число цветных фотографий). Можно пытаться оптимизировать PDF утилитами Multivalent или Acrobat. Иногда целесообразно перевести в DJVU с сохранением текста (утилита pdftodjvu).
* Неверная навигация или неверный порядок страниц. Исправляется вручную с помощью Acrobat, или Foxit PDF Editor.
* Водяные знаки, не относящиеся к тексту, или другие нежелательные пометки на страницах. Исправляется вручную редактированием PDF-файла после декомпрессии. Или с помощью Acrobat 5.0 (в Acrobat 7.0 почему-то не работает) инструментом TouchUp Object Tool в виде стрелочки-указателя (hotkey: Shift-T). Щелкаем по нежелательному объекту и удаляем.
* Большое количество растровых вставок в векторный текст (формулы, таблицы, ненадежно распознанные слова). Исправляется переводом в DJVU с сохранением текста (утилита pdftodjvu).
 
=== Доделка DJVU -файлов ===
 
Весьма часты случаи, когда доделка DJVU -файлов возможна и необходима. Эти случаи таковы:
 
* Файл DJVU содержит цветную информацию, то есть DJVU-элементы типа IW44 (это видно из свойств страницы, или из результата djvudump), в то время как текст на самом деле чисто чёрно-белый. Цветовая информация является лишней и была включена в файл по ошибке. Исправляется переделкой DJVU в черно-белом режиме. Возможно также убрать лишние цветовые слои с помощью DjVu layers remove (на основе djvused), но текущая версия не поддерживает гиперссылки. (Строго говоря, это не совсем так — черное поле буквы основное, но в «цветном» режиме края букв выглядят более сглаженными. Поэтому в ряде случаев, если буквы и так низкого разрешения, стоит оставлять книгу как есть. Обработка должна идти до запаковывания в DjVu. Доделка часто ухудшает качество и читабельность, пусть даже уменьшая размер. Отключить же цвет в DjVu -книге можно просто выбрав другой режим просмотра).
* Страницы в файле DJVU расставлены в неверном порядке. Исправляется вручную с помощью Djvu Editor / Djvu Solo, или с помощью утилит djvm/djvmcvt (разбирая DJVU -файл на отдельные страницы и собирая обратно, без перекодирования).
* Гиперссылки показывают на неправильные страницы или на несуществующие файлы. Исправляется редактированием гиперссылок (утилита djvused и текстовый редактор).
* Отсутствует OCR-слой (распознанный текст). OCR-слой можно создать с помощью программы распознавания текста, например Fine Reader, Ocropus или Djvu Editor.
Все эти дефекты можно устранить повторной обработкой DJVU-файла. Это позволит сэкономить время на повторное сканирование и получить файл меньшего размера и лучшего качества.
 
Поскольку формат DJVU использует эффективное сжатие данных, то явно низкокачественный DJVU -файл (отсканированный в цвете и/или в низком разрешении) часто не удаётся переделать в высококачественный. Доделка бывает неэффективной или невозможной в следующих случаях:
 
* Файл DJVU содержит цветные изображения низкого разрешения (200 dpi и ниже), закодированные не в фото-режиме, а с разделением текста и фона. Результат — текст практически нечитаем. Исправить нельзя, так как большая часть изображения уже потеряна или не была отсканирована.
11

правок