7086
правок
Oleg3280 (обсуждение | вклад) (полностью переделан раздел ссылок (убраны мёртвые ссылки), оформление ссылок на Википедию) |
Oleg3280 (обсуждение | вклад) (викификация, оформление ссылок на Википедию) |
||
{{wikipedia|Оцифровка книг}}
Оцифровка печатных документов
Это руководство осветит все практичные способы оцифровки, доступные широкому кругу пользователей персональных компьютеров.
== Об электронных книгах ==
{{wikipedia|Электронная книга}}
«Электронные книги»
;Вёрстанные книги:
;Сканированные книги:
Производство векторной электронной книги из бумажной книги путём компьютерного распознавания (OCR) связано с колоссальными затратами труда, особенно если книга содержит много иллюстраций, графиков, диаграмм, таблиц, или формул, ибо нынешнее состояние распознавательных программ заставляет форматировать всё это вручную, и нередко
Некоторые программы позволяют делать файлы формата PDF, в которых весь плохо распознанный материал содержится в виде отсканированных картинок, а текст является векторным. Такие PDF файлы однако сильно проигрывают чисто растровым книгам и по внешнему виду (нестыковка векторных шрифтов и фрагментов изображения страницы), и по размеру файлов.
=== Правовые аспекты ===
По существующим в большинстве стран законам, книги являются объектами одновременно авторского и имущественного права. Имущественное право
На каждой книге среди выходных данных указаны обладатели имущественного права и, соответственно, ограничения на распространение книги. Однако имущественное право на книги имеет конечный срок давности,
Законной является оцифровка книг, права на которые истекли, или книг, авторы и издатели которых разрешают их свободное распространение через интернет или другим образом (например, если автор выложил на интернет-странице электронную книгу после того, как издательство вернуло ему все имущественные права). Учтите, что законом запрещается оцифровывать или копировать (в том числе через бесплатные или платные интернет-сайты) электронные книги, являющиеся в настоящее время объектами имущественного права. Хранение таких электронных книг на вашем личном компьютере уже является копированием и также запрещено, за исключением того случая, если вы сами купили эту книгу у издательства в электронном виде. Даже если у вас есть купленный вами бумажный экземпляр какой-либо книги, защищенной имущественным правом, закон запрещает вам изготавливать оцифрованную версию этой книги или хранить на своём компьютере где-либо взятую оцифрованную версию, если только вы сами не купили электронную книгу у издательства, дополнительно к бумажному экземпляру.
Мы призываем вас знать и соблюдать законы той страны, где вы живете, и оцифровывать только материалы, не являющиеся объектами имущественных прав. Данное руководство по оцифровке книг имеет чисто технический характер и не может рассматриваться как инструкция по нарушению закона. Ссылки на интернет-источники предоставляются только в целях ознакомления с техникой оцифровки.
=== Форматы DJVU и PDF ===
Формат DJVU позволяет сжимать растровое изображение несколько лучше, чем PDF, просматривается несколько быстрее, а также более удобен в технической обработке. Например, есть простые и бесплатные программные средства для редактирования гиперлинков, закладок и OCR-слоя в DJVU, но таких средств нет для PDF. Также, файлы DJVU более устойчивы к сбоям, чем PDF, и менее зависимы от версии просмотрщика, поскольку формат DJVU гораздо проще. Недостаток DJVU: возможность внести искажения при сильном сжатии и большое количество разных режимов сжатия приводят к тому, что сделать некачественный файл начинающему пользователю довольно легко. Также, DJVU файлы (по теперешнему стандарту) позволяют делать гиперлинки на другую страницу того же документа, но не на другой файл, не на сайт интернета, и не на выбранное место на данной странице (это можно делать в PDF). Однако формат DJVU несложен, документирован и содержит гибкий механизм добавления метаинформации: к каждой странице можно добавлять произвольную информацию в виде нескольких пар <code>key=value</code>. Поэтому в принципе можно сделать всё это и многое другое (например проверку md5sum или криптографическую подпись) средствами формата DJVU.
Главное достоинство формата PDF
{| class="wikitable"
| 1. Чтобы определить разрешение растра, находящегося внутри ''готового'' PDF, можно воспользоваться функционалом Adobe Acrobat (описываю по версии 5.0). Извлекаем изображения из pdf-файла: File -> Export -> Extract Images As -> TIFF Files. В разделе Settings выбрать Colorspace: Determine Automatically и Resolution: Determine Automatically.
Сохраненные изображения открыть в Irfan View и нажать кнопку
Работает для большинства pdf-файлов. За редким исключением. Иногда, действительно, попадаются файлы, которые не поддаются такой обработке (Acrobat выдает ошибку типа: XObject cannot be extracted).
2. Чтобы установить разрешение растра, который ''будет получен'' в pdf при печати изображения на виртуальный принтер Distiller (описываю по версии 5.0), нужно выбрать в свойствах принтера пресет
3. Чтобы оптимизировать размер pdf-файла нужно в Adobe Acrobat пересохранить документ через меню File -> Save
|}
{|style="border:thin solid #ddd;background:#fefefe;margin-bottom:1em;padding:0.8em;"
!style="width:49%;padding:0.4em;"|Достоинства
!style="width:49%;padding:0.4em;"|Их недостатки
|-
{|style="border:thin solid #ddd;background:#fefefe;margin-bottom:1em;padding:0.8em;"
!style="width:49%;padding:0.4em;"|Достоинства
!style="width:49%;padding:0.4em;"|Их недостатки
|-
Теперь подробнее обо всех упомянутых особенностях.
== Фотоаппарат ==
Скорость сканирования полностью настроенным фотоаппаратом ограничивается в основном скоростью, с которой пользователь может сменять оригиналы перед объективом и жать на кнопку съёмки. То, что можно пристроиться в тихом уголке библиотеки и там работать сколько душе угодно
Но проблемы начинаются, если потребовать хотя бы минимального качества получаемых документов. Печать на современных принтерах идёт с разрешением от 300 (отмирает) до 2400 (и даже до 4800 в новейших моделях фотопринтеров) точек на дюйм (dots per inch, далее сокращённо '''dpi'''). Чтобы получить качественный отпечаток размера 1:1, необходимо иметь оригинал, оцифрованный с тем же разрешением. Таким образом, мы приходим к размеру оригинала, который может за раз оцифровать фотоаппарат, к примеру в 6 мегапикселей с минимально допустимым качеством:
в ширину
3000 пикселей / 300 точек на дюйм × 2,54
и в высоту
2000 пикселей / 300 точек на дюйм × 2,54
Поэтому удобнее использовать фотоаппараты с большим числом мегапикселей.
Теперь немного стандартов: лист формата А4 имеет размеры
Чтобы обеспечить высокое качество изображения, надо фотографировать книги постранично или даже кусками страниц
Однако после получения изображений кусками их необходимо склеивать. Это делают программы для сбора панорамных снимков, осуществляющие автоматическую склейку изображений, аналогичные программные продукты существуют также для сканированных изображений. Пользоваться ими легко.
Второй способ сшивки
Для получения частичных изображений надо двигать оригинал или фотоаппарат, соблюдая одинаковое освещение. Из-за этого, а также возможной у плохих фотоаппаратов бочкообразной дисторсии, склейка изображений не позволяет добиться их равномерности. Поэтому надо брать штатив и выбирать освещение, чтобы избавиться от таких искажений.
Далее
Итак, штатив при съёмках очень желателен. Нужно также заботиться об одинаковой подсветке.
Качество съёмки будет наилучшим при специальных настройках фотоаппарата. Желательно, чтобы фотоаппарат имел возможность сохранения данных с матрицы без сжатия, в так называемый RAW-формат, хотя можно снимать в качественный JPEG. Для постоянного характера снимков для их последующей пакетной обработки надо выдерживать одинаковую диафрагму, фокусировку и выдержку. Иными словами, надо ''знать свой фотоаппарат'' и уметь им пользоваться.
При этом дополнительные сложности вызывает объём сохраняемых RAW-файлов. Они способны полностью исчерпать память фотоаппарата за какие-нибудь триста-пятьсот снимков. В самом деле, с матрицы 6-мегапиксельного аппарата обычно снимается порядка 6×4=24 МБ данных за раз, а существенного сжатия без потери качества фотоаппараты делать не умеют (да это и не нужно при обычной фотосъёмке). Поэтому надо иметь большую карточку памяти
== Основные моменты сканирования ==
Есть два основных метода сканирования: целым разворотом и по одной странице. При любом методе части страницы, где находится текст, должны быть полностью прижаты к стеклу
Необходимо также определить оптимальную рамку сканирования и контрастность. Это можно подобрать только методом проб и ошибок, но это необходимо подобрать правильно перед сканированием. Желательно также сразу же установить гамму и точки белого и чёрного, если это позволяет софт Вашего сканера.
Класть книгу абсолютно ровно, без перекосов, у Вас всё равно не получится, но это и не нужно, так как выравнивание можно проделать автоматически специальным софтом на стадии обработки сканов. Разрезание отсканированных разворотов и выравнивание полей тоже делается почти автоматически.
Софт для управления сканером можно использовать любой, например VueScan (есть для Windows / Linux), Irfan View (Windows), XnView (Windows), gimp/sane (Linux). Поддержка сканеров для Linux/Mac гораздо хуже, потому что как правило все производители делают драйверы только для Windows.
<big>НЕ СЛЕДУЕТ</big> пользоваться программой [[w:FineReader|FineReader]] для сканирования текста при создании электронных книг, потому что FineReader автоматически делает неаккуратное выпрямление косых сканов, из-за которого в изображении появляются «изломы». Эти изломы не мешают при распознавании текстов, но плохо выглядят в растровом варианте отсканированной книги. Вот пример отсканированного текста, в котором появились «изломы» из-за сканирования в FineReader: [[
Софт для сканирования желательно использовать такой, чтобы получить сырые сканы в формате TIFF (не JPG, так как неизбежна потеря качества!), поименованные автоматически, например, так: page0001.tiff, page0002.tiff и так далее.
При сканировании по одной странице бывает удобнее сканировать сначала все четные страницы, потом все нечетные, и только потом переименовать все файлы автоматически по возрастанию номеров. При сканировании из XnView можно сразу указать, что сканируются только чётные или только нечётные страницы,
Разрешение (цифра «dpi»
{| class="wikitable"
| Здесь автор несколько категоричен. Сканирование в низком разрешении (200, 150, а иногда даже 100 dpi, но в полутонах, естественно
|}
Другие разрешения, такие как 360, 400 и
{| class="wikitable"
| Здесь автор несколько преувеличил или упростил: фраза
|}
{| class="wikitable"
| Упомянутый здесь
|}
Для максимального качества рекомендуется книги сканировать в сером режиме при 600 dpi, если же в книге есть информативные цветные иллюстрации, то в цветном 600 dpi. Это разрешение позволяет полностью разбить растровое изображение на отдельные цветные точки, что полностью подавляет муар.
В любом случае, запаситесь свободным пространством на винчестере
{| class="wikitable"
| Конечно на сегодня несколько гигабайт на винчестере не проблема, но не стоит принимать это мнение слишком серьезно, если вы сканируте обычную книгу в которой в основном только текст, а редкие изображения имеют характер схем или рисунков без полутонов. Я сканировал книгу по FreeBSD в растровый формат tiff с глубиной цвета 1 бит. Результат 250 страниц = 14,2 МБ.
К тому же я сканировал эту книгу с разрешением 150 dpi (кратно оптическому разрешению сканера) так как был ограничен во времени
свойства исходного материала: размер шрифта, контрастность, характер графической информации (текст, формулы, таблицы, рисунки, фотографии) требования к качеству предъявляемые тем кто будет её читать/печатать.
|}
== Сканирование цветных материалов ==
Сканирование и обработка цветных материалов (книги с большим количеством фотографий, важных для содержания) связаны с существенно бо́льшими трудностями, чем сканирование черно-белых книг. Гораздо труднее получить конечный файл разумного размера при сохранении хорошего качества изображения. Исходные отсканированные файлы могут достигать ста мегабайт и больше на страницу, а конечный результат
== Обработка отсканированных изображений ==
После сканирования необходимо просмотреть все страницы и убедиться, что нет явных огрехов. Например, иногда по недосмотру книга неровно легла на стекло сканера и часть текста на какой-либо странице не отсканировалась, или были вовсе пропущены некоторые страницы. После этого можно архивировать отсканированные изображения и приступать к обработке. Поскольку сканирование
Энтузиасты подготовили полные подробные инструкции по обработке отсканированных изображений и созданию электронных книг
Графическая обработка сканов состоит из следующих основных шагов:
* вычищение «грязи» на страницах (включая помарки от руки, штапмы и прочее)
Эти шаги частично автоматизированы в программе [[w:ScanKromsator|ScanKromsator]] (Windows) и описаны в инструкции «Scan and Share» (смотрите ссылки внизу страницы). Однако если эта программа показалась для вас слишком сложной, вы можете воспользоваться [[w:
После создания чистовой версии всех страниц книги, которые пока что хранятся в отдельных графических файлах, приступают к сжатию всех страниц в единый файл формата DJVU или PDF.
Файлы PDF и DJVU могут использовать разные степени сжатия. Наибольшее сжатие достигается в формате DJVU (алгоритм JBIG2), если текст черно-белый, отсканирован четко (это сильно зависит от физического состояния исходной книги), шрифт не слишком мелкий, а края букв ровные (не рваные). Формат PDF позволяет сжимать как алгоритмом JBIG2 (при этом размер получается на 20—30 % больше, чем размер DJVU), так и менее эффективными алгоритмами, например TIFF-G4. Размер PDF файла после сжатия PDF/TIFF-G4 примерно в 4—8 раз больше, чем у PDF/JBIG2.
Имеются программы для создания хорошо сжатых DJVU и PDF/JBIG2 файлов. Для формата DJVU это коммерческие программы от LizardTech: DjvuSolo и Djvu Document Editor. Для формата PDF это коммерческая версия Adobe Acrobat (не Reader). Есть и бесплатные программы для создания DJVU и PDF/JBIG2, но они пока не дают настолько хорошего сжатия, как коммерческие версии. Полубесплатная программа CPCtool, используемая как промежуточный этап перед окончательным сжатием, позволяет несколько улучшить сжатие DJVU (10—30 %) и во многих случаях сгладить «лохматые» контуры букв.
После создания окончательной чистовой версии книги делается распознавание текста (OCR). Распознавание текста на большинстве языков можно производить как коммерческой версией Djvu Document Editor (для DJVU), так и широко распространённой программой FineReader (для PDF). Имеется также бесплатный софт (утилита DjvuOCR) для вставки OCR-слоя в DJVU файлы после распознавания в программе FineReader. По опыту, FineReader дает лучшее качество распознавания, чем Djvu Document Editor (который использует движок IRIS). Ознакомительные или демо-версии этих программ можно получить на официальных сайтах производителей.
Также в Djvu-книгу можно добавить оглавление в виде иерархического дерева с помощью бесплатной утилиты Djvu Bookmarker.
== Доделка электронных книг ==
Часто бывает необходимо улучшить уже имеющуюся электронную книгу. Доделка бывает по разным причинам необходима как для вёрстанных, так и для сканированных книг. Поскольку сканирование или вёрстка
=== Доделка PS файлов ===
PS-файлы почти всегда являются продуктом вёрстки в системе LaTeX и могут быть автоматически сконвертированы в формат PDF с помощью бесплатного пакета ghostscript (утилита ps2pdf). Однако при этом иногда появляется проблема, состоящая в том, что полученные PDF файлы не позволяют делать поиск по тексту. Причина этого явления такова. Файлы, созданные ранними версиями LaTeX, часто имеют растровые шрифты (вместо векторных). В таком случае при переводе в PDF текст набран нестандартным (
Исправить этот дефект можно двумя способами:
* Если есть исходный PS файл, созданный утилитой dvips версии 5.58 или старше, то можно воспользоваться утилитой pkfix.
=== Доделка PDF файлов ===
Поскольку формат PDF является сейчас самым распространённым, то часто встречаются отсканированные книги, хранимые в этом формате (вдобавок ко другим возможным дефектам отсканированных книг). Почти всегда бывает целесообразно переделать такие файлы в формат DJVU, так как при этом можно добавить распознанный текст (OCR-слой) и существенно уменьшить размер электронной книги.
Иногда переделке подлежат также и векторные PDF файлы. Это относится к файлам со следующими дефектами:
* Отсутствие поиска по тексту книги. (Растровые шрифты, или неверная кодировка текста.) Самый простой способ исправить
* Размер файла больше 10 КБ на страницу (кроме PDF файлов, содержащих большое число цветных фотографий). Можно пытаться оптимизировать PDF утилитами Multivalent или Acrobat. Иногда целесообразно перевести в DJVU с сохранением текста (утилита pdftodjvu).
* Неверная навигация или неверный порядок страниц. Исправляется вручную с помощью Acrobat, или Foxit PDF Editor.
* Большое количество растровых вставок в векторный текст (формулы, таблицы, ненадежно распознанные слова). Исправляется переводом в DJVU с сохранением текста (утилита pdftodjvu).
=== Доделка DJVU файлов ===
Весьма часты случаи, когда доделка DJVU файлов возможна и необходима. Эти случаи таковы:
* Файл DJVU содержит цветную информацию, то есть DJVU-элементы типа IW44 (это видно из свойств страницы, или из результата djvudump), в то время как текст на самом деле чисто чёрно-белый. Цветовая информация является лишней и была включена в файл по ошибке. Исправляется переделкой DJVU в черно-белом режиме. Возможно также убрать лишние цветовые слои с помощью DjVu layers remove (на основе djvused), но текущая версия не поддерживает гиперссылки. (Строго говоря, это не совсем так
* Страницы в файле DJVU расставлены в неверном порядке. Исправляется вручную с помощью Djvu Editor / Djvu Solo, или с помощью утилит djvm/djvmcvt (разбирая DJVU файл на отдельные страницы и собирая обратно, без перекодирования).
* Отсутствует OCR-слой (распознанный текст). OCR-слой можно создать с помощью программы распознавания текста, например Fine Reader, Ocropus или Djvu Editor.
* Файл DJVU содержит изображения, сосканированные в развороте (2 страницы на лист), с тёмными полосами по краям, и/или невыровненные изображения страниц. Исправляется переделкой файла в программе типа ScanKromsator или ScanTailor.
* Файл DJVU был сжат в неоптимальном режиме (например Lossless или с маленьким размером DJVU-словаря) и поэтому имеет слишком большой размер. Исправляется перекодированием в более оптимальном режиме.
Поскольку формат DJVU использует эффективное сжатие данных, то явно низкокачественный DJVU файл (отсканированный в цвете и/или в низком разрешении) часто не удаётся переделать в высококачественный. Доделка бывает неэффективной или невозможной в следующих случаях:
* Файл DJVU содержит цветные изображения низкого разрешения (200 dpi и ниже), закодированные не в фото-режиме, а с разделением текста и фона. Результат
* Файл DJVU содержит отсканированные изображения, содержащие большую долю неразделимо слившегося с текстом «шума» из-за пятен на бумаге, помарок, расплывшихся чернил, «волос» и других дефектов печати. Результат
== См. также ==
* [[Чистка скана]] вручную с помощью [[w:Adobe Photoshop|Adobe Photoshop]]
* [[w:ScanKromsator|ScanKromsator в Википедии]]
* [[w:
== Ссылки ==
|
правок