Оцифровка печатных текстов: различия между версиями

м
замена категории на шаблон для работы полки, removed: Категория:Компьютерная графика с помощью AWB
м (замена категории на шаблон для работы полки, removed: Категория:Компьютерная графика с помощью AWB)
 
* Перевести файл в формат DJVU и произвести распознавание (OCR) текста. Перевод из векторного PDF в DJVU производится утилитами gs2djvu или pdftodjvu.
 
* Если есть исходный PS файл, созданный утилитой dvips версии 5.58 или старше, то можно воспользоваться утилитой pkfix.
 
 
* Файл DJVU содержит цветную информацию, то есть DJVU-элементы типа IW44 (это видно из свойств страницы, или из результата djvudump), в то время как текст на самом деле чисто чёрно-белый. Цветовая информация является лишней и была включена в файл по ошибке. Исправляется переделкой DJVU в черно-белом режиме. Возможно также убрать лишние цветовые слои с помощью DjVu layers remove (на основе djvused), но текущая версия не поддерживает гиперссылки. (Строго говоря, это не совсем так — черное поле буквы основное, но в «цветном» режиме края букв выглядят более сглаженными. Поэтому в ряде случаев, если буквы и так низкого разрешения, стоит оставлять книгу как есть. Обработка должна идти до запаковывания в DjVu. Доделка часто ухудшает качество и читабельность, пусть даже уменьшая размер. Отключить же цвет в DjVu книге можно просто выбрав другой режим просмотра).
 
* Страницы в файле DJVU расставлены в неверном порядке. Исправляется вручную с помощью Djvu Editor / Djvu Solo, или с помощью утилит djvm/djvmcvt (разбирая DJVU файл на отдельные страницы и собирая обратно, без перекодирования).
 
* Гиперссылки показывают на неправильные страницы или на несуществующие файлы. Исправляется редактированием гиперссылок (утилита djvused и текстовый редактор).
 
* Отсутствует OCR-слой (распознанный текст). OCR-слой можно создать с помощью программы распознавания текста, например Fine Reader, Ocropus или Djvu Editor.
 
* Файл DJVU содержит изображения, сосканированные в развороте (2 страницы на лист), с тёмными полосами по краям, и/или невыровненные изображения страниц. Исправляется переделкой файла в программе типа ScanKromsator или ScanTailor.
 
* Файл DJVU был сжат в неоптимальном режиме (например Lossless или с маленьким размером DJVU-словаря) и поэтому имеет слишком большой размер. Исправляется перекодированием в более оптимальном режиме.
 
 
* Файл DJVU содержит цветные изображения низкого разрешения (200 dpi и ниже), закодированные не в фото-режиме, а с разделением текста и фона. Результат — текст практически нечитаем. Исправить нельзя, так как большая часть изображения уже потеряна или не была отсканирована.
 
* Файл DJVU содержит отсканированные изображения, содержащие большую долю неразделимо слившегося с текстом «шума» из-за пятен на бумаге, помарок, расплывшихся чернил, «волос» и других дефектов печати. Результат — файл очень большого размера. Если сканы были высокого разрешения (400 dpi и выше), то текст с экрана читается неплохо, а если файл в разрешении 300 dpi и ниже, то читается тяжело. Исправить затруднительно, без трудоёмкой чистки изображений вручную.
 
* [http://web.archive.org/web/20121018214559/http://publ.lib.ru/OCR/_Ocr.html «Правила сканирования Готье Неимущего».] Это для тех, кто хочет распознавать и верстать книги, но есть важные замечания и по собственно технике сканирования.
* [http://narod.ru/disk/8856739001/FastScan.rar.html FastScan] — макрос для автоматического сканирования многих страниц подряд с помощью [[w:IrfanView|IrfanView]].
 
[[Категория:{{Темы|Компьютерная графика]]}}
 
[[Категория:Сканирование]]
[[Категория:Компьютерная графика]]
531

правка