Оцифровка печатных текстов: различия между версиями

(→‎Приспособления для сканирования: Не обязательно снимать широкоугольным объективом)
2000 пикселей / 300 точек на дюйм × 2,54 см на дюйм = 16,9 см.
 
Поэтому удобнее использовать фотоаппараты с большим числом мегапикселей.
Теперь немного стандартов: лист формата А4 имеет размеры 297 х 210 мм, размер разворотов самых распространённых форматов книг — примерно такой же или чуть меньше: 19,5 см в высоту. В принципе, остаётся ещё один вариант, не предъявляющий столь высоких требований к разрешению — распознавание (OCR), но и тут есть подводные камни: во-первых, распознавание применимо лишь к книгам, содержащим текст безо всяких усложнений: химических и математических формул, иллюстраций или фотографий, во-вторых, нет никаких гарантий отсутствия искажения текста при распознавании на столь низком разрешении. Даже часто практикуемая последующая вычитка текста, хотя и снижает количество ошибок, не помогает избавиться от них полностью (или хотя бы до уровня ГОСТа — 1 опечатка на авторский лист, т. е. на 40000 знаков).
 
Теперь немного стандартов: лист формата А4 имеет размеры 297 х 210 мм, размер разворотов самых распространённых форматов книг — примерно такой же или чуть меньше: 19,5 см в высоту. В принципе, остаётся ещё один вариант, не предъявляющий столь высоких требований к разрешению — распознавание (OCR), но и тут есть подводные камни: во-первых, распознавание применимо лишь к книгам, содержащим текст безо всяких усложнений: химических и математических формул, иллюстраций или фотографий, во-вторых, нет никаких гарантий отсутствия искажения текста при распознавании на столь низком разрешении. ДажеТолько часто практикуемаятщательная последующая вычитка текста,и хотяпроверка итекста снижает количество ошибок, неи помогает избавиться от них полностью (или хотя бы до уровня ГОСТа — 1 опечатка на авторский лист, т. е. на 40000 знаков).
Если обеспечивать достойное качество изображения, то получается, что нужно фотографировать книги постранично или даже кусками страниц — в случае крупноформатных изданий. Про прочие оригиналы уже и говорить не приходится.
 
ЕслиЧтобы обеспечиватьобеспечить достойноевысокое качество изображения, то получается, что нужнонадо фотографировать книги постранично или даже кусками страниц — в случае крупноформатных изданий. Про прочие оригиналы уже и говорить не приходится.
Однако после получения изображений кусками их необходимо склеивать. Для панорамных пейзажных снимков существуют программы, осуществляющие автоматическую склейку изображений, аналогичные программные продукты существуют также для сканированных изображений, но они специфичны и в основном представляют собой военные или технические небесплатные разработки для получения полных карт или чертежей. Во всяком случае, опыт их использования в качестве генераторов полных изображений у автора отсуствует.
 
Однако после получения изображений кусками их необходимо склеивать. ДляЭто панорамныхделают пейзажныхпрограммы снимковдля существуютсбора программыпанорамных снимков, осуществляющие автоматическую склейку изображений, аналогичные программные продукты существуют также для сканированных изображений, но они специфичны и в основном представляют собой военные или технические небесплатные разработки для получения полных карт или чертежей. Во всяком случае, опыт их использования в качестве генераторов полных изображений уПользоваться автораими отсуствуетлегко.
Второй способ сшивки — это знаменитый [[w:Photoshop|Фотошоп]] или его бесплатный аналог [[w:GIMP|GIMP]] (''Гимп''). Удобно, но не автоматизируемо, причём никак.
 
Второй способ сшивки — это знаменитый [[w:Photoshop|Фотошоп]] или его бесплатный аналог [[w:GIMP|GIMP]] (''Гимп''). Удобно,Менее ноудобно неи автоматизируемо,требует причёмручной никакдоводки.
Дополнительная проблема — для получения частичных изображений необходимо двигать оригинал или фотоаппарат. В любом случае изменяются условия: либо освещённость поверхности, либо угол зрения. Из-за этого, а также стандартной для фотоаппаратов бочкообразной дисторсии, склейка изображений не позволяет добиться их равномерности. Теоретически, конечно, можно соорудить специальный штатив с источниками подсветки для уничтожения этих искажений, но система будет монструозной и к использованию потому не пригодной (разве что в домашних условиях, а при этом теряется основа удобства фотоаппарата — его мобильность).
 
Для получения частичных изображений надо двигать оригинал или фотоаппарат, соблюдая одинаковое освещение. Из-за этого, а также возможной у плохих фотоаппаратов бочкообразной дисторсии, склейка изображений не позволяет добиться их равномерности. Поэтому надо брать штатив и выбирать освещение, чтобы избавиться от таких искажений.
Далее — «шевелёнка». Держащие фотоаппарат руки дрожат, что приводит к размазыванию изображения, причём известно эмпирическое правило для его устранения: выдержка не должна превышать обратного фокусного расстояния. При неидеальных условиях съёмки, что в библиотеке обычно, выдержка будет относительно высокой, и последствия «шевелёнки» проявятся.
 
Далее — «шевелёнка». ДержащиеРуки фотоаппаратс рукифотоаппаратом дрожат, что приводит к размазыванию изображения, причём известно эмпирическое правило для его устранения: выдержка недолжна должнабыть превышатьменьше обратного фокусного расстояния. При неидеальныхбиблиотечных условиях съёмки, чтонадо вувеличить библиотекеколичество обычно,снимков выдержкаи будет относительноповысить высокойчувствительность, и последствияникакой «шевелёнки» проявятсяне будет.
Из этого вывод: штатив при съёмках очень желателен. Нужны также два источника подсветки — справа и слева — для устранения теней на развороте. Но если последующее распознавание текста не требуется, можно обойтись и ручной съёмкой с данным освещением.
 
Итак, штатив при съёмках очень желателен. Нужно также заботиться об одинаковой подсветке.
Качество съёмки будет наилучшим при специальных настройках фотоаппарата. Желательно, чтобы фотоаппарат имел возможность сохранения данных с матрицы без сжатия, в так называемый RAW-формат. Для выдерживания постоянного характера снимков для их последующей пакетной обработки необходимо выдерживать одинаковую диафрагму, фокусировку и выдержку. Отнюдь не все фотоаппараты позволяют зафиксировать сразу все эти параметры, кроме того, обычно их необходимо фиксировать вручную, а чтобы их правильно подобрать, надо быть умелым фотографом и знать свой фотоаппарат.
 
Качество съёмки будет наилучшим при специальных настройках фотоаппарата. Желательно, чтобы фотоаппарат имел возможность сохранения данных с матрицы без сжатия, в так называемый RAW-формат, хотя можно снимать в качественный JPEG. Для выдерживания постоянного характера снимков для их последующей пакетной обработки необходимонадо выдерживать одинаковую диафрагму, фокусировку и выдержку. ОтнюдьИными не все фотоаппараты позволяют зафиксировать сразу все эти параметры, кроме того, обычно их необходимо фиксировать вручную, а чтобы их правильно подобратьсловами, надо быть''знать умелымсвой фотографомфотоаппарат'' и знатьуметь свойим фотоаппаратпользоваться.
При этом дополнительные сложности вызывает объём сохраняемых RAW-файлов. Они способны полностью исчерпать память фотоаппарата за какой-нибудь десяток-другой снимков. В самом деле, с матрицы 6-мегапиксельного аппарата обычно снимается порядка 6×4=24 МБ данных за раз, а существенного сжатия без потери качества фотоаппараты делать не умеют (да это и не нужно при обычной фотосъёмке). Из-за этого либо фотоаппарат необходимо держать постоянно подключённым к компьютеру, сбрасывая снимки по мере их возникновения (но для этого нужно специфическое программное обеспечение), либо закупаться очень большим количеством дополнительной памяти — не менее 1 ГБ.
 
При этом дополнительные сложности вызывает объём сохраняемых RAW-файлов. Они способны полностью исчерпать память фотоаппарата за какойкакие-нибудь десятоктриста-другойпятьсот снимков. В самом деле, с матрицы 6-мегапиксельного аппарата обычно снимается порядка 6×4=24 МБ данных за раз, а существенного сжатия без потери качества фотоаппараты делать не умеют (да это и не нужно при обычной фотосъёмке). Из-за этого либо фотоаппарат необходимо держать постоянно подключённым к компьютеру, сбрасывая снимки по мере их возникновения (но для этого нужно специфическое программное обеспечение), либо закупатьсяПоэтому оченьнадо большимиметь количествомбольшую дополнительнойкарточку памяти — не менее 1 ГБ.
Примечание: в тексте говорится о теоретических проблемах при копировании с помощью фотоаппарата, однако на практике (переведены в djvu сотни книг) даже 3 мегапиксельный фотоаппарат делает djvu разворота книги абсолютно приемлемого качества. Очевидно это связано с особенность техники сжатия, текст состоит из миниизображений букв. Поскольку почти все буквы «а» искажены одинаково, то и глаз человека на этом не спотыкается.
Кроме того принципиально важен режим съемки с «ручными» установками диафрагмы и выдержки (маленькая диафрагма + большая выдержка). Большинство фотоаппаратов обеспечивают его только при дистанционном управлении со стороны компьютера. В случае работы на «автомате» качество изображения действительно не выдерживает никакой критики.
 
== Основные моменты сканирования ==
Анонимный участник