Оцифровка печатных текстов: различия между версиями
→Фотоаппарат
(→Приспособления для сканирования: Не обязательно снимать широкоугольным объективом) |
|||
2000 пикселей / 300 точек на дюйм × 2,54 см на дюйм = 16,9 см.
Поэтому удобнее использовать фотоаппараты с большим числом мегапикселей.
Теперь немного стандартов: лист формата А4 имеет размеры 297 х 210 мм, размер разворотов самых распространённых форматов книг — примерно такой же или чуть меньше: 19,5 см в высоту. В принципе, остаётся ещё один вариант, не предъявляющий столь высоких требований к разрешению — распознавание (OCR), но и тут есть подводные камни: во-первых, распознавание применимо лишь к книгам, содержащим текст безо всяких усложнений: химических и математических формул, иллюстраций или фотографий, во-вторых, нет никаких гарантий отсутствия искажения текста при распознавании на столь низком разрешении. Даже часто практикуемая последующая вычитка текста, хотя и снижает количество ошибок, не помогает избавиться от них полностью (или хотя бы до уровня ГОСТа — 1 опечатка на авторский лист, т. е. на 40000 знаков).▼
▲Теперь немного стандартов: лист формата А4 имеет размеры 297 х 210 мм, размер разворотов самых распространённых форматов книг — примерно такой же или чуть меньше: 19,5 см в высоту. В принципе, остаётся ещё один вариант, не предъявляющий столь высоких требований к разрешению — распознавание (OCR), но и тут есть подводные камни: во-первых, распознавание применимо лишь к книгам, содержащим текст безо всяких усложнений: химических и математических формул, иллюстраций или фотографий, во-вторых, нет никаких гарантий отсутствия искажения текста при распознавании на столь низком разрешении.
Если обеспечивать достойное качество изображения, то получается, что нужно фотографировать книги постранично или даже кусками страниц — в случае крупноформатных изданий. Про прочие оригиналы уже и говорить не приходится.▼
▲
Однако после получения изображений кусками их необходимо склеивать. Для панорамных пейзажных снимков существуют программы, осуществляющие автоматическую склейку изображений, аналогичные программные продукты существуют также для сканированных изображений, но они специфичны и в основном представляют собой военные или технические небесплатные разработки для получения полных карт или чертежей. Во всяком случае, опыт их использования в качестве генераторов полных изображений у автора отсуствует.▼
▲Однако после получения изображений кусками их необходимо склеивать.
Второй способ сшивки — это знаменитый [[w:Photoshop|Фотошоп]] или его бесплатный аналог [[w:GIMP|GIMP]] (''Гимп''). Удобно, но не автоматизируемо, причём никак.▼
▲Второй способ сшивки — это знаменитый [[w:Photoshop|Фотошоп]] или его бесплатный аналог [[w:GIMP|GIMP]] (''Гимп'').
Для получения частичных изображений надо двигать оригинал или фотоаппарат, соблюдая одинаковое освещение. Из-за этого, а также возможной у плохих фотоаппаратов бочкообразной дисторсии, склейка изображений не позволяет добиться их равномерности. Поэтому надо брать штатив и выбирать освещение, чтобы избавиться от таких искажений.
Далее — «шевелёнка». Держащие фотоаппарат руки дрожат, что приводит к размазыванию изображения, причём известно эмпирическое правило для его устранения: выдержка не должна превышать обратного фокусного расстояния. При неидеальных условиях съёмки, что в библиотеке обычно, выдержка будет относительно высокой, и последствия «шевелёнки» проявятся.▼
▲Далее — «шевелёнка».
Итак, штатив при съёмках очень желателен. Нужно также заботиться об одинаковой подсветке.
Качество съёмки будет наилучшим при специальных настройках фотоаппарата. Желательно, чтобы фотоаппарат имел возможность сохранения данных с матрицы без сжатия, в так называемый RAW-формат. Для выдерживания постоянного характера снимков для их последующей пакетной обработки необходимо выдерживать одинаковую диафрагму, фокусировку и выдержку. Отнюдь не все фотоаппараты позволяют зафиксировать сразу все эти параметры, кроме того, обычно их необходимо фиксировать вручную, а чтобы их правильно подобрать, надо быть умелым фотографом и знать свой фотоаппарат.▼
▲Качество съёмки будет наилучшим при специальных настройках фотоаппарата. Желательно, чтобы фотоаппарат имел возможность сохранения данных с матрицы без сжатия, в так называемый RAW-формат, хотя можно снимать в качественный JPEG. Для
При этом дополнительные сложности вызывает объём сохраняемых RAW-файлов. Они способны полностью исчерпать память фотоаппарата за какой-нибудь десяток-другой снимков. В самом деле, с матрицы 6-мегапиксельного аппарата обычно снимается порядка 6×4=24 МБ данных за раз, а существенного сжатия без потери качества фотоаппараты делать не умеют (да это и не нужно при обычной фотосъёмке). Из-за этого либо фотоаппарат необходимо держать постоянно подключённым к компьютеру, сбрасывая снимки по мере их возникновения (но для этого нужно специфическое программное обеспечение), либо закупаться очень большим количеством дополнительной памяти — не менее 1 ГБ.▼
▲При этом дополнительные сложности вызывает объём сохраняемых RAW-файлов. Они способны полностью исчерпать память фотоаппарата за
== Основные моменты сканирования ==
|