Инструкция по преобразованию книг

Главная страница

Разное

Инструкция по преобразованию книг в djvu-формат

Карта сайта

Пользовательский поиск

Инструкция по преобразованию книг в djvu-формат

Предупреждение

На текущий момент полное сканирование книги является противозаконным действием. Вы имеете право сделать только копию части произведения, необходимую вам для обучения. Кроме того вы можете осуществлять сканирование книг с письменного разрешения автора и переводчиков, а также старых книг на которые истек срок действия авторского права.
Сканирование
Пока у меня не было большого количества сканеров, чтоб посоветовать какую-либо определенную модель сканера. Если вы хотите заниматся сканированием книг профессионально, рекомендуется приобрести т.н. книжные (библиотечные) сканеры, но стоят они около 20000 долларов. Некоторые люди снимают изображение с помощью цифровой фотокамеры - это заметно ускоряет процесс, но качество изображения зависит от мастерства снимающего и знания им фотоаппарата. Подробнее процесс с использованием фотоаппарата описан в другой статье на этом сайте.
Сканируем страницы в любую программу для обработки изображений (например, Adobe Photoshop или ABBYY FineReader) или в файл изображения. Рекомендуется сканировать в разрешении 300-600 dpi (ниже - хуже читается, выше - размер файла больше). Разрешение выбирается тем большее, чем более темной и потертой является бумага и чем мельче текст. Практическая скорость сканирования обычно около 1 минуты на страницу. Рекомендуемое разрешение 400 dpi.
Сканировать рекомендуется в форматы .tif, .jpg или .bmp. Следует учесть, что форматов .tif несколько, и среди них есть такие, которые не открываются DjvuSolo и DjvuEditor'ом (например, многостраничные tif). Преобразовать из одного tif-формата в другой можно осуществлять программами для обработки изображений (Adobe Photoshop или GIMP, в крайнем случае Paint).
Если у вас на странице только текст, то рекомендуется преобразовывать в черно-белый формат сразу на этапе сканирования, так как сканер сможет более точно разделить границы текст-фон, чем любые редакторы в дальнейшем. При наличии серых или цветных рисунков сканирование осуществляется соответственно в сером или цветном режиме. Рекомендуется в цветном режиме сканировать только те страницы книги, которые содержат цветные иллюстрации; сканирование цветных номеров страниц, цветных рамок таблиц и т.п. смысла не имеет.
При сканировании удобно называть файлы 0001, 0002, 0003 и т.д. - это в дальнейшем облегчает объединение их в книгу и исключает путаницу. При сканировании разворотов можно называть файлы по номеру одной из страниц. В больших книгах, не помещающихся в сканер, обычно сначала сканируется одна сторона (например, нечетная), затем другая.
Интересная особенность была замечена при сканировании сканером HP ScanJet 5300C. Если книга полностью перекрывает левую границу сканера, то на изображении возникают белые пятна несосканированного текста. Сдвинув страницу можно избавится от эффекта. Эффект связан с попыткой програмного обеспечения поставляемого со сканером произвести автоматическое распознавание границ текста. Такие же ситуации могут возникнуть у многих современных сканеров.
Даже если вы не собираетесь сканировать всю книгу целиком, а просто сканируете для кого-нибудь 1-2 странички, рекомендуется сосканировать страницу с названием книги. Это поможет людям указать правильную литературную ссылку, если они будут использовать его в своей работе/реферате, а также облегчит труд человека, который в дальнейшем соберётся отсканировать эту книгу полностью (не надо будет повторно сканировать одно и то же). Также очень полезно содержание книги, по нему хорошо искать необходимые страницы. В идеале хорошо было бы сделать содержание в виде гиперссылок на соответствующие страницы. Если желаете сохранить в файле оформление обложки книги, то рекомендуется помещать ее в конец, так как полноцветные или темные страницы открываются долго и человек может решить, что файл с книгой поврежден.
Сканирование в FineReader 7 позволяет не нумеровать страницы вручную и облегчает некоторые ручные операции с изображениями (поворот страниц, обрезание темных полос, разрезание разворотов на отдельные страницы). Недостатком данной программы является создание многостраничных tif-файлов (на второй странице хранится разбивка на блоки), для преобразования которых требуется пересохранение другими графическими редакторами. Кроме того FineRider проводит предварительную коррекцию изображения (отмечено, например, превращение им букв "н" в "и" для русских текстов).

Преобразование pdf-файлов

Для преобразования pdf в tif используется Adobe Acrobat 5 (не Reader) или выше (можно приобрести на сайте www.adobe.com). В нем открывается pdf-файл и выбирается команда File -> Export -> Extract image as -> tiff files (в версии 7 Файл -> Сохранить как). Процесс преобразования довольно длительный. Полученные tif-файлы можно очистить от полос, если это требуется или сразу собирать из них djvu-книгу. В версии Acrobat 7 свойства получаемых tif-файлов можно настроить в окне выбора формата вывода (кнопка Setting) - рекомендуется убрать LVZ-сжатие и выставить приемлимое разрешение.
Для прямого преобразования pdf в djvu есть программа Document Express Enterprise. Кроме преобразования pdf в djvu, она позволяет производить еще множество операций (преобразование графических файлов в djvu, подключение к нему OCR и т.д.).
Преобразование pdf-файлов, содержащих выделяемый текст и имеющих размер менее 25 кб на страницу не имеет смысла, так как полученный djvu-файл скорее всего будет такого же или даже большего размера.

Обработка изображений

Обработку изображения с дефектами можно производить любым графическим редактором работающим с форматами tif, jpg и bmp. Такими как, Adobe Photoshop 7 или GIMP. В случае их отсутствия можно воспользоваться программой Paint или средствами входящими в инструменты MS Office.
Рекомендуется, где это возможно, преобразовывать книги из полноцветной графики в bitmap (двухцветный, черно-белый) или серый вид, кроме случаев, когда на странице необходимо сохранить цветной рисунок или серый неконтрастный рисунок с мелкими деталями. Это сильно уменьшает объем книги. В некоторых случаях перед преобразованием требуется изменить контрастность и удалить фон.
Рекомендуется удалять боковые и серединные черные полосы. За счет этих полос размер книги может возрости в 2-3 раза. Также желательно выровнять текст - это облегчает чтение и распознавание. Для облегчения чтения также рекомендуется поворачивать таблицы напечатанные боком в удобное для чтения положение. Таблицы, где названия колонок занимают целиком разворот лучше сканировать разворотами.
Рекомендуется разделять сдвоенные страницы (кроме случаев широких таблиц) и располагать их по порядку с сохранением соответствия номера страницы в книге и DjvuPlugin'е. Это сильно облегчает поиск нужной страницы, хотя и несколько увеличивает книгу.
В Adobe Photoshop есть возможность автоматизировать повторяющиеся действия. Для этого открываете вкладку Действия (Action), создаете новый набор, затем создаете действие. После нажатия кнопки "Запись" (черный кружок) Photoshop начинает запоминать все ваши действия выполняемые над рисунком (кроме уменьшения-увеличения рисунка). После выполнения всех необходимых действий нажимаете на кнопку с черным квадратом ("остановка записи"). Запись прекращается. Не рекомендуется в записываемые действия вносить удаления и обрезание, так как могут быть обрезаны части книги с текстом. Для использования записанного действия выбираем Файл > Автоматизировать > Группа. Выбираете действие, папку с еще необработанными изображениями, назначение - Сохранить и закрыть и нажимаете ОК.
Если в книге последней страницей указаны опечатки или вы сами нашли опечатки, то их можно либо исправить, либо пометить на изображении (на полях) используя программы для редактирования графики.

Сбор книги в программе DjvuSolo или DjvuEditor

Запускаем программу DjvuSolo или DjvuEditor (из пакета Document Express, все эти программы можно найти на сайте www.djvu-soft.narod.ru).
Выбираем в меню File - Open (или кликаем на иконку открывающейся желтой папки на панели инструментов). Выбираем файл-картинку первой страницы (если ее не видно, значит в нижнем выпадающем списке необходимо выбрать "All Supported Image Files"). Нажимаем "Открыть".
Выбираем в меню Edit - Append Pages. Выбираем вторую страницу книги. Нажимаем "Открыть". И так можно собрать всю книгу. Для быстрого добавления всех страниц книги необходимо, чтобы названия файлов располагались в том же порядке, что и страницы (например называть их 0001, 0002, 0003 и т.д.) и находились в одной папке. Тогда после команды Append Pages выбираем последний файл списка и удерживая Shift кликаем на второй файл списка (первую страницу мы открыли ранее), после чего нажимаем "Открыть". При добавлении большого количества файлов создается впечатление, что программа зависла. Это происходит, так как она в этот момент использует большое количество оперативной памяти. Требуется переждать этот период (до исчезновения "часиков", на слабых машинах этот период может продолжатся 1-2 часа). Длина командной строки для добавления файлов ограничена, поэтому если добавлять разом более 200-500 страниц может произойти сброс команды (тогда вместо ожидаемого курсора в виде часов остается стрелка курсора). В этом случае нужно добавлять файлы группами по 100-200 штук.
Выяснилось, что не все виды tif-файлов поддерживаются программой DjvuSolo, на некоторые она выдает ошибку Invalid G4/MMR Data, а при попытке сохранения в виде djvu-файла, программа закрывается из-за ошибки. Такие tif-файлы пересохраняют в любом графическом редакторе в виде несжатых tif-файлов и снова собирают в книгу. Второй вариант - открыть такой файл, выделить пустое место, нажать Delete, затем закрыть файл и сохранить изменения. Можно также преобразовать tif файлы в несжатые bmp, с которыми проблем нет.
После добавления всех страниц в книгу, выбираем в меню File -> Encode As Djvu и в предложенном меню задаем имя конечного файла djvu (рекомендуется указывать расширение djvu, а не djv). Затем в появившемся окне указываем разрешение (не менее 300!) и режим Bundled. Ждем пока прогресс-бар не исчезнет (дойдет до 100%). Теперь у вас готовая книга в djvu-формате.
Некоторые недокументированные возможности и секреты:
Убрать фон можно не пользуясь другими графическими программами, кроме DjvuSolo. Но для этого надо немного извратится. Открыть цветную сканированную страницу в DjvuSolo, перевести в файл djvu. После этого включить режим скрытия фона и импортировать страницу в bmp-файл. Полученный bmp-файл уже не будет содержать фона. Из bmp-файлов вновь собирают книгу.
При сборке книги рекомендуется цветную страницу обложки делать последней, так как отображение полноцветных изображений в DjvuPlugin'e или DjvuView'ере медленное и человек может подумать, что у него сбой или зависание плагина при открытии документа.
Программа DjvuEditor (она же Document Express Professional) позволяет также делать следующие действия, отсутствующие в DjvuSolo: поворачивать страницы (вручную каждую), проводить распознование на английском языке. Workflow Manager входящий в комплект Document Express Enterprise 5.1 может также проводить распознование djvu-файлов на русском языке (хотя делает это и хуже, чем FineReader).
Нормально собранный djvu-файл, с нецветными страницами, не должен иметь размер более 15 кб на каждую страницу текста (при наличии распознования - не более 30 кб на каждую страницу книги).
Существует проблема "инь": часть букв "и" в готовой книге превращаются в "н". Быстрые способы устранения (увеличивают размер файла): при сборке книги программой DjvuSolo требуется выбирать режим "Clean", а в программе DEE 5.1 надо выставить Text Quality как lossless. Кроме того увеличения разрешения сканирования более 350 уменьшает число данных ошибок.

Подключение OCR с помощью программы DjvuOCR

Рекомендуется сделать распознавание текста (OCR) в книге. Это дает возможность поиска страницы с необходимой информацией средствами DjvuPlugin'a (значок бинокля на панели инструментов) и Djvu Viewer'a. При этом размер djvu-файла увеличивается в 1,5-2 раза.
Djvu-файл требуется разложить на tif-файлы. Это делается с помощью программы DjvuOCR. Для этого запускаем программу в запускаем DjvuDecoder. Указываем djvu-файл, который требуется разложить (нажав на кнопку Add) и нажимаем кнопку Process.
Распознование осуществляется программой ABBYY FineReader версий 7 или 9 (сайт разработчика www.abbyy.com). Она умеет открывать многостраничные tif-файлы и дает frf-файлы, необходимые для следующей стадии. После распознования программу ABBYY FineReader 7 требуется закрыть с сохранением пакета в какую-либо папку. В последних версиях FineReader'а появилась возможность напрямую распозновать djvu-файлы.
Полученные при распозновании frf-файлы лежат там куда вы сохранили пакет. В программе DjvuOCR запускаете Batch mode OCR manager, указываете исходный djvu-файл и папку где находится пакет FineReader. После чего нажимаете кнопку Process.
После окончания процесса получаете djvu-файл в котором можно проводить поиск текста, кроме того автоматически создается html-файл с текстом книги.
Последняя версия DjvuOCR имеет возможность убирать неудачный OCR из djvu-файла.

Подключение OCR с помощью программы Document Express Enterprise

Программа Document Express Enterprise имеет большой размер (около 200 Мб), но и большие возможности. Она может использоватся как для создания djvu-файлов, так и для подключения к ним OCR на нескольких десятках языков (в т.ч. русском).
Для работы в Document Express Enterprise запускается Workflow Manager. В нем на вкладках выбираются исходные обрабатываемые файлы, желаемые действия, названия конечного файла, после чего в меню выбирается Job - Start All Job.
Document Express Enterprise умеет проводить OCR пакетно в нескольких djvu-файлах.
Недостатком программы является наличие ошибок при проведении OCR djvu-файлов на русском языке. Номера страниц на которых произошла ошибка пишутся в логе работы. Для исправления этих ошибок номера ошибочных страниц переписываются, затем указанные страницы извлекаются из djvu-файла в виде отдельной страницы djvu и bmp. Bmp-файл распознается как было указано выше и программой DjvuOCR присоединяется к djvu-странице. Полученная распознанная djvu-страница вставляется в djvu-книгу взамен нераспознанной с помощью программ DjvuSolo или DjvuEditor.

Распознавание книг в текстовый формат

Для электронной книги одним из вариантов может являтся doc-формат (Файлы Microsoft Word, сайт разработчика www.microsoft.com) или аналогичный ему формат OpenOffice, с сохранением оформления и страниц оригинала или последние версии (Adobe Acrobat 6 и выше) pdf-формата в виде текста, так как в тексте можно проводить полнотекстовый поиск и он меньше по размеру, чем изображения страниц. В связи с трудностью преобразования книг в текстовый формат из графики и используется djvu-формат как наиболее компактный из графических. Файл pdf составленный из графических файлов лучше преобразовать в djvu, если в pdf-файле приходится более 15 кб на страницу книги (у djvu степень сжатия составляет 5-15 кб/стр без OCR и 15-30 кб/стр с OCR). Дальнейшие рекомендации даются для djvu-книг.
Процесс распознавания - это преобразование djvu-книги в файл, содержащий информацию в виде текста. В процессе преобразования рекомендуется сохранять соответствия между номерами страниц оригинала и номерами страниц файла получающегося при распозновании. Это позволит ссылатся на страницы оригинала используя распознанную книгу. В случае если вы хотите добавить свои замечания - лучше их вставить последней страницей.
Распознавание можно проводить программой ABBYY FineReader (сайт разработчика www.abbyy.com). При этом можно использовать пакеты полученные при подключении OCR к djvu-файлу. Просто после распознавания можно сохранить результат в файл Microsoft Word. Для ускорения распознования было рекомендовано, если книга сделана постранично, а не разворотами, в настройках на вкладке Recognition -> Document type выбрать single column.
Полученный doc-файл будет содержать большое количество ошибок. Их исправление - трудоемкий процесс, который в основном и является помехой для распознавания. Практически все формулы и схемы реакций придется перерисовывать. Формулы и схемы реакций я бы рекомендовал рисовать программой ChemSketch от ACDLabs, которая интегрируется с MS Word'ом. Это позволит тем, кому это необходимо, отредактировать схемы реакций для себя при использовании документа. У тех у кого на компьютере нет установленного ChemSketch, формулы будут отображаться нередактируемыми графическими объектами.
Появились последние версии FineReader'a, которые могут напрямую открывать и распознавать djvu-файлы.

Просмотр полученных djvu-файлов.

Для просмотра файлов djvu и djv можно использовать следующие программы: DjvuSolo, DocumentExpress, WinDjView (для Windows), DjVuLibre (для Unix), STDU Viewer. Кроме того множество программ для работы с форматом djvu можно найти на странице http://www.djvu-soft.narod.ru.
Для поиска в большой базе книг можно воспользоваться программой Archivarius 3000. Она папку с книгами и по распознанным djvu создает свою базу для поиска (часто довольно большую - более 1 Гб) по которой можно найти книгу в которой упоминается нужное вам слово. Есть упоминание, что можно использовать также программу "Яндекс. Персональный поиск".

Упомянутое выше програмное обеспечение.

Adobe Photoshop (графический редактор, платный)
ABBYY FineReader (программа распознования текста, платная)
GiMP (графический редактор, бесплатный)

электронной почте

Статья написана Кипером Русланом для chemister.pp.ru. Дата последнего изменения 23.04.2011.

Карта сайта

Инструкция по преобразованию книг в djvu-формат

Предупреждение

Сканирование

Преобразование pdf-файлов

Обработка изображений

Сбор книги в программе DjvuSolo или DjvuEditor

Подключение OCR с помощью программы DjvuOCR

Подключение OCR с помощью программы Document Express Enterprise

Распознавание книг в текстовый формат

Просмотр полученных djvu-файлов.

Упомянутое выше програмное обеспечение.