О размножении книг и не только... [Андрей Ачинович] (fb2) читать онлайн


 [Настройки текста]  [Cбросить фильтры]
  [Оглавление]

Андрей Ачинович О РАЗМНОЖЕНИИ КНИГ И НЕ ТОЛЬКО…

Когда заходишь в книжный магазин или на книжный базар, возникает ностальгия по старым советским временам, когда цены на книги были не в пример ниже. Да и выбор качественной литературы был, как ни странно, больше.

Итак, если в вашем распоряжении имеется сканер, доступ к интересной для вас литературе и желание сделать настоящую электронную книгу, читаем дальше. Если есть только литература и большое желание — покупаем сканер, благо, для наших целей подойдут даже самые простые модели ценой $45–60, что при стоимости одной хорошей книги 10–20 тыс. рублей довольно быстро окупится.

Для тех, кто хочет сделать это «по-быстрому»…

Если вы не желаете заморачиваться с тонкостями разных форматов и программ, есть такой вариант — сканируем и распознаем книгу в программе ABBYY Fine Reader и сохраняем в любой приглянувшийся формат — среди них есть и популярные DOC и PDF. Плюс такого подхода очевиден — затраты нашего личного времени минимальны — только страницы переворачивай. Такой подход может быть приемлем для научных работ, тонких брошюр или любой литературы, содержащей преимущественно текст без сложного форматирования и формул. Но в остальном — только минусы:

1. Полученный файл не является ТОЧНОЙ КОПИЕЙ.

2. Большое количество ошибок и мусора после распознавания, которые приходится исправлять вручную.

3. Невозможность распознать формулы, порча иллюстраций, содержащих текст (т. к. Fine Reader по умолчанию пытается их распознать).

4. Отсутствие удобной навигации в полученной книге — при большом объеме это очень неприятно.

Ради справедливости надо отметить, что в седьмой версии Fine Reader для PDF была опция «заменять неуверенно распознанные слова их изображениями», что позволяло получить без особых усилий более-менее «читабельный» документ. В восьмой версии эта опция, к сожалению, исчезла, зато появилась возможность выбирать алгоритм сжатия, в частности, CCITT4, полное название — CCITT Group 4 (CCITT — Consultative Committee International Telegraph and Telephone), позволяющий очень сильно и без особых потерь сжать черно-белые изображения (каковыми в большинстве своем и являются книги).

Из вышесказанного следует такой вот вывод: если к вам на время попала хорошая и нужная книга, вполне реально изготовить ее полноценную копию и даже более того. Вам когда-нибудь встречались бумажные книги с возможностью поиска и мгновенного перехода по оглавлению? Уверен, что нет.

Варинат № 2 для ленивых, но сознательных

Скачайте замечательную бесплатную программу-просмотрщик графики IrfanView (на момент написания статьи последняя версия — 3.99, домашняя страница — www.irfanview.com). Выберите свой сканер (File — Select TWAIN Source), далее — Acquire/Batch Scanning.

Output File Name можно оставить по умолчанию. Здесь важно определиться с форматом, в который мы будем сохранять наши сканы. Есть два основных варианта. Если ваша книга или журнал напечатаны достаточно крупным и четким шрифтом, отсканируйте книгу в формат TIFF, используя для сохранения файлов алгоритм сжатия CCITT Fax 4 (только для черно-белых изображений!), разрешение при сканировании в большинстве случаев можно указывать 300 dpi. Второй вариант, предоставляющий больше возможностей для дальнейшей обработки, предполагает сохранение сканов не черно-белыми, а серыми (gray) в формат TIF с использованием алгоритма сжатия LZW. Режим сканирования (серый или черно-белый) и разрешение вы должны выбрать в TWAIN-драйвере сканера. Таким образом, сохраняя сканы серыми, мы и в скорости не потеряем, и приобретем дополнительные преимущества: возможность коррекции изображения, искусственное повышение разрешения (ресэмплинг). В минусах разве что увеличение размеров файлов при сканировании, что не так критично, и необходимость (несложной) обработки, если нужно получить черно-белое изображение. Таким образом, второй вариант более предпочтителен.

Так как с каждым сканом нам придется в будущем работать отдельно, желательно сохранять каждый отсканированный разворот в отдельный файл, а не в многостраничное изображение.

Если вы все же заинтересовались, будем разбираться дальше.

Выбираем форму для содержания

С содержанием и так все ясно — это хорошая, нужная книга (журнал, брошюра и пр.), электронную копию которой вы хотите иметь. Ну а что с форматом? Один из них — текстовый — получается после распознавания отсканированного оригинала. Если вас устроят достоинства и недостатки сканирования с последующим распознаванием и сохранением в текстовый формат, замечательно. А если нет? В таком случае есть два варианта — PDF и DjVu. Что бы там ни говорили, эти форматы очень похожи в главном — они являются контейнером для электронного документа.

На мой взгляд, в настоящее время формат DjVu более привлекателен для использования для «самиздата», чем какой-либо другой, и вот почему. В интернете существуют несколько, так сказать, инициативных групп, продвигающих данный формат, существует множество бесплатных программ, в том числе с открытым исходным кодом для создания и просмотра DjVu-файлов, которые динамично развиваются. Есть множество людей, готовых подсказать и помочь разобраться. Есть еще один очень важный довод — файлы DjVu при прочих равных условиях получаются существенно меньше, чем PDF. Но я умышленно не стану приводить результаты сравнения (которое я проводил и для себя лично), дабы не провоцировать очередную Священную Войну на тему «PDF или DjVu».

Врага надо знать в лицо, а друга — тем более!

Итак, с чем же нам предстоит работать? С текстово-графическим форматом DjVu. Изучим его подробнее.

Существующие компактные форматы JPG, GIF, факс-стандарт CCITT и JBIG обеспечивают достаточное сжатие, однако узко специализированы либо на фотографиях, либо на черно-белой графике и тексте. Поэтому смешанные изображения в их исполнении выглядят нечитаемыми. Авторы формата DjVu учли прежний опыт других разработчиков, их продукт представляет собой эдакую матрешку «3 в 1». Иными словами, изображение в формате DjVu состоит из 3 слоев. Первый слой — Mask (монохромная маска-трафарет) — содержит текст и прочие контрастные изображения и имеет разрешение 300 dpi. При таком разрешении текст достаточно хорошо читается, а размер файла остается небольшим. Ввиду того, что легкое размытие фоновой графики даже улучшает восприятие текста, фон без потерь для восприятия сохраняется с разрешением 100 dpi и образует второй слой — Background (цветной фон). В большинстве случаев цвет текста черный. И одинаковый для одного печатного знака. Данный факт позволяет сохранять цветовую информацию о тексте с разрешением всего 25 dpi. Цветовая информация образует третий слой — Foreground (цвета маски).

Как уже было сказано выше, для сжатия фона, маски и цветовой информации о маске применяются различные алгоритмы. Фон сжимается алгоритмом IW44, использующим вейвлет-преобразование. Слой-маска, не содержащая цветовой информации, упаковывается методом JB2, аналогичным применяемому при сжатии факсовых сообщений. Особенностью алгоритма JB2 является то, что он ищет на странице повторяющиеся символы и сохраняет их изображение только один раз. В многостраничных документах каждые несколько подряд идущих страниц пользуются общим «словарём» изображений. Цветовая информация о тексте также кодируется алгоритмом IW44, но разрешение снижается до 25 dpi. Кодер djvu старается создать подобие «графического шрифта» и по возможности довести схожие фрагменты изображения до идентичности. Если рассмотреть буквы в словах при большом увеличении, то видно, что близко стоящие одни и те же буквы абсолютно идентичны, причем таких серий может быть много, совсем не обязательно, чтобы один символ из «графического словаря» был применен ко всем похожим буквам. Напротив, таких эталонов может быть очень много для одной и той же буквы. Но, в целом, это дает существенное уменьшение размера файла. Нечто подобное существует у фирмы Cartesian Products, Inc, она разработала новый формат CPC для черно-белых файлов, очень похожий на CCITT Fax 4, но применяющий «графический OCR», что позволило существенно уменьшить размеры файлов, по сравнению с Fax 4. Эти два формата весьма схожи и взаимно конвертируемы при помощи кодера CPC. К сожалению, формат СРС является закрытым, принадлежит только указанной фирме, бесплатен всего лишь урезанный просмотрщик, и шансов на популярность у формата СРС, видимо, нет. Иными словами, такое сжатие можно с уверенностью назвать адаптивным, т. е. учитывающим особенности сжимаемого материала и восприятия человека.

Дежавю — история болезни

Итак, перед нами задача — превратить бумажную книгу в электронную DjVu-книгу без лишних хлопот… Рассмотрим довольно простой алгоритм, а также его достоинства и недостатки.

Предлагаемый метод будет заключаться в следующем: сканируем развороты книги в какой-либо программе (я предлагаю IrfanView, но можно и в любой другой). Разрешение де-факто для DjVu — 300 dpi, его и используем. Опытным путем определено, что при этом разрешении качество хорошее, а размер не слишком велик. При сканировании стараемся максимально плотно прижимать книгу к стеклу сканера (не перестарайтесь — один мой знакомый, сканируя довольно тяжелую книгу, выдавил стекло сканера!), чтобы увеличить качество сканов. Иначе ваши сканы будут выглядеть плохо.

Без ручной обработки тут не обойтись, а нам это ни к чему. Однако при сканировании программой-вьюером встает одна проблема — книга сканируется разворотом, и в конечном варианте так и останется. Подавляющее большинство DjVu-книг так и делаются. Для чтения это очень неудобно, т. к. весь разворот на экране монитора выглядит довольно мелко, а при увеличении масштаба страницы приходится таскать по экрану по мере прочтения. Гораздо удобнее, если развороты будут разрезаны на отдельные страницы. При просмотре потом не составит труда расположить их как понравится. Как автоматически делить развороты? В ABBYY FineReader есть такая возможность. Идем в Сервис — Опции — Сканирование/Открытие и в группе «Обработка изображений» выставляем все галочки, кроме «Инвертировать». Таким образом, FineReader в процессе сканирования произведет резку разворотов на отдельные страницы, компенсирует наклоны, почистит мусор. Хотя это все очень просто сделать, почему-то очень многие «первопечатники» пренебрегают такой возможностью и выкладывают книги в ужасном виде.

Поэтому, если нет времени или желания — отсканируйте книгу в FineReader, выделите все отсканированные страницы (в колонке слева), нажмите F12 и сохраните все в формат TIFF, черно-белый, Group4. Сохраняем отсканированные страницы в отдельные файлы. Далее нам понадобится один из основных инструментов для работы с Дежавю — Document Express Editor.

В экспресс-варианте создание DjVu будет выглядеть так. Открываем первый из сохраненных нами файлов (Файл — Открыть), к этому файлу добавляем все остальные (Правка — Добавить страницы после…). Последний шаг — сохраняем полученную последовательность страниц в единый DjVu-файл (Файл — Сохранить как…), дополнительные параметры оставляем по умолчанию. Все! Книжка готова. Не верите? Откройте ее в любой программе просмотра (одна из лучших программ просмотра файлов DjVu — WinDjVu) и убедитесь в этом…

Все бы хорошо, но созданная нами книга оставляет многого желать. Нет никакой навигации, отсутствует поиск, нельзя скопировать текст. Помимо этого, довольно большое количество мусора, который не удалил FineReader. О том, как сделать нашу электронную книгу более удобной для чтения, поговорим далее.

Добавляем оглавление и возможность поиска

Что касается оглавления, то у нас есть два варианта — «оживить» оглавление, уже бывшее в книге и отсканированное нами при помощи гиперссылок, или создать свое. Минус первого варианта — для перехода по ссылкам придется возвращаться к оглавлению, которое обычно находится в начале или конце книги, но этот метод более простой.

Итак, делаем гиперссылки.

Для этого открываем полученный DjVu-файл в Document Express Editor. Для создания гиперссылок нам понадобится панель инструментов «Аннотации». При нажатии кнопки «Прямоугольная гиперссылка» у нас появится возможность выделить область изображения и изменить параметры создаваемой ссылки:

Здесь мы просто указываем номер страницы, соответствующей пункту оглавления, и все! Вам придется отслеживать соответствие между нумерацией в бумажной и вашей электронной книге. В общем, будет достаточно сделать ссылки только на главы, хотя, если есть желание, можете сделать подробное оглавление. При желании гиперссылки можно выделить цветом, подчеркиванием и т. д. Второй вариант, с использованием возможностей Document Express Editor, можно реализовать следующим образом. При открытом Дежавю-файле слева мы видим две закладки — «Эскизы» и «Список». В эскизах мы видим уменьшенные изображения каждой страницы. В списке же, собственно, список всех страниц документа. Приступим. Первое, что надо сделать — в «Списке» удалить все страницы. Далее переключаемся в «Эскизы» и смотрим номер страницы, на которую нужно сделать ссылку в нашем оглавлении. Номер страницы должен быть не «книжным», а тем, который ему присвоил Document Express Editor (эти номера стоят под каждым эскизом). Вам нужно будет выяснить разность между «книжной» и электронной нумерацией. Это нужно для того, чтобы, просто имея перед глазами оглавление книги (а вызвать его очень просто с помощью кнопок «Первая страница» или «Последняя страница», в зависимости от того, в начале или в конце находится оглавление), сделать свое оглавление. Итак, мы выяснили, что книжная нумерация отличается от электронной на единицу. То есть, прибавив к книжному номеру 1, мы получим номер, который присвоил этой странице Document Express Editor. Начинаем создавать оглавление. Переходим к оглавлению книги, открываем «Список». Правой клавишей мыши выбираем «Добавить», вызываем окно «Свойства закладки».

Заполняем имя закладки, указываем ссылку на страницу. Номера страниц узнаем из книжного оглавления, прибавляя или отнимая число, на которое оно отличается от электронного. Все просто! В итоге мы получим электронное содержание, обеспечивающее быструю навигацию по документу.


Оглавление

  • Для тех, кто хочет сделать это «по-быстрому»…
  • Варинат № 2 для ленивых, но сознательных
  • Выбираем форму для содержания
  • Врага надо знать в лицо, а друга — тем более!
  • Дежавю — история болезни
  • Добавляем оглавление и возможность поиска