В наше время всё боле и более широко получают распространение электронные книги.
Не вызывает сомнения такие функциональные преимущества электронных книг над обычной литературой, как: удобство копирование, поиск по слову, дерево закладок, интерактивное меню. Это позволяет читателю оперативно найти требуемую информацию, без проблем скопировать её и использовать как в научных так и практических целях (послать рецепт любимого блюда в письме).
Публикация на нашем трекере электронных книг, особенно созданных вашими руками, приветствуется Администрацией. Создание таких книг является творческим процессом и требует от релизёра существенных затрат времени, умения работать с определённым набором программ и ни в коей мере не сравнима с публикацией от-сканированного материала.
В этой связи Администрацией трекера разработана система бонусов, направленная на поощрение релизёров, посвятивших себя созданию авторских релизов электронных книг (плагиат безусловно будет наказываться, вплоть до дисквалификации). Итак, приступим:
Вариант 1: Вы имеете сканер, хорошую книгу, и большое желание поделиться ей, но не знаете как это сделать. Сканируем книгу в режиме, в каком они изданы (цветные - в цветном, обложки обязательно! Техническая литература и литература без картинок сканируется в режиме - Line Art. Черно-белые иллюстрации, для передачи фактуры и полутонов можно сканировать в "сером" режиме. Обычно хватает разрешения - 300 дпи. Для создания качественных сканов, мало иметь только желание раздать, необходимо и терпение, трудолюбие, и где-то пунктуальность. Каждая страница - в отдельный Jpeg (возможно и альбомное расположение страниц, аккуратно выполненных при сканировании и повёрнутых впоследствии в правильное положение. Для уменьшения веса сканов, рекомендуется обработать сканы - Advanced Jpeg compressor 2010 в пакетном режиме в стиле Photo small size. Сразу хочется предупредить, фотографии страниц книг, приниматься в разделы трекера не будут, их можно раздать только в Темпе! Если нет у вас знаний и возможности раздать книгу в обработанном (электронном виде) можно раздать сканы, аккуратно выполненные вашими руками, с предоставлением скриншотов. Если все эти условия будут соблюдены, получите Бонус от Администрации трекера, в тоже время, Администрация оставляет за собой Право не принимать к раздаче в разделах сканы, не подлежащие никакой обработке (окончательное решение принимает модератор раздела).
Вариант 2: Вы не имеет ни сканера ни новой книги, но имеете хорошую книгу, в плохом качестве или хотите сделать её электронной или распознанной. Для этого потребуется ряд программного обеспечения. В принципе, для простой накладки текстового слоя, достаточно Acrobat Pro (Pdf) и Document Express Editor Pro (DjVu), но электронной книги вы не получите. Текстовой слой получается с ошибками (не вычитанный) и размеры такой книги увеличиваются по сравнению с исходным материалом.
Плохо обработанные сканы книг, вы получите из программ ридеров, например WinDjView 1.03 и PDF-XChange Pro (предпочитаю и как вьювер и элементарный редактор). Для этого:
1. открываем книгу, выделяем все виджеты страниц;
2. Экспортируем страницы в отдельную папку, в которой и будет осуществляться обработка сканов для дальнейшего распознавания Finereader-ом.
На примере DiVu:
[Для просмотра изображения необходимо включить JavaScript] [Для просмотра изображения необходимо включить JavaScript] [Для просмотра изображения необходимо включить JavaScript]
Аналогично экспортируются и сканы из pdf в разные форматы, но предпочитаю работать с Jpeg из-за меньшего размера, занимаемого места на Жестком диске (ЖД)
На третьем скане, представлена обработка в Microsoft Office Picture Manager, в пакетном режиме, когда сканы бледные, буквы и рисунки слабо просматриваются. Имеется в любом Офисе, и вызывается из контекстного меню в любом менеджере файлов. Обычно применяется до обработки в Scan Tailor (ST), но в данном случае видите обработку выходных tiff-ов готовых для распознавания
Для исправления этой проблемы - выравнивание страниц книги, разрезание альбомного расположения и перевод в книжное, очистка от "протяжек и грязи" (предварительно), формирование единых размеров страниц - имеется замечательная программка, распространяемая автором бесплатно - Scan Tailor. Последнюю версию можно скачать с сайта автора - http://scantailor.sourceforge.net/?q=ru/node/4. Видеоуроки по использованию программы - http://vimeo.com/12527484. Вкратце на картинках поясним, этапы работы в ST:
1. указываем путь к папке со сканами, выбираем все и нажимаем дальше;
2. программа анализирует сканы и внутри папки со сканами образует папку, где будут находиться обработанные сканы. На этом этапе, можно удалить из проекта пустые страницы-вкладки, которые не будут участвовать в обработке (если уверены, что они вам не понадобятся). Иногда эти страницы вставляются чтобы оглавление страниц соответствовало с реальностью. В таком случае, лучше их не убирать из проекта и на стадии формирования полезной площади, организовать полезную площадь приблизительно равную страницам в проекте
- если в книге, все страницы сориентированы в книжном или альбомном расположении, 1 и 2 этап являются необязательным для пакетной обработки. Просто на 1-ой странице нажимаете "применить ко всем" или "к этой и последующим страницам". 3-й этап - компенсация наклона страниц, тоже можно проводить в любой момент, поэтому если нет большой необходимости править все в ручном режиме, пропускаем и переходим к важному этапу, 4.образование полезной площади. На скрине 2 - процесс пакетной обработки.
[Для просмотра изображения необходимо включить JavaScript] [Для просмотра изображения необходимо включить JavaScript] [Для просмотра изображения необходимо включить JavaScript] [Для просмотра изображения необходимо включить JavaScript] [Для просмотра изображения необходимо включить JavaScript] [Для просмотра изображения необходимо включить JavaScript]
На 3-ем скрине, работа в ручном режиме. Программа определяет разную полезную как по ширине, так и по длине. Если оставить в исходном состоянии, то страницы с малой высотой полезной площади получаются с увеличенным по размерам шрифтом и выглядят несуразно. На 4-м скриншоте - образование полей книги, при желании их можно отрезать впоследствии, но по практическому опыту, можно отметить, что отрезание полей не ведёт к уменьшению веса книги в pdf. Важна операция тем, что на этом этапе происходит выравнивание страниц по единому размеру, и страницы выглядят аккуратно и радуют взор. на 5 скрине - настройки на выходные файлы, 6-й - получение выходных сканов
На скринах постарался отразить максимум информации.
* Надо отметить, что в некоторых случаях (очень маленькие страницы в книге ~ 9х12 см отмечен 1 случай, скантейлор создавал тифы малого размера, которые файнридер взять не мог. Можно попробовать в таких случаях, использовать обработку - Microsoft Office Picture Manager-ом, см. выше.
Если процесс подготовки сканов, это грубое отсечение лишнего и занимает приблизительно несколько часов (это не относится к изготовителю первичных сканов, особенно если в книге много страниц), то распознавание в Файнридере (ФР) может занимать от нескольких часов до нескольких суток.
ФР самостоятельно создает интерактивное оглавление, но его надо проверять (ввиду не корректности) в ридере, и в случае пропуска подправить в Acrobat Pro. Для этого, выписываем страницы с отсутствием ссылки на соответствующую страницу (как правило их немного)
Создание закладочного меню (дерева закладок) возможно также средствами ФР, но при этом они могут не соответствовать оглавлению книги. Также это возможно сделать использованием АР, Pdf & Djvu Bookmarker (ВМ) и Pdf-XChange Pro. Последний создаёт "жёсткие" связки с выделенным словом, путём нажатия горячих клавиш - Ctrl+Shift+B, AP - устанавливает полужёсткие ссылки. Возможен переход на следующую страницу, ближе к концу страницы, ВМ - устанавливает ссылки на страницу в целом, тем не менее, при редакции закладочного дерева в этой программе, сохраняется жёсткая привязка дерева, если создано в другой программе.
Используемые сокращения:
ST, СТ - Scan Tailor; FR, ФР - FineReader; АР - Acrobat Pro, ВМ - Pdf & Djvu Bookmarker
Не вызывает сомнения такие функциональные преимущества электронных книг над обычной литературой, как: удобство копирование, поиск по слову, дерево закладок, интерактивное меню. Это позволяет читателю оперативно найти требуемую информацию, без проблем скопировать её и использовать как в научных так и практических целях (послать рецепт любимого блюда в письме).
Публикация на нашем трекере электронных книг, особенно созданных вашими руками, приветствуется Администрацией. Создание таких книг является творческим процессом и требует от релизёра существенных затрат времени, умения работать с определённым набором программ и ни в коей мере не сравнима с публикацией от-сканированного материала.
В этой связи Администрацией трекера разработана система бонусов, направленная на поощрение релизёров, посвятивших себя созданию авторских релизов электронных книг (плагиат безусловно будет наказываться, вплоть до дисквалификации). Итак, приступим:
Вариант 1: Вы имеете сканер, хорошую книгу, и большое желание поделиться ей, но не знаете как это сделать. Сканируем книгу в режиме, в каком они изданы (цветные - в цветном, обложки обязательно! Техническая литература и литература без картинок сканируется в режиме - Line Art. Черно-белые иллюстрации, для передачи фактуры и полутонов можно сканировать в "сером" режиме. Обычно хватает разрешения - 300 дпи. Для создания качественных сканов, мало иметь только желание раздать, необходимо и терпение, трудолюбие, и где-то пунктуальность. Каждая страница - в отдельный Jpeg (возможно и альбомное расположение страниц, аккуратно выполненных при сканировании и повёрнутых впоследствии в правильное положение. Для уменьшения веса сканов, рекомендуется обработать сканы - Advanced Jpeg compressor 2010 в пакетном режиме в стиле Photo small size. Сразу хочется предупредить, фотографии страниц книг, приниматься в разделы трекера не будут, их можно раздать только в Темпе! Если нет у вас знаний и возможности раздать книгу в обработанном (электронном виде) можно раздать сканы, аккуратно выполненные вашими руками, с предоставлением скриншотов. Если все эти условия будут соблюдены, получите Бонус от Администрации трекера, в тоже время, Администрация оставляет за собой Право не принимать к раздаче в разделах сканы, не подлежащие никакой обработке (окончательное решение принимает модератор раздела).
Вариант 2: Вы не имеет ни сканера ни новой книги, но имеете хорошую книгу, в плохом качестве или хотите сделать её электронной или распознанной. Для этого потребуется ряд программного обеспечения. В принципе, для простой накладки текстового слоя, достаточно Acrobat Pro (Pdf) и Document Express Editor Pro (DjVu), но электронной книги вы не получите. Текстовой слой получается с ошибками (не вычитанный) и размеры такой книги увеличиваются по сравнению с исходным материалом.
Плохо обработанные сканы книг, вы получите из программ ридеров, например WinDjView 1.03 и PDF-XChange Pro (предпочитаю и как вьювер и элементарный редактор). Для этого:
1. открываем книгу, выделяем все виджеты страниц;
2. Экспортируем страницы в отдельную папку, в которой и будет осуществляться обработка сканов для дальнейшего распознавания Finereader-ом.
На примере DiVu:
[Для просмотра изображения необходимо включить JavaScript] [Для просмотра изображения необходимо включить JavaScript] [Для просмотра изображения необходимо включить JavaScript]
Аналогично экспортируются и сканы из pdf в разные форматы, но предпочитаю работать с Jpeg из-за меньшего размера, занимаемого места на Жестком диске (ЖД)
На третьем скане, представлена обработка в Microsoft Office Picture Manager, в пакетном режиме, когда сканы бледные, буквы и рисунки слабо просматриваются. Имеется в любом Офисе, и вызывается из контекстного меню в любом менеджере файлов. Обычно применяется до обработки в Scan Tailor (ST), но в данном случае видите обработку выходных tiff-ов готовых для распознавания
Для исправления этой проблемы - выравнивание страниц книги, разрезание альбомного расположения и перевод в книжное, очистка от "протяжек и грязи" (предварительно), формирование единых размеров страниц - имеется замечательная программка, распространяемая автором бесплатно - Scan Tailor. Последнюю версию можно скачать с сайта автора - http://scantailor.sourceforge.net/?q=ru/node/4. Видеоуроки по использованию программы - http://vimeo.com/12527484. Вкратце на картинках поясним, этапы работы в ST:
1. указываем путь к папке со сканами, выбираем все и нажимаем дальше;
2. программа анализирует сканы и внутри папки со сканами образует папку, где будут находиться обработанные сканы. На этом этапе, можно удалить из проекта пустые страницы-вкладки, которые не будут участвовать в обработке (если уверены, что они вам не понадобятся). Иногда эти страницы вставляются чтобы оглавление страниц соответствовало с реальностью. В таком случае, лучше их не убирать из проекта и на стадии формирования полезной площади, организовать полезную площадь приблизительно равную страницам в проекте
- если в книге, все страницы сориентированы в книжном или альбомном расположении, 1 и 2 этап являются необязательным для пакетной обработки. Просто на 1-ой странице нажимаете "применить ко всем" или "к этой и последующим страницам". 3-й этап - компенсация наклона страниц, тоже можно проводить в любой момент, поэтому если нет большой необходимости править все в ручном режиме, пропускаем и переходим к важному этапу, 4.образование полезной площади. На скрине 2 - процесс пакетной обработки.
[Для просмотра изображения необходимо включить JavaScript] [Для просмотра изображения необходимо включить JavaScript] [Для просмотра изображения необходимо включить JavaScript] [Для просмотра изображения необходимо включить JavaScript] [Для просмотра изображения необходимо включить JavaScript] [Для просмотра изображения необходимо включить JavaScript]
На 3-ем скрине, работа в ручном режиме. Программа определяет разную полезную как по ширине, так и по длине. Если оставить в исходном состоянии, то страницы с малой высотой полезной площади получаются с увеличенным по размерам шрифтом и выглядят несуразно. На 4-м скриншоте - образование полей книги, при желании их можно отрезать впоследствии, но по практическому опыту, можно отметить, что отрезание полей не ведёт к уменьшению веса книги в pdf. Важна операция тем, что на этом этапе происходит выравнивание страниц по единому размеру, и страницы выглядят аккуратно и радуют взор. на 5 скрине - настройки на выходные файлы, 6-й - получение выходных сканов
На скринах постарался отразить максимум информации.
* Надо отметить, что в некоторых случаях (очень маленькие страницы в книге ~ 9х12 см отмечен 1 случай, скантейлор создавал тифы малого размера, которые файнридер взять не мог. Можно попробовать в таких случаях, использовать обработку - Microsoft Office Picture Manager-ом, см. выше.
Если процесс подготовки сканов, это грубое отсечение лишнего и занимает приблизительно несколько часов (это не относится к изготовителю первичных сканов, особенно если в книге много страниц), то распознавание в Файнридере (ФР) может занимать от нескольких часов до нескольких суток.
1. Очень важно правильно настроить программу, поэтому сразу идём в настройки
[Для просмотра изображения необходимо включить JavaScript] [Для просмотра изображения необходимо включить JavaScript] [Для просмотра изображения необходимо включить JavaScript] [Для просмотра изображения необходимо включить JavaScript] [Для просмотра изображения необходимо включить JavaScript]
Скриншот 2. можно заполнить если знаете какую книгу будете обрабатывать, или сделать это позже;
Скриншот 3. - общие параметры сканирования, можно изменять при открывании сканов книги. Но замечено,
- если название книги на обложке не строго горизонтально (наклонное, дуговое), программа развернёт эту страницу так, что название будет горизонтально, а обложка повёрнута под углом.
- не всегда корректно разрезает альбомные страницы, как по размерам, так и по содержанию. (это хорошо делает СТ, описанный выше);
- пропускает иногда альбомные страницы не разрезая, лучше и в этом вопросе довериться СТ
2. Открываем книгу (с чистыми сканами, не требующими обработки) или обработанные сканы СТ. для этого щёлкаем по 001.tiff + зажимаем Shift + повторный щелчок на последнем tiff и даём программе поработать со сканами. Приблизительно от полу-часа до 1,5 в зависимости от величины сканов, количества, "цветовой" нагрузке.
Работа с FineReader (ФР)
После окончания работы программы:
1. Очень важно проверить правильность определения блоков, причем для электронной книги только чистые прямоугольники выделения объектов, в противном случае, они отражаться в книге не будут:
[Для просмотра изображения необходимо включить JavaScript] [Для просмотра изображения необходимо включить JavaScript] [Для просмотра изображения необходимо включить JavaScript] [Для просмотра изображения необходимо включить JavaScript] [Для просмотра изображения необходимо включить JavaScript]
На скринах 1-2 видим наличие рисунков в зоне распознавания ФР и отсутствие их в pdf. Такой вариант может пройти только в распознанных вариантах книг, с расположением текстового слоя под сканом
2. Параллельно идёт и проверка текста на ошибки. Можно использовать кнопку проверка, но предпочитаю идти по тексту, -> по красной волнистой линии (ошибка) и светло-голубой - (неуверенно распознанные символы)
[Для просмотра изображения необходимо включить JavaScript] [Для просмотра изображения необходимо включить JavaScript]
Итак по всем страницам книги.
3. Когда все пройдено, можно сохранять. Здесь надо учесть, что можно таким же образом создать и fb2 (хоть через doc, с последующей конвертацией или непосредственно в программе, но в любом случае потребуется редакция ещё с помощью - FictionBook Tools v2.0
[Для просмотра изображения необходимо включить JavaScript] [Для просмотра изображения необходимо включить JavaScript] [Для просмотра изображения необходимо включить JavaScript] [Для просмотра изображения необходимо включить JavaScript] [Для просмотра изображения необходимо включить JavaScript]
Скриншот 2. можно заполнить если знаете какую книгу будете обрабатывать, или сделать это позже;
Скриншот 3. - общие параметры сканирования, можно изменять при открывании сканов книги. Но замечено,
- если название книги на обложке не строго горизонтально (наклонное, дуговое), программа развернёт эту страницу так, что название будет горизонтально, а обложка повёрнута под углом.
- не всегда корректно разрезает альбомные страницы, как по размерам, так и по содержанию. (это хорошо делает СТ, описанный выше);
- пропускает иногда альбомные страницы не разрезая, лучше и в этом вопросе довериться СТ
2. Открываем книгу (с чистыми сканами, не требующими обработки) или обработанные сканы СТ. для этого щёлкаем по 001.tiff + зажимаем Shift + повторный щелчок на последнем tiff и даём программе поработать со сканами. Приблизительно от полу-часа до 1,5 в зависимости от величины сканов, количества, "цветовой" нагрузке.
Работа с FineReader (ФР)
После окончания работы программы:
1. Очень важно проверить правильность определения блоков, причем для электронной книги только чистые прямоугольники выделения объектов, в противном случае, они отражаться в книге не будут:
[Для просмотра изображения необходимо включить JavaScript] [Для просмотра изображения необходимо включить JavaScript] [Для просмотра изображения необходимо включить JavaScript] [Для просмотра изображения необходимо включить JavaScript] [Для просмотра изображения необходимо включить JavaScript]
На скринах 1-2 видим наличие рисунков в зоне распознавания ФР и отсутствие их в pdf. Такой вариант может пройти только в распознанных вариантах книг, с расположением текстового слоя под сканом
2. Параллельно идёт и проверка текста на ошибки. Можно использовать кнопку проверка, но предпочитаю идти по тексту, -> по красной волнистой линии (ошибка) и светло-голубой - (неуверенно распознанные символы)
[Для просмотра изображения необходимо включить JavaScript] [Для просмотра изображения необходимо включить JavaScript]
Итак по всем страницам книги.
3. Когда все пройдено, можно сохранять. Здесь надо учесть, что можно таким же образом создать и fb2 (хоть через doc, с последующей конвертацией или непосредственно в программе, но в любом случае потребуется редакция ещё с помощью - FictionBook Tools v2.0
ФР самостоятельно создает интерактивное оглавление, но его надо проверять (ввиду не корректности) в ридере, и в случае пропуска подправить в Acrobat Pro. Для этого, выписываем страницы с отсутствием ссылки на соответствующую страницу (как правило их немного)
1. Открываем файл в АР;
2. Идём в Инструменты, выбираем ссылку, закрываем область инструменты, чтобы ссылки хорошо просматривались в режиме - «Страницу в ширину»;
3. Отмечаем область оглавления (по-шагово показано на скринах);
[Для просмотра изображения необходимо включить JavaScript] [Для просмотра изображения необходимо включить JavaScript] [Для просмотра изображения необходимо включить JavaScript] [Для просмотра изображения необходимо включить JavaScript] [Для просмотра изображения необходимо включить JavaScript]
2. Идём в Инструменты, выбираем ссылку, закрываем область инструменты, чтобы ссылки хорошо просматривались в режиме - «Страницу в ширину»;
3. Отмечаем область оглавления (по-шагово показано на скринах);
[Для просмотра изображения необходимо включить JavaScript] [Для просмотра изображения необходимо включить JavaScript] [Для просмотра изображения необходимо включить JavaScript] [Для просмотра изображения необходимо включить JavaScript] [Для просмотра изображения необходимо включить JavaScript]
Создание закладочного меню (дерева закладок) возможно также средствами ФР, но при этом они могут не соответствовать оглавлению книги. Также это возможно сделать использованием АР, Pdf & Djvu Bookmarker (ВМ) и Pdf-XChange Pro. Последний создаёт "жёсткие" связки с выделенным словом, путём нажатия горячих клавиш - Ctrl+Shift+B, AP - устанавливает полужёсткие ссылки. Возможен переход на следующую страницу, ближе к концу страницы, ВМ - устанавливает ссылки на страницу в целом, тем не менее, при редакции закладочного дерева в этой программе, сохраняется жёсткая привязка дерева, если создано в другой программе.
Эта программа совершенно бесплатна, создает закладки как в DjVu так и Pdf. Её возможно скачать на сайте производителя по ссылке - http://sourceforge.net/projects/djvubookmarker/
1. При первом запуске предлагается меню задач, для создания закладочного меню необходимо копировать оглавление, отредактировать его. Сверить на соответствие страницам.
2. Вставить из буфера обмена в окно программы;
[Для просмотра изображения необходимо включить JavaScript] [Для просмотра изображения необходимо включить JavaScript] [Для просмотра изображения необходимо включить JavaScript] [Для просмотра изображения необходимо включить JavaScript] [Для просмотра изображения необходимо включить JavaScript] [Для просмотра изображения необходимо включить JavaScript]
Далее весь процесс по-шагово представлен в скринах
1. При первом запуске предлагается меню задач, для создания закладочного меню необходимо копировать оглавление, отредактировать его. Сверить на соответствие страницам.
2. Вставить из буфера обмена в окно программы;
[Для просмотра изображения необходимо включить JavaScript] [Для просмотра изображения необходимо включить JavaScript] [Для просмотра изображения необходимо включить JavaScript] [Для просмотра изображения необходимо включить JavaScript] [Для просмотра изображения необходимо включить JavaScript] [Для просмотра изображения необходимо включить JavaScript]
Далее весь процесс по-шагово представлен в скринах
Используемые сокращения:
ST, СТ - Scan Tailor; FR, ФР - FineReader; АР - Acrobat Pro, ВМ - Pdf & Djvu Bookmarker
Создано и написано бывшим Приятелем, но Уважаемым до сих пор Релизером Paralan